ที่ Nara Lab เราเชื่อว่า AI ภาษาไทยต้องเป็นของคนไทย — ไม่ใช่ของบริษัทใดบริษัทหนึ่ง นั่นคือเหตุผลที่เราเลือกพัฒนาทุกอย่างเป็นโอเพ่นซอร์สภายใต้ Apache 2.0
หลักการ 4 ข้อของ Nara Lab
1. โอเพ่นซอร์ส (Open Source)
ทุกโมเดล ทุกเครื่องมือ เปิดเป็นสาธารณะ — โค้ดทั้งหมด น้ำหนักโมเดล ชุดข้อมูล และเอกสาร สามารถเข้าถึง ตรวจสอบ และนำไปใช้ได้โดยไม่มีข้อจำกัด
ทำไมต้อง Apache 2.0?
- ใช้เชิงพาณิชย์ได้ — บริษัทหรือองค์กรสามารถนำไปใช้สร้างผลิตภัณฑ์
- แก้ไขได้ — ปรับแต่งให้เหมาะกับงานเฉพาะ
- ไม่ต้องแจ้งเรา — เราไม่ต้องการ control การใช้งานของคุณ
2. โปร่งใส (Transparent)
เราเปิดเผยทุกอย่าง:
- ข้อมูลการฝึก: คลังข้อมูลที่ใช้ฝึกโมเดล — มาจากไหน ขนาดเท่าไหร่
- ข้อจำกัด: โมเดลของเราทำอะไรไม่ได้บ้าง — เราไม่ overclaim
- ผลการทดสอบ: Benchmark จริง — ไม่มีการเลือกเฉพาะผลที่ดี
3. รับผิดชอบ (Responsible)
AI ที่ดีต้องถูกออกแบบโดยคำนึงถึงสังคม:
- ลดอคติ — ข้อมูลฝึกครอบคลุมทุกภูมิภาคและทุกกลุ่ม
- เคารพความหลากหลาย — ภาษาไทยมีหลายสำเนียง หลายการใช้งาน
- ความเป็นส่วนตัว — โมเดลของเรารันบนเครื่องคุณได้ ไม่ต้องส่งข้อมูลออก
4. เพื่อคนไทย (For Thai)
ภาษาไทยไม่ใช่ภาษาเสริม — เป็นหัวใจของทุกสิ่งที่เราสร้าง:
- Tokenizer ถูกออกแบบเพื่อภาษาไทยโดยเฉพาะ
- ชุดฝึกมีสัดส่วนภาษาไทยมากที่สุด
- Benchmark วัดความสามารถภาษาไทยเป็นหลัก (Belebele Thai)
ทำไมเราไม่ทำ closed-source?
ตลาด AI ไทยถูกครอบงำโดยโมเดลจากต่างประเทศที่เข้าใจภาษาไทยเป็นภาษารอง:
- ค่า API แพง — จ่ายต่อ token
- ข้อมูลต้องส่งออกนอกประเทศ — ความเป็นส่วนตัว?
- ปรับแต่งไม่ได้ — ต้องใช้แบบที่เขาให้
เราเชื่อว่าทางออกคือโมเดลที่คนไทยเป็นเจ้าของเอง — รันบนเครื่องคุณ ปรับแต่งได้ ไม่มีค่าใช้จ่าย
มาร่วมกัน
Nara Lab ไม่ใช่บริษัท — เป็นห้องแล็บที่เปิดให้ทุกคนเข้าร่วม:
- GitHub — โค้ดและ Issue
- Hugging Face — โมเดลและ Dataset
- Discussions — แลกเปลี่ยนความคิดเห็น
ไม่ว่าคุณจะเป็นนักพัฒนา นักวิจัย หรือผู้ใช้ทั่วไป — เรายินดีต้อนรับ