หลายเดือนที่ผ่านมา ทีม Nara Lab ทุ่มเทให้กับการสร้าง Nara AI — โมเดลภาษาไทยที่เข้าใจบริบทของไทยจริง ๆ ไม่ใช่แค่แปลจากภาษาอังกฤษ วันนี้เราพร้อมเปิดเผยแผนการเปิดตัว v1
ทำไมต้องเป็นโมเดลภาษาไทยโอเพ่นซอร์ส?
โมเดลภาษาส่วนใหญ่ที่ใช้กันอยู่ — แม้จะเก่งก็จริง — แต่เข้าใจภาษาไทยในระดับ “แปลได้” ไม่ใช่ “เข้าใจ”
ปัญหาคือ:
- วัฒนธรรมและบริบท: คำว่า “เกรงใจ” ไม่มีในภาษาอังกฤษ โมเดลที่ train กับ corpus อังกฤษไม่เข้าใจ
- ความเป็นทางการ: ภาษาไทยมีระดับความสุภาพที่ซับซ้อน (ครับ/ค่ะ, ราชาศัพท์)
- ความเป็นเจ้าของ: ถ้าโมเดลปิด ใครจะรู้ว่ามัน bias อย่างไร?
สถาปัตยกรรมของ Nara AI v1
เราเลือก Gemma 4 12B เป็นฐาน เพราะ:
- ขนาดพอเหมาะ — ใหญ่พอที่จะเก่ง แต่เล็กพอที่จะรันได้บนเครื่องคน
- โอเพ่นซอร์สจริง (Apache 2.0)
- รองรับการ train ต่อด้วย LoRA หลายชั้น
เป้าหมายของเราไม่ใช่การแข่งกับ GPT-4 แต่คือการทำให้ภาษาไทยมีโมเดลที่ “ดีพอและเป็นของเรา”
ลำดับการปล่อย
Q3 2026 — Beta
- โมเดล base + LoRA ภาษาไทย
- เผยแพร่บน HuggingFace
- เปิด benchmark แบบเปิด
Q4 2026 — v1
- เพิ่ม instruction tuning
- เพิ่ม DPO สำหรับความปลอดภัย
- ตัวช่วยสำหรับนักพัฒนา
จะมีส่วนร่วมอย่างไร
- นักพัฒนา: ทดลองใช้และรายงานปัญหาที่ GitHub
- นักวิจัย: ช่วยกันประเมินโมเดลผ่าน NaraEval-TH
- ผู้ใช้ทั่วไป: ลองใช้และให้ feedback
เราจะเขียนบทความหลัง ๆ อธิบายรายละเอียดเทคนิคของแต่ละขั้นตอน — ติดตามได้ที่นี่หรือทาง RSS