Nara AI v1: แผนเปิดตัวโมเดลภาษาไทยโอเพ่นซอร์ส

หลายเดือนที่ผ่านมา ทีม Nara Lab ทุ่มเทให้กับการสร้าง Nara AI — โมเดลภาษาไทยที่เข้าใจบริบทของไทยจริง ๆ ไม่ใช่แค่แปลจากภาษาอังกฤษ วันนี้เราพร้อมเปิดเผยแผนการเปิดตัว v1

ทำไมต้องเป็นโมเดลภาษาไทยโอเพ่นซอร์ส?

โมเดลภาษาส่วนใหญ่ที่ใช้กันอยู่ — แม้จะเก่งก็จริง — แต่เข้าใจภาษาไทยในระดับ “แปลได้” ไม่ใช่ “เข้าใจ”

ปัญหาคือ:

วัฒนธรรมและบริบท: คำว่า “เกรงใจ” ไม่มีในภาษาอังกฤษ โมเดลที่ train กับ corpus อังกฤษไม่เข้าใจ
ความเป็นทางการ: ภาษาไทยมีระดับความสุภาพที่ซับซ้อน (ครับ/ค่ะ, ราชาศัพท์)
ความเป็นเจ้าของ: ถ้าโมเดลปิด ใครจะรู้ว่ามัน bias อย่างไร?

สถาปัตยกรรมของ Nara AI v1

เราเลือก Gemma 4 12B เป็นฐาน เพราะ:

ขนาดพอเหมาะ — ใหญ่พอที่จะเก่ง แต่เล็กพอที่จะรันได้บนเครื่องคน
โอเพ่นซอร์สจริง (Apache 2.0)
รองรับการ train ต่อด้วย LoRA หลายชั้น

เป้าหมายของเราไม่ใช่การแข่งกับ GPT-4 แต่คือการทำให้ภาษาไทยมีโมเดลที่ “ดีพอและเป็นของเรา”

ลำดับการปล่อย

Q3 2026 — Beta

โมเดล base + LoRA ภาษาไทย
เผยแพร่บน HuggingFace
เปิด benchmark แบบเปิด

Q4 2026 — v1

เพิ่ม instruction tuning
เพิ่ม DPO สำหรับความปลอดภัย
ตัวช่วยสำหรับนักพัฒนา

จะมีส่วนร่วมอย่างไร

นักพัฒนา: ทดลองใช้และรายงานปัญหาที่ GitHub
นักวิจัย: ช่วยกันประเมินโมเดลผ่าน NaraEval-TH
ผู้ใช้ทั่วไป: ลองใช้และให้ feedback

เราจะเขียนบทความหลัง ๆ อธิบายรายละเอียดเทคนิคของแต่ละขั้นตอน — ติดตามได้ที่นี่หรือทาง RSS

ทำไมต้องเป็นโมเดลภาษาไทยโอเพ่นซอร์ส?

สถาปัตยกรรมของ Nara AI v1

ลำดับการปล่อย

Q3 2026 — Beta

Q4 2026 — v1

จะมีส่วนร่วมอย่างไร

บทความที่เกี่ยวข้อง

Smart Input: พิมพ์ไทยเร็วขึ้น 55% ด้วยระบบพิมพ์พยัญชนะหลัก

เราสร้าง Nara Menu อย่างไร — สำหรับร้านอาหารเล็ก ๆ

ทำไม Nara Lab ถึงเลือกโอเพ่นซอร์ส — หลักการ 4 ข้อของเรา