กูเกิลร่วมมือกับโครงการ AI Singapore เปิดโครงการ SEALD (Southeast Asian Languages in One Network Data) สร้างชุดข้อมูลภาษาสำหรับใช้งานกับ large language model (LLM) ที่เน้นชาติอาเซียนโดยเฉพาะ โดยภาษาชุดแรกได้แก่ อินโดนีเซีย, ไทย, ทมิฬ, ฟิลิปปินส์, และพม่า
ตัวโครงการไม่ได้จำกัดเฉพาะชุดข้อมูล แต่รวมถึงการพัฒนาโมเดลแปลภาษา, สร้างแนวปฎิบัติในการสร้างชุดข้อมูล, สร้างเครื่องมือแปลงภาษา (translocalization), และเผยแพร่แนวทางการสร้างโมเดลในภาษาในชาติเอเชียตะวันออกเฉียงใต้ โดยขุดข้อมูลที่ได้จากโครงการนี้จะเป็นโอเพนซอร์สให้หน่วยงานอื่นๆ นำไปสร้าง LLM ได้ต่อไป
ตอนนี้ยังอยู่ระหว่างการจัดทำชุดข้อมูล และเมื่อเสร็จสิ้นแล้วจะเปิดให้คนทั่วไปดาวน์โหลดได้
ที่มา - AI Singapore

on
Typhoon ที่ทำต่อจาก Mistral
Fzo Tue, 12/03/2024 - 20:05
Typhoon ที่ทำต่อจาก Mistral-7B จะมาเข้าร่วมด้วยไหม หรือสนใจจะไปใช้ Gamma ไหม
เผื่อใครสนใจ
tontan Tue, 12/03/2024 - 22:12
เผื่อใครสนใจ ที่จริงตอนนี้พอมีชุดข้อมูลออกมาบ้างแล้วครับ SEA-LION-Pile