PyThaiNLP กับ AIResearch เปิดตัว WangChanGLM โมเดลแชทแบบ ChatGPT รองรับภาษาไทยและหลายภาษา

วันนี้ทาง PyThaiNLP กับสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย AIReserach.in.th ได้เปิดตัวโมเดล WangChanGLM (วังช้างแอลเอ็ม) โมเดลแชทแบบ ChatGPT รองรับทั้งภาษาไทย, ภาษาอังกฤษ, ภาษาญี่ปุ่น, ภาษาเวียดนาม, และภาษาอื่น ๆ ออกสู่สาธารณะ โดยเปิดซอร์สโค้ดทั้งหมด ชุดข้อมูล และโมเดล ให้สามารถนำไปใช้งานต่อได้แบบฟรี ๆ รวมถึงเทรนต่อได้ โดยโค้ดเป็น Apache License 2.0 ส่วนโมเดลใช้ CC BY-SA 4.0

เบื้องหลังโมเดล คือ ใช้โมเดล XGLM ขนาด 7.5 พันล้านพารามิเตอร์จาก Meta ที่รองรับภาษากว่า 31 ภาษา มาปรับแต่งโมเดลทั้งเทรนโมเดล ปรับแต่งโมเดลให้เหมาะสมกับการแชท ตอบคำตอบ โดยได้นำชุดข้อมูล LAION OIG chip2, infill_dbpedia, DataBricks Dolly v2, OpenAI TL;DR, และ Hello-SimpleAI HC3 มาทำการเทรนจากภาษาอังกฤษเป็นหลัก เนื่องจากโมเดลรองรับหลายภาษา ทำให้เราไม่จำเป็นต้องอาศัยชุดข้อมูลภาษาไทยเท่านั้นในการเทรนโมเดล ซึ่งข้อมูลทั้งหมดเป็นชุดข้อมูลที่สาธารณะสามารถเข้าถึงได้ทั้งหมด และเรายังได้ทำการทดลองเทรนโมเดลด้วยชุดข้อมูลที่แปลภาษาทั้งหมดเป็นภาษาไทยอีกด้วย ผลลัพธ์โมเดล พบว่า โมเดลที่เทรนด้วยภาษาอังกฤษล้วนมีประสิทธิภาพดีกว่าใช้ชุดข้อมูลภาษาไทย

ความสามารถของโมเดลมีทั้งถามตอบคำถาม, แปลภาษา, อ่านจับใจความ และอื่น ๆ ตามตัวอย่างต่อไปนี้
ตัวอย่างการขอไอเดีย

<human>: ทำยังไงถึงจะเล่นหุ้นให้ได้กำไร
<bot>: การเล่นหุ้นให้ประสบความสําเร็จนั้น คุณต้องศึกษาข้อมูลให้ดีก่อนการลงทุน วางแผนการลงทุนอย่างรอบคอบ ติดตามข่าวสารการลงทุน และใช้เครื่องมือวิเคราะห์หุ้นอย่างเหมาะสม ที่สําคัญคือต้องรู้จักอดทนและมีความมุ่งมั่นในการลงทุน

ตัวอย่างการเขียนอย่างสร้างสรรค์

<human>: จงแต่งเรียงความเรื่องความฝันของคนรุ่นใหม่ต่อประเทศไทย
<bot>: ประเทศไทยในยุคปัจจุบัน เต็มไปด้วยความเปลี่ยนแปลงอย่างรวดเร็ว เทคโนโลยีที่ก้าวหน้าอย่างรวดเร็ว ทําให้คนรุ่นใหม่มีความคิดที่เปิดกว้างและกล้าที่จะคิดต่างจากคนรุ่นก่อนๆ พวกเขามีมุมมองที่กว้างไกลและมองโลกในแง่ดี กล้าคิด พูด และแสดงออกในสิ่งที่แตกต่างจากเดิม หลายคนมีความฝันที่จะสร้างสิ่งดีๆ ให้กับประเทศชาติ บางคนมีความมุ่งมั่นที่จะเปลี่ยนแปลงสังคมให้ดีขึ้น ในขณะที่บางคนก็มุ่งหวังที่จะประสบความสําเร็จในหน้าที่การงาน ทุกคนต่างมีเป้าหมายเดียวกันคือ ต้องการเห็นประเทศไทยเจริญก้าวไกล พัฒนาไปอย่างมั่นคงและยั่งยืน

ตัวอย่างการอ่านจับใจความ

<human>: “สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย ได้ทำการเปิดชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย จำนวนกว่า 1 ล้านคู่ประโยคสู่สาธารณะ โดยได้รับการสนับสนุนจาก SCB ภายใต้ชื่อ scb-mt-en-th-2020 ชุดข้อมูลคู่ประโยคนี้ ได้รวบรวมจากหลายข้อมูลแหล่งอาทิเช่น ประโยคจากบทสนทนา ข้อมูลจากเว็บไซต์ข่าวหรือองค์กรที่มีเนื้อหาในสองภาษา บทความวิกิพีเดีย และ เอกสารราชการ”
สรุปข้อความนี้ให้หน่อย
<bot>: สถาบันฯ ได้เปิดข้อมูลชุดนี้สู่สาธารณชนภายใต้การสนับสนุนจากธนาคารไทยพาณิชย์ โดยใช้ชื่อชุดว่า scbmt-2020

อ่านรายละเอียดได้ที่ GitHub

สามารถใช้งานได้แล้วผ่าน Hugging Face ตามตัวอย่างใน Google Colab