Google

ปัจจุบันโมเดล LLM เก่งๆ มีหลากหลายโมเดล แต่ส่วนใหญ่ถูกพัฒนาจากกรอบของภาษาอังกฤษ หรือภาษาอื่นที่เป็นภาษาหลักของโลก รวมถึงชุดข้อมูลและการปรับแต่ง ก็ถูกตีกรอบด้วยอิทธิพลและมุมมองจากตะวันตกเป็นหลัก ทำให้ในหลายๆ ประเทศ หลายๆ ภูมิภาค ที่มีภาษาและบริบททางวัฒนธรรมเฉพาะ ไม่สามารถเข้าถึง LLM ได้ ซึ่งบริษัทใหญ่ๆ ก็คงไม่เน้นพัฒนาให้ หรือประเทศนั้นๆ จะพัฒนาเอง ก็ไม่ได้มีทรัพยากรเพียงพอ

AI Singapore หน่วยงานทีรับผิดชอบเรื่องการวิจัยและขับเคลื่อน AI ของรัฐบาลสิงคโปร์ เลยจับมือกับ Google Research ในการขับเคลื่อน Project SEALD ย่อมาจาก Southeast Asian Languages in One Network Data เพื่อแก้ปัญหาข้างต้น ด้วยการขับเคลื่อนพัฒนา Foundation Model ที่เก่งทั้งภาษา และบริบททางสังคม วัฒนธรรมของประเทศในเอเชียตะวันออกเฉียงใต้ที่ความหลากหลายด้านภาษาและวัฒนธรรมค่อนข้างสูง

การทำงานของ Project SEALD ก็จะร่วมกับพาร์ทเนอร์ท้องถิ่นในหลายๆ ประเทศ ทั้งหมด ณ ตอนนี้ 15 ราย อย่างของไทย ก็มีเช่น สถาบันวิทยสิริเมธี (VISTEC) และ KBTG

Google Research สิงคโปร์บอกว่าประเทศในอาเซียน อยู่ในกลุ่มประเทศแรกๆ ของโลกที่เปิดรับการใช้งาน LLM เป็นวงกว้าง แต่คุณภาพของภาษาและบริบทท้องถิ่น ของโมเดลดังๆ ในปัจจุบัน ไม่ค่อยดีนัก แม้แต่ภาษาอังกฤษเอง ที่แม้จะเป็นหนึ่งในภาษาหลักของสิงคโปร์ ก็ยังไม่ค่อยเข้าใจบริบทท้องถิ่นของประเทศนี้

หนึ่งในตัวอย่างที่ชัดคือกรณีของ tokenizer ที่ส่วนใหญ่จะถูกออกแบบมาสำหรับภาษาอังกฤษเป็นหลัก (english-centric) ดังนั้นทางทีมเลยจำเป็นต้องสร้าง tokenizer ขึ้นมาเองสำหรับแยกและจับคำในภาษาอาเซียน ที่ชื่อว่า SEABPETokenizer

ขณะที่ความเก่งของ LLM หลักๆ ก็ขึ้นอยู่กับนักวิจัย และข้อมูลที่ถูกเทรน และการจะพัฒนาโมเดล LLM ที่เข้าใจบริบทของอาเซียน ก็ต้องใช้ข้อมูลและนักวิจัยของอาเซียน เป้าหมายของ SEALD เลยมี 2 ส่วน ส่วนแรกคือการสร้างชุดข้อมูลเปิดเกี่ยวกับภาษาและบริบทของอาเซียน ที่มีคุณภาพสูง และส่วนที่สองคือโมเดล LLM ที่ถูกเทรน ปรับแต่ง จากชุดข้อมูลดังกล่าว

ดังนั้นบทบาทของ Google Research เลยมีทั้ง 2 ส่วนคือ เป็นหัวหอกในการเก็บรวบรวมข้อมูลในภูมิภาค ไม่ว่าจะผ่านทีมของ Google เองหรือผ่านเครือข่ายนักวิจัยและนักพัฒนา ไปจนถึงการใช้เทคนิคในการวิจัยและพัฒนาใหม่ๆ มาใช้งานใน Project SEALD

อย่างเช่นการนำ CALM ที่เป็นเทคนิคที่ Google Research และ DeepMind พัฒนาขึ้นมาร่วมกันมาใช้งาน ซึ่งเป็นเทคนิคที่จะรวมพลังของโมเดลเฉพาะทางหลายๆ ตัวเข้าด้วยกัน

จากเดิมที่ หากเราต้องการปรับแต่งโมเดลให้เป็นไปตามที่เราต้องการ เราต้อง fine-tuned โมเดลให้มีความสามารถที่เราต้องการขึ้นมา เทคนิค Composition To Augment Language Model (CALM) เสนอแนวทางใหม่ด้วยการบอกว่า ในเมื่อมีโมเดลที่เก่งเฉพาะทางอยู่แล้ว เช่น บางโมเดลเก่งเฉพาะงานแปลข้อความ หรืออาจจะเก่งกับภาษาเฉพาะบางภาษา สถาปัตยกรรม CALM จะทำให้เราสามารถนำโมเดลเฉพาะทางเหล่านี้มา “เชื่อม” (Composition) เข้ากับโมเดลหลักได้ โดยเรียกโมเดลหลักว่า Anchor Model และโมเดลเฉพาะทางว่า Augment Model

กระบวนการเชื่อมนี้อาศัยการสร้าง Compositional Layers ขึ้นมาเชื่อมสองโมเดลเข้าด้วยกัน จากนั้นฝึกโมเดลรวมด้วยชุดข้อมูลที่ผสมกันทั้งสองโมเดล (Composition Training Data) และสุดท้ายโมเดลที่รวมกันนี้ทำงานเหมือนเป็นโมเดลเดียวกัน

ทีมงานทดสอบประสิทธิภาพของ CALM ด้วยการนำโมเดล PaLM2-S มาเชื่อมกับ PaLM2-XXS โมเดลขนาดเล็กจิ๋วรุ่นพิเศษที่ฝึกภาษาจำนวนมาก แม้ว่า PaLM2-XXS ที่ถูกฝึกภาษาจะมีความสามารถในการแปลข้อความเป็นภาษาอังกฤษที่แย่มาก แต่เมื่อนำไปเชื่อมด้วยเทคนิค CALM ก็สามาารถเพิ่มความสามารถให้ PaLM-S ได้อย่างมีนัยสำคัญ

ตอนนี้ทาง Google Research ก็อยู่ระหว่างการทำงานร่วมกับพาร์ทเนอร์ใน Project SEALD เพื่อนำ CALM มาใช้งานในการเทรนโมเดลที่มีความเชี่ยวชาญหลายภาษา (multilinguality)

หรืออีกเทคนิคที่ Google Research นำมาใช้ในโปรเจ็คคือ MatFormer ย่อจาก Matryoshka Transformer (Matryoshka คือตุ๊กตาของรัสเซีย ที่จะมีหลายๆ ขนาดซ้อนๆ กันอยู่ข้างใน) เป็นความพยายามแก้ปัญหาที่ผู้ใช้ต้องการโมเดลขนาดต่างกันไปตามแต่เครื่องที่กำลังรันอยู่ เช่น โทรศัพท์ที่รันได้แต่โมเดลขนาดเล็กมากเท่านั้น หรือเซิร์ฟเวอร์บางแห่งอาจจะรันโมเดลขนาดกลาง ขณะที่องค์กรอาจจะต้องการรันโมเดลขนาดใหญ่ที่มีประสิทธิภาพสูงสุดเท่าที่เป็นไปได้

แต่เดิมผู้พัฒนาโมเดล มักออกแบบโมเดลไว้หลายขนาดตั้งแต่แรก แม้แต่ละขนาดอาจจะมีแนวคิด หรือเทคนิคพิเศษร่วมกัน จากนั้นโมเดลแต่ละตัวจะถูกฝึกแยกกันไป แนวทางนี้ทำให้ค่าใช้จ่ายในการฝึกสูงขึ้นมาก ยกตัวอย่าง Llama 3.1 ของ Meta นั้นใช้ชิปกราฟิกรวม 39.3 ล้านชั่วโมง แต่ที่ใช้สำหรับโมเดลขนาดใหญ่ที่สุดนั้นอยู่ที่ 30 ล้านชั่วโมงเท่านั้น (ค่าฝึกเพิ่มขึ้น 25-30% เพราะต้องฝึกโมเดลขนาดเล็ก)

MatFormer แก้ปัญหาโดยออกแบบสถาปัตยกรรมที่แต่ละชั้นของโมเดลนั้นถูกฝึกไว้หลายขนาด (S, M, L, XL) ตั้งแต่แรก แต่ฝึกไปโดยมองเป็นก้อนเดียวกัน เรียกว่า nested structure เมื่อฝึกสำเร็จแล้ว ผู้ใช้สามารถเลือกใช้งานโมเดลแต่ละชั้นว่าต้องการขนาดใดได้ตามใจชอบโดยไม่ต้องฝึกซ้ำ (mix-and-match)

ตัวอย่างของการใช้ MatFormer ที่ทีมงานยกมา คือการสร้างระบบแปลงภาพเป็นเวคเตอร์เพื่อใช้ค้นหาภาพ ทีมงานสามารถสร้างโมเดลที่ปรับขนาดยืดหดได้ตามต้องการ โดยผลที่ได้ความแม่นยำไม่ได้ต่างจากการฝึกโมเดลที่ขนาดที่ต้องการเฉพาะนัก

ขณะที่ตัวโมเดล LLM สำหรับอาเซียนมีชื่อว่า SEA-LION (Southeast Asian Languages In One Network) พัฒนาบนสถาปัตยกรรม MPT ปัจจุบันออกมาแล้ว 3 เวอร์ชันคือ v1 มี 2 โมเดลย่อยคือ 3 พันล้านและ 7 พันล้านพารามิเตอร์, v2 ใช้ LLAMA 3 มาพัฒนา เป็นโมเดลขนาด 8 พันล้านพารามิเตอร์ และล่าสุดเพิ่งเปิดตัว v3 ขนาด 9 พันล้านพารามิเตอร์ พัฒนาด้วย Gemma 2 โอเพนซอร์สของ Google เอง และแน่นอนว่า SEA-LION เปิดเป็นโอเพนซอร์ส

อย่างไรก็ตาม Google Research บอกว่า โมเดลที่ออกมาแล้วทั้ง 3 เวอร์ชันยังไม่ได้นำเทคนิค CALM หรือ MatFormer มาใช้งาน แต่กำลังทดลองนำทั้ง 2 เทคนิค มาใช้ในกระบวนการเทรนโมเดลที่จะออกมาในอนาคต

ส่วนในแง่การเบนช์มาร์ค AI Singapore ก็สร้างเบนช์มาร์คขึ้นมาเองในชื่อ SEA HELM (SouthEast Asian Holistic Evaluation of Language Models) ด้วยเช่นกัน โดยปัจจุบันโมเดล Gemma 2 ที่ทีมงาน SEA-LION ปรับแต่ง คือ gemma-2-9b-cpt-sea-lionv3-instruct นำเป็นอันดับหนึ่ง ทั้งคะแนนเฉลี่ยของ SEA โดยรวมและคะแนนของภาษาไทย

Hiring! บริษัทที่น่าสนใจ

Carmen Software company cover
Carmen Software
Hotel Financial Solutions
Next Innovation (Thailand) Co., Ltd. company cover
Next Innovation (Thailand) Co., Ltd.
We are web design with consulting & engineering services driven the future stronger and flexibility.
KKP Dime company cover
KKP Dime
KKP Dime บริษัทในเครือเกียรตินาคินภัทร
Kiatnakin Phatra Financial Group company cover
Kiatnakin Phatra Financial Group
Financial Service
Fastwork Technologies company cover
Fastwork Technologies
Fastwork.co เว็บไซต์ที่รวบรวม ฟรีแลนซ์ มืออาชีพจากหลากหลายสายงานไว้ในที่เดียวกัน
Thoughtworks Thailand company cover
Thoughtworks Thailand
Thoughtworks เป็นบริษัทที่ปรึกษาด้านเทคโนโยลีระดับโลกที่คว้า Great Place to Work 3 ปีซ้อน
Iron Software company cover
Iron Software
Iron Software is an American company providing a suite of .NET libraries by engineer for engineers.
CLEVERSE company cover
CLEVERSE
Cleverse is a Venture Builder. Our team builds several tech companies.
Nipa Cloud company cover
Nipa Cloud
#1 OpenStack cloud provider in Thailand with our own data center and software platform.
Bangmod Enterprise company cover
Bangmod Enterprise
The leader in Cloud Server and Hosting in Thailand.
CIMB THAI Bank company cover
CIMB THAI Bank
MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank
Bangkok Bank company cover
Bangkok Bank
Bangkok Bank is one of Southeast Asia's largest regional banks, a market leader in business banking
MuvMi (Urban Mobility Tech Co.,Ltd.) company cover
MuvMi (Urban Mobility Tech Co.,Ltd.)
Shape the future of urban mobility towards affordable, clean, and safe solutions
T.N. Digital Solution Co., Ltd. company cover
T.N. Digital Solution Co., Ltd.
TNDS has been involving in every first move of banking’s major digital transformation.
KBTG - KASIKORN Business-Technology Group company cover
KBTG - KASIKORN Business-Technology Group
KBTG - "The Technology Company for Digital Business Innovation"
Siam Commercial Bank Public Company Limited company cover
Siam Commercial Bank Public Company Limited
"Let's start a brighter career future together"
Icon Framework co.,Ltd. company cover
Icon Framework co.,Ltd.
Global Standard Platform for Real Estate แพลตฟอร์มสำหรับธุรกิจอสังหาริมทรัพย์ครบวงจร มาตรฐานระดับโลก
REFINITIV company cover
REFINITIV
The Financial and Risk business of Thomson Reuters is now Refinitiv
H LAB company cover
H LAB
Re-engineering healthcare systems through intelligent platforms and system design.
The Gang Technology Co., Ltd. company cover
The Gang Technology Co., Ltd.
We're a Digital Agency that helps our customers transform their business into digital with ease.
LTMH company cover
LTMH
LTMH มุ่งเน้นการพัฒนาผลิตภัณฑ์ที่สามารถช่วยพันธมิตรของเราให้บรรลุเป้าหมาย
Seven Peaks company cover
Seven Peaks
We Drive Digital Transformation
Wisesight (Thailand) Co., Ltd. company cover
Wisesight (Thailand) Co., Ltd.
The Best Choice For Handling Social Media · High Expertise in Social Data · Most Advanced and Secure
MOLOG Tech company cover
MOLOG Tech
We are Modern Logistic Platform, Specialize in WMS, OMS and TMS.
Data Wow Co.,Ltd company cover
Data Wow Co.,Ltd
We enable our clients to realize increased productivity by solving their most complex issues by Data
LINE Company Thailand company cover
LINE Company Thailand
LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call
LINE MAN Wongnai company cover
LINE MAN Wongnai
Join our journey to becoming No.1 food platform in Thailand

จนถึงตอนนี้ก็ยังสงสัยว่า
ถ้า AI โดนเทรนด้วยข้อมูลเท็จเฉพาะส่วน
เช่น เรื่องอื่น ตอบถูกหมด จนได้รับความเชื่อถือ
แต่เรื่องวัฒนธรรมกลับโดนประเทศ ข. อัดข้อมูล
เคลมว่า "ประเทศ ท. ขโมยวัฒนธรรมไป"

จน AI ตอบแบบนั้น จนคนทั้งโลกก็เชื่อ AI ไปตามนั้น
จะมีการป้องกัน/แก้ไข เหตุการณ์แบบนี้ยังไง?

เป็นที่มาของการผลักดัน Open Source AI ครับ การแก้ไขตอนนี้คือ มีแต่ต้องแจ้งปัญหาที่เจอไปหาผู้สร้างครับ ส่วนการป้องกันอาจจะใหญ่กว่านั้น คือ การที่ภาครัฐของประเทศนั้น ๆ ต้องลงทุนสร้างชุดข้อมูลสาธารณะที่ให้พวกบ. AI / นักวิจัย/ นักพัฒนาอิสระจากทั่วโลก มีชุดข้อมูลตั้งต้นสำหรับทำ AI กับ ทำชุดข้อมูลทดสอบพวกนี้ทั้งมีความถูกต้องทางวิชาการและน่าเชื่อถือระดับสากล เป็นบรรทัดฐานในการเทรน AI และผลักดันเข้าไปอยู่ในชุดทดสอบระดับสากลครับ