Mistral สตาร์ทอัปด้าน AI จากฝรั่งเศส เปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) Mixtral 8x22B ขนาดโมเดล 176 พันล้านพารามิเตอร์ ซึ่งเป็นรุ่นถัดจากโมเดลก่อนหน้า Mixtral 8x7B
การทำงานของ Mixtral 8x22B ยังคงใช้วิธี MoE (mixture of experts) ที่ทุกเลเยอร์ของแต่ละโทเค็น จะเลือกโมเดลที่เหมาะสม 2 ตัว (เรียกว่า experts) มาใช้ในการประมวลผล ทำให้ไม่ต้องใช้พารามิเตอร์ทั้งหมดมารัน ตอนนี้ Mistral ยังไม่ได้เปิดเผยรายละเอียดทั้งหมดของโมเดล แต่คาดการณ์ว่าโมเดลที่ถูกใช้จริงตอนรันมีประมาณ 38 พันล้านพารามิเตอร์
ไมโครซอฟท์รายงานจำนวนเงินที่ลงทุนใน Mistral สตาร์ทอัพด้าน AI จากฝรั่งเศส ซึ่งเป็นส่วนหนึ่งของความร่วมมือให้บริการโมเดล Mistal Large บน Azure โดยไมโครซอฟท์ลงทุนเป็นเงิน 15 ล้านยูโร และเงินลงทุนนี้สามารถแปลงเป็นหุ้นของ Mistral ได้ เมื่อบริษัทเปิดระดมทุนซีรีส์ใหม่
ผลจากดีลดังกล่าวจึงทำให้มูลค่ากิจการของ Mistral ยังไม่เปลี่ยนแปลง จนกว่าจะมีการแปลงเงินลงทุนนี้เป็นหุ้น ทั้งนี้ Mistral ได้รับเงินลงทุนรอบล่าสุด 385 ล้านยูโร จากนักลงทุนนำโดยกองทุน Andreessen Horowitz และทำให้บริษัทมีมูลค่ากิจการล่าสุดประมาณ 2 พันล้านดอลลาร์
ไมโครซอฟท์ประกาศความร่วมมือเป็นระยะเวลาต่อเนื่องหลายปีกับ Mistral สตาร์ทอัพด้าน AI จากฝรั่งเศส ที่เพิ่งเปิดตัวโมเดล Mistral Large ซึ่งรองรับภาษาที่ใช้ในยุโรป โดยโมเดลของ Mistral สามารถใช้งานได้บน Azure
ประกาศความร่วมมือที่เป็นทางการมีเท่านี้ แต่ Financial Times ก็มีข้อมูลเพิ่มเติมว่าไมโครซอฟท์นั้นได้ตกลงที่จะลงทุนเป็นหุ้นอัตราส่วนเล็กน้อยใน Mistral ด้วย ซึ่งบริษัทมีมูลค่ากิจการล่าสุดประมาณ 2.1 พันล้านดอลลาร์ (2 พันล้านยูโร) จึงเป็นประเด็นน่าสนใจเพราะผู้อ่านก็ทราบกันดีว่าไมโครซอฟท์นั้นเดิมพันสูง ตกลงที่จะลงทุนมากกว่า 1 หมื่นล้านดอลลาร์ ใน OpenAI อยู่แล้ว
Mistral บริษัทปัญญาประดิษฐ์ LLM จากฝรั่งเศสเปิดตัวโมเดลใหม่สองโมเดล โดยไม่ได้เปิดเผยโครงสร้างภายในให้คนภายนอกใช้งานผ่านคลาวด์ สองโมเดล ได้แก่
ทั้งสองโมเดลถูกปรับให้รองรับการสร้าง output เป็น JSON และสามารถเรียก API ภายนอกได้
AWS ประกาศเพิ่มโมเดล Mistral 7B และ Mixtral 8x7B ให้ใช้งานบน AWS Bedrock เร็วๆ นี้ โดยระบุว่าทั้งสองโมเดลมีจุดเด่นเรื่องของความเร็วและค่าใช้จ่ายที่ถูกกว่า นอกจากนี้องค์กรบางส่วนยังอาจต้องการโมเดลที่ตรวจสอบได้ การใช้โมเดลโอเพนซอร์สจึงเป็นทางเลือกสำคัญ
Mixtral 8x7B นั้นมีคะแนนทดสอบค่อนข้างใกล้เคียงกับ GPT-3.5 แต่มีจุดเด่นที่รันได้เร็วมาก โดยตอนนี้ผู้ให้บริการที่เน้นความเร็วอย่าง Groq นั้นโชว์ว่าสามารถรันได้ที่ระดับ 500 token/s เลยทีเดียว
SCB 10X เปิดตัว Typhoon-7b เป็นโมเดลสร้างข้อความ หรือ LLM ภาษาไทยที่เอาชนะโมเดลทุกตัวในภาษาไทยตอนนี้ และมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ในภาษาไทย
การวัดผลประสิทธิภาพของโมเดลในภาษาไทย ทาง SCB 10X ได้พัฒนาชุดทดสอบวัดผลประสิทธิภาพโมเดล LLM ภาษาไทยชื่อ ThaiExam โดยวัดด้วยข้อสอบสำหรับเด็กมัธยมศึกษาตอนปลายและข้อมูลด้านการลงทุนจากผู้เชี่ยวชาญด้านการลงทุนในประเทศไทย พบว่าประสิทธิภาพโมเดล Typhoon-7b เหนือกว่าทุกโมเดลที่ปล่อยฟรีในภาษาไทยและมีคะแนนเทียบเท่ากับ GPT-3.5
Mistral AI บริษัทปัญญาประดิษฐ์จากฝรั่งเศสเปิดตัวโมเดลรุ่นใหม่ในชื่อ Mixtral 8x7B เป็นโมเดลที่อาศัยสถาปัตยกรรม mixture-of-experts (MoE) ผสมเอาท์พุตระหว่างโมเดลย่อยๆ ภายใน
ขนาดโมเดลรวม 46.7 พันล้านพารามิเตอร์ แต่ระหว่างรันจริง โมเดลจะเรียกใช้โมเดลที่เหมาะสมเพียง 2 ตัวจาก 8 ตัว จากนั้นจะเลือกเอาท์พุตแต่ละโทเค็นจากสอง 2 ตัวนั้นมาใช้งาน ทำให้เวลารันจริงจะใช้พลังประมวลผลเครื่องเท่ากับโมเดลขนาด 12.9 พันล้านพารามิเตอร์เท่านั้น
แนวทาง MoE ทำให้ Mixtral มีคะแนนทดสอบชุดทดสอบต่างๆ ใกล้เคียง GPT-3.5 แม้ขนาดโมเดลและพลังประมวลผลที่ใช้รันจะน้อยกว่ามาก คะแนนทดสอบหลายชุดดีกว่า LLaMA 2 มากแม้จะเทียบกับโมเดลขนาด 70B ก็ตาม