Tags:
Topics: 
Node Thumbnail

Mistral สตาร์ทอัปด้าน AI จากฝรั่งเศส เปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) Mixtral 8x22B ขนาดโมเดล 176 พันล้านพารามิเตอร์ ซึ่งเป็นรุ่นถัดจากโมเดลก่อนหน้า Mixtral 8x7B

การทำงานของ Mixtral 8x22B ยังคงใช้วิธี MoE (mixture of experts) ที่ทุกเลเยอร์ของแต่ละโทเค็น จะเลือกโมเดลที่เหมาะสม 2 ตัว (เรียกว่า experts) มาใช้ในการประมวลผล ทำให้ไม่ต้องใช้พารามิเตอร์ทั้งหมดมารัน ตอนนี้ Mistral ยังไม่ได้เปิดเผยรายละเอียดทั้งหมดของโมเดล แต่คาดการณ์ว่าโมเดลที่ถูกใช้จริงตอนรันมีประมาณ 38 พันล้านพารามิเตอร์

Tags:
Node Thumbnail

ไมโครซอฟท์รายงานจำนวนเงินที่ลงทุนใน Mistral สตาร์ทอัพด้าน AI จากฝรั่งเศส ซึ่งเป็นส่วนหนึ่งของความร่วมมือให้บริการโมเดล Mistal Large บน Azure โดยไมโครซอฟท์ลงทุนเป็นเงิน 15 ล้านยูโร และเงินลงทุนนี้สามารถแปลงเป็นหุ้นของ Mistral ได้ เมื่อบริษัทเปิดระดมทุนซีรีส์ใหม่

ผลจากดีลดังกล่าวจึงทำให้มูลค่ากิจการของ Mistral ยังไม่เปลี่ยนแปลง จนกว่าจะมีการแปลงเงินลงทุนนี้เป็นหุ้น ทั้งนี้ Mistral ได้รับเงินลงทุนรอบล่าสุด 385 ล้านยูโร จากนักลงทุนนำโดยกองทุน Andreessen Horowitz และทำให้บริษัทมีมูลค่ากิจการล่าสุดประมาณ 2 พันล้านดอลลาร์

Tags:
Node Thumbnail

ไมโครซอฟท์ประกาศความร่วมมือเป็นระยะเวลาต่อเนื่องหลายปีกับ Mistral สตาร์ทอัพด้าน AI จากฝรั่งเศส ที่เพิ่งเปิดตัวโมเดล Mistral Large ซึ่งรองรับภาษาที่ใช้ในยุโรป โดยโมเดลของ Mistral สามารถใช้งานได้บน Azure

ประกาศความร่วมมือที่เป็นทางการมีเท่านี้ แต่ Financial Times ก็มีข้อมูลเพิ่มเติมว่าไมโครซอฟท์นั้นได้ตกลงที่จะลงทุนเป็นหุ้นอัตราส่วนเล็กน้อยใน Mistral ด้วย ซึ่งบริษัทมีมูลค่ากิจการล่าสุดประมาณ 2.1 พันล้านดอลลาร์ (2 พันล้านยูโร) จึงเป็นประเด็นน่าสนใจเพราะผู้อ่านก็ทราบกันดีว่าไมโครซอฟท์นั้นเดิมพันสูง ตกลงที่จะลงทุนมากกว่า 1 หมื่นล้านดอลลาร์ ใน OpenAI อยู่แล้ว

Tags:
Topics: 
Node Thumbnail

Mistral บริษัทปัญญาประดิษฐ์ LLM จากฝรั่งเศสเปิดตัวโมเดลใหม่สองโมเดล โดยไม่ได้เปิดเผยโครงสร้างภายในให้คนภายนอกใช้งานผ่านคลาวด์ สองโมเดล ได้แก่

  • Mistal Large โมเดลที่เก่งที่สุดของบริษัท รองรับภาษาอังกฤษ, ฝรั่งเศส, สเปน, เยอรมนี, และอิตาลี รองรับข้อมูลขนาด 32K โทเค็น ปรับแต่งให้ทำตามคำสั่งอย่างแม่นยำและเปิดให้นักพัฒนาปรับแต่งการคัดกรองเนื้อหาได้เอง คะแนนทดสอบความรู้ทั่วไป MMLU ของโมเดลนี้เป็นรองเพียง GPT-4
  • Mistral Small โมเดลที่ประสิทธิภาพเหนือว่า Mixtral 8x7B ที่บริษัทเปิดให้ใช้งานเสรีก่อนหน้านี้ แต่เน้นความเร็วสูงคล้ายกัน

ทั้งสองโมเดลถูกปรับให้รองรับการสร้าง output เป็น JSON และสามารถเรียก API ภายนอกได้

Tags:
Topics: 
Node Thumbnail

AWS ประกาศเพิ่มโมเดล Mistral 7B และ Mixtral 8x7B ให้ใช้งานบน AWS Bedrock เร็วๆ นี้ โดยระบุว่าทั้งสองโมเดลมีจุดเด่นเรื่องของความเร็วและค่าใช้จ่ายที่ถูกกว่า นอกจากนี้องค์กรบางส่วนยังอาจต้องการโมเดลที่ตรวจสอบได้ การใช้โมเดลโอเพนซอร์สจึงเป็นทางเลือกสำคัญ

Mixtral 8x7B นั้นมีคะแนนทดสอบค่อนข้างใกล้เคียงกับ GPT-3.5 แต่มีจุดเด่นที่รันได้เร็วมาก โดยตอนนี้ผู้ให้บริการที่เน้นความเร็วอย่าง Groq นั้นโชว์ว่าสามารถรันได้ที่ระดับ 500 token/s เลยทีเดียว

Tags:
Node Thumbnail

SCB 10X เปิดตัว Typhoon-7b เป็นโมเดลสร้างข้อความ หรือ LLM ภาษาไทยที่เอาชนะโมเดลทุกตัวในภาษาไทยตอนนี้ และมีประสิทธิภาพเทียบเท่ากับ GPT-3.5 ในภาษาไทย

การวัดผลประสิทธิภาพของโมเดลในภาษาไทย ทาง SCB 10X ได้พัฒนาชุดทดสอบวัดผลประสิทธิภาพโมเดล LLM ภาษาไทยชื่อ ThaiExam โดยวัดด้วยข้อสอบสำหรับเด็กมัธยมศึกษาตอนปลายและข้อมูลด้านการลงทุนจากผู้เชี่ยวชาญด้านการลงทุนในประเทศไทย พบว่าประสิทธิภาพโมเดล Typhoon-7b เหนือกว่าทุกโมเดลที่ปล่อยฟรีในภาษาไทยและมีคะแนนเทียบเท่ากับ GPT-3.5

Tags:
Topics: 
Node Thumbnail

Mistral AI บริษัทปัญญาประดิษฐ์จากฝรั่งเศสเปิดตัวโมเดลรุ่นใหม่ในชื่อ Mixtral 8x7B เป็นโมเดลที่อาศัยสถาปัตยกรรม mixture-of-experts (MoE) ผสมเอาท์พุตระหว่างโมเดลย่อยๆ ภายใน

ขนาดโมเดลรวม 46.7 พันล้านพารามิเตอร์ แต่ระหว่างรันจริง โมเดลจะเรียกใช้โมเดลที่เหมาะสมเพียง 2 ตัวจาก 8 ตัว จากนั้นจะเลือกเอาท์พุตแต่ละโทเค็นจากสอง 2 ตัวนั้นมาใช้งาน ทำให้เวลารันจริงจะใช้พลังประมวลผลเครื่องเท่ากับโมเดลขนาด 12.9 พันล้านพารามิเตอร์เท่านั้น

แนวทาง MoE ทำให้ Mixtral มีคะแนนทดสอบชุดทดสอบต่างๆ ใกล้เคียง GPT-3.5 แม้ขนาดโมเดลและพลังประมวลผลที่ใช้รันจะน้อยกว่ามาก คะแนนทดสอบหลายชุดดีกว่า LLaMA 2 มากแม้จะเทียบกับโมเดลขนาด 70B ก็ตาม