Alibaba เปิดตัว Qwen3-Omni โมเดลโอเพนซอร์สในตระกูล Qwen3 ที่รองรับอินพุทผสมผสานทั้งข้อความ ภาพ เสียง วิดีโอ รุ่นถัดจาก Qwen2.5-Omni โดยสามารถสร้างเอาท์พุตได้ทั้งข้อความและเสียง โมเดลทำงานบนสถาปัตยกรรมที่เรียกว่า Thinker–Talker โดยส่วน Thinker สามารถทำความเข้าใจอินพุทที่หลากหลาย ส่วน Talker มีความสามารถการสร้างเสียงโต้ตอบที่เป็นธรรมชาติ
จุดเด่นของ Qwen3-Omni มีหลายอย่าง ทั้งการทำคะแนนสูงสุดในการทดสอบผลลัพธ์เสียง 22 จาก 36 หัวข้อ, รองรับการสร้างเอาท์พุทข้อความ 119 ภาษา, เข้าใจเสียงได้ 19 ภาษา (ไม่มีไทย) และสร้างเสียงโต้ตอบได้ 10 ภาษา (ไม่มีไทย), ความหน่วงต่ำถึง 211ms กรณีอินพุทแบบเสียง, รับอินพุทไฟล์เสียงสูงสุด 30 นาที ฯลฯ
Qwen3-Omni มี 3 โมเดลย่อยได้แก่ Instruct รองรับอินพุททุกรูปแบบ, Thinking คิดเป็นเหตุผลนานขึ้น เอาท์พุทมีเฉพาะข้อความ และ Captioner เน้นจับรายละเอียดข้อความเสียง และสร้างผลลัพธ์เป็นข้อความแคปชันออกมา ดูรายละเอียดเพิ่มเติมได้ที่ Hugging Face
ที่มา: Alibaba
on
ตอนนี้ Model ใหม่ๆ…
Hoo Wed, 24/09/2025 - 07:23
ตอนนี้ Model ใหม่ๆ ตัวใหญ่ขึ้นกันหมด
เครื่องที่เคยลง offline พอใช้ได้แบบถูไถ
ตอนนี้ใช้ไม่ได้แล้ว 😅