Alibaba เปิดตัว Qwen3-Next บอกว่าเป็นโมเดล AI บนสถาปัตยกรรมใหม่ สร้างจากพื้นฐานโมเดล Qwen3 เพื่อปรับปรุงการทำงานใน 2 อย่างได้แก่ ทำให้รองรับอินพุทที่ยาวขึ้น (long-context) และใช้พารามิเตอร์บางส่วนเท่านั้น แม้โมเดลจะมีพารามิเตอร์ขนาดใหญ่ (parameter scaling)
ผลลัพธ์ที่ได้คือโมเดลหลัก Qwen3-Next-80B-A3B-Base ซึ่งขนาดพารามิเตอร์ 80B เมื่อรันขั้นตอน inference จะใช้พารามิเตอร์จริงเพียง 3B เท่านั้น จึงสร้างผลลัพธ์ออกมาได้เร็วกว่าโมเดลเปรียบเทียบ Qwen3-32B ถึง 10 เท่า แม้ภาพรวมจำนวนพารามิเตอร์จะใหญ่กว่า ส่วนการนำไปฝึกฝนต่อก็ใช้ต้นทุนน้อยกว่า 10% เมื่อเทียบด้วยจำนวนชั่วโมงจีพียู ทั้งหมดจึงมีข้อได้เปรียบเทียบเรื่องต้นทุนการประมวลผล
Alibaba ยังออกโมเดลที่ถูกนำไปฝึกฝนเพิ่มเติมคือ Qwen3-Next-80B-A3B-Instruct และ Qwen3-235B-A22B-Instruct-2507 ซึ่งรองรับอินพุทถึง 256K โทเค็น และขยายเพิ่มได้ถึงระดับ 1M โทเค็น เช่นเดียวกับโมเดลแนวคิดที่ละขั้น Qwen3-Next-80B-A3B-Thinking ก็ได้ผลลัพธ์ที่ดีเทียบเท่าบนต้นทุนที่ต่ำกว่ามาก
สามารถดูรายละเอียดของ Qwen3-Next เพิ่มเติมได้ที่ Hugging Face หรือเรียกใช้งานผ่าน Alibaba Cloud Model Studio และ NVIDIA API Catalog
ที่มา: Alibaba
on