เมื่อใม่กี่วันที่ผ่านมา microsoft ได้เปิดตัวโมเดลภาษาขนาดเล็กนั่นคือ
phi-4 mini และ phi-4 multimodal
ซึ่งมีข้อมูลดังนี้
phi-4 mini นั้นมีขนาดพารามิเตอร์อยู่ที่ 3.8B ซึ่งถูกออกแบบมาให้ทำงานได้ดีกับอุปกรณ์ที่มีทรัพยากรที่จำกัด
แต่ยังคงไว้ซึ่งประสิทธิภาพในการทำงานเกี่ยวกับการเขียนโค้ด คณิตศาสตร์และการให้เหตุผล,
และตัวโมเดลยังรองรับ function calling อีกด้วย
ตัวโมเดล phi-4 mini นั้นรองรับ input tokens ได้ถึง 128000 tokens ซึ่งจะทำให้เราสามารถประมวลผลงานที่ต้องการความซับซ้อนได้มากขึ้น
ส่วน phi-4 multimodal นั้นถือได้ว่าเป็น โมเดล multimodal ตัวแรกของ microsoft
ซึ่งมีขนาดพารามิเตอร์อยู่ที่ 5.6B
ที่สามารถทำงานได้ทั้งอ่านภาพ ประมวลผลคำพูดและข้อความในตัวเดียวโดยใช้เทคนิค mixture-of-LoRAs
ในด้านประสิทธิภาพนั้น phi-4 multimodal นั้นทำออกมาได้เยี่ยมยอดเลยทีเดียว
ไม่ว่าจะเป็นงานที่เกี่ยวกับ automatic Speech Recognition หรือว่าการแปลภาษาจากเสียงพูด
ตัวโมเดลก็ทำออกมาได้ดีด้วยอัตราความผิดพลาดเพียง 6.14%เท่านั้น
ซึ่งตัวโมเดลยังติดอันดับบน huggingface Open ASR Leaderboard อีกด้วย
และนอกจากนี้ตัวโมเดลยังสามารถอ่านเอกสาร, ocr หรือแม้แต่ให้เหตุผลจากรูปภาพได้อีกด้วย
ที่มา:
Empowering innovation: The next generation of the Phi family
ขอบคุณที่ส่งข่าวเข้ามาครับ
mk Tue, 04/03/2025 - 11:11
ขอบคุณที่ส่งข่าวเข้ามาครับ เผอิญซ้ำกับข่าวที่ลงไปแล้ว ขอไม่นำขึ้นหน้าแรกนะครับ
ขอบคุณครับผม พอดี search
IceAge Tue, 04/03/2025 - 14:40
In reply to ขอบคุณที่ส่งข่าวเข้ามาครับ by mk
ขอบคุณครับผม พอดี search แล้วไม่เจอ แต่ผมไม่ละเอียดเอง ^^