กูเกิลเปิดตัว DiffusionGemma โมเดลทำนายข้อความทีละบล็อค ทำงานเร็วกว่า 4 เท่า

By mk

on 12 June 2026 - 06:40 Tag: Gemma, LLM, Google

Gemma

กูเกิลเปิดตัว DiffusionGemma โมเดลภาษาแบบเปิดรุ่นทดลอง ที่ใช้เทคนิค text diffusion (ปิดบางส่วนของข้อความแล้วคาดเดาผลลัพธ์ ลักษณะเดียวกับโมเดลสร้างภาพ) แทนการทำนายคำตอบทีละโทเค็นแบบโมเดลตระกูล Transformer แบบดั้งเดิม

ข้อดีของโมเดลตระกูล diffusion คือทำงานได้เร็วกว่ามาก เพราะสร้างข้อความผลลัพธ์ทีเดียวทั้งบล็อค ตัวเลขของกูเกิลที่รองรันโมเดลบนจีพียูพบว่า เร็วขึ้นสูงสุด 4 เท่าเมื่อเทียบกับโมเดลตระกูล Gemma รุ่นมาตรฐาน ที่ระดับคุณภาพของผลลัพธ์ใกล้เคียงกัน (ผลลัพธ์บน H100 ออกมาได้มากกว่า 1,000 โทเค็นต่อวินาที)

DiffusionGemma เป็นการต่อยอดจาก Gemini Diffusion ที่เปิดตัวในปี 2025 แต่เป็นการทดสอบในวงปิด คราวนี้มาเป็นโมเดลเปิดให้นำไปใช้งานกันได้เลย โมเดลสร้างโทเค็นครั้งละ 256 โทเค็น และมีความสามารถวัดผลคุณภาพผลลัพธ์ และปรับปรุงแก้ไขผลลัพธ์ให้คุณภาพดีขึ้นได้แบบเรียลไทม์

โมเดลที่ปล่อยออกมามีขนาดพารามิเตอร์ 26B แบบสถาปัตยกรรม Mixture of Experts (MoE) โดยตอนรันจะใช้พารามิเตอร์เพียง 3.8B สามารถรันในจีพียูขนาด VRAM 18GB ได้ กูเกิลยังจับมือกับ NVIDIA ปรับแต่งโมเดลให้ทำงานบนจีพียูคอนซูเมอร์อย่าง RTX 5090 และ 4090 ได้ดีขึ้นด้วย

กูเกิลบอกว่าคุณภาพของผลลัพธ์ DiffusionGemma ยังด้อยกว่า Gemma 4 รุ่นมาตรฐาน เพราะเน้นความเร็วเป็นหลัก หากต้องการคุณภาพเป็นหลัก ก็แนะนำให้ยังใช้ Gemma 4 รุ่นมาตรฐานดีกว่า

กูเกิลเปิดตัว DiffusionGemma โมเดลทำนายข้อความทีละบล็อค ทำงานเร็วกว่า 4 เท่า

Hiring! บริษัทที่น่าสนใจ