กูเกิลเปิดงานวิจัย TurboQuant แนวทางในการบีบอัด KV cache ที่เป็นความจำของโมเดลปัญญาประดิษฐ์แบบ LLM ทำให้ลดการใช้หน่วยความจำเมื่อพรอมพ์ยาวมากๆ ลงได้หลายเท่าตัว
แนวทางของ TurboQuant ไม่ได้บีบข้อมูลแบบ quantized ไปเฉยๆ แต่อาศัยเทคนิคหลายอย่าง ได้แก่
- สุ่มหมุนเวกเตอร์เพื่อลดชุดข้อมูลเวกเตอร์ที่หลุดจากกลุ่มออกไป จากนั้นหาค่า quantize แบบ Mean-Squared Error (MSE) เพื่อบีบอัดข้อมูลลง
- ชดเชยความผิดพลาดของข้อมูลที่เกิดขึ้นด้วยเทคนิค Quantized Johnson-Lindenstrauss (QJL) ซึ่งใช้ข้อมูลขนาดเล็กมากแต่ใช้ชดเชยด้วยการบวกหรือลบค่าออกจากเวกเตอร์
ผลของการบีบอัดแบบ TurboQuant ทำให้สามารถบีบอัดแบบ 3.5 bit ก็ยังได้ความแม่นยำระดับเดียวกับการเก็บเต็ม 16 bit และแม้จะลดความละเอียดเหลือ 2.5 bit ก็ยังได้ความละเอียดใกล้เคียงกัน แนวทางนี้ทำให้หน่วยความจำที่ใช้ในการเก็บ KV cache ใน LLM ลดลงหลายเท่าตัวเปิดโอกาสในการคุยกับ LLM ในข้อมูลขนาดใหญ่ขึ้นอีก
ที่มา - Google Research
on