Xiaomi ประกาศความร่วมมือกับ TileRT ผู้พัฒนารันไทม์สำหรับรัน LLM ความเร็วสูง ทำให้รันโมเดล MiMo-V2.5-Pro ได้ความเร็วระดับ 1000 token/s ได้บนเครื่องเดียวโดยไม่ต้องการชิปพิเศษ
โมเดลที่ใช้ไม่ใช่โมเดลเต็ม แต่เป็นโมเดลย่อบางส่วน โดยเฉพาะส่วน MoE ที่ย่อเป็น MXFP4 ที่ยังได้ระดับความฉลาดใกล้เคียงกับโมเดลเต็ม ส่วนที่เหลือใช้ FP8 การออปติไมซ์อีกส่วนคือ DFlash ทำนายโทเค็นล่วงหน้าเป็นบล็อคแล้วตรวจสอบความถูกต้องทีเดียว
รันไทม์ของ TileRT มีฟีเจอร์ Persistent Engine Kernel ทำงานต่อเนื่องโดยออปติไมซ์การเคลื่อนย้ายข้อมูลให้ได้ประสิทธิภาพที่สุด
ทาง Xiaomi ปล่อยโมเดล MiMo-V2.5-Pro-FP4-DFlash ที่ออปติไมซ์ร่วมกับ TileRT ออกมาเป็นโอเพนซอร์ส ส่วนการบริการแบบความเร็วสูงนี้จะขายเป็นโมเดลรุ่น Ultraspeed ต้องขอใช้งานล่วงหน้า และค่าใช้งานแพงกว่ารุ่นปกติ 3 เท่าตัว
on