Xiaomi
Xiaomi ประกาศความร่วมมือกับ TileRT ผู้พัฒนารันไทม์สำหรับรัน LLM ความเร็วสูง ทำให้รันโมเดล MiMo-V2.5-Pro ได้ความเร็วระดับ 1000 token/s ได้บนเครื่องเดียวโดยไม่ต้องการชิปพิเศษ
โมเดลที่ใช้ไม่ใช่โมเดลเต็ม แต่เป็นโมเดลย่อบางส่วน โดยเฉพาะส่วน MoE ที่ย่อเป็น MXFP4 ที่ยังได้ระดับความฉลาดใกล้เคียงกับโมเดลเต็ม ส่วนที่เหลือใช้ FP8 การออปติไมซ์อีกส่วนคือ DFlash ทำนายโทเค็นล่วงหน้าเป็นบล็อคแล้วตรวจสอบความถูกต้องทีเดียว
รันไทม์ของ TileRT มีฟีเจอร์ Persistent Engine Kernel ทำงานต่อเนื่องโดยออปติไมซ์การเคลื่อนย้ายข้อมูลให้ได้ประสิทธิภาพที่สุด