Cerebras ผู้พัฒนาชิปเฉพาะทางในการรันโมเดลปัญญาประดิษฐ์ขนาดใหญ่ โชว์บริการ Cerebras Inference ที่ให้บริการโมเดล Llama 3.1 405B แบบความละเอียดเต็ม 16-bit แต่ได้ความเร็วสูงมากถึง 969 token/s และเริ่มตอบโทเค็นแรกในเวลาเพียง 240ms ใกล้เคียงการตอบแบบทันที
ทาง Cerebras โชว์ความเร็วของชิปตัวเองเป็นระยะ เดือนที่แล้วก็เพิ่งโชว์การรัน Llama 3.2 70B ที่ระดับ 2,100 token/s ไป แต่ก็ไม่เปิดเผยว่าจะให้บริการจริงเมื่อใด แต่มารอบนี้ทาง Cerebras ระบุว่าจะเปิดให้บริการตลาวด์ไตรมาสแรกของปี 2025 และยังประกาศราคาอินพุต 6 ดอลลาร์ต่อล้านโทเค็น และเอาท์พุต 12 ดอลลาร์ต่อล้านโทเค็น (เทียบกับ Azure ที่อินพุต 5.33 ดอลาร์และเอาท์พุต 15 ดอลลาร์)
ตอนนี้เริ่มเปิดบริการแบบวงปิดแล้ว คนที่สนใจสามารถไปลงชื่อรอคิวได้
ที่มา - Cerebras

on
แต่ได้ควมเร็ว แต่ได้ความเร็ว
Azymik Tue, 19/11/2024 - 14:02
แต่ได้ความเร็ว
Enter ปุ๊บ มาปุ๊งเดียวเลย
Fzo Tue, 19/11/2024 - 17:11
Enter ปุ๊บ มาปุ๊งเดียวเลย ไม่ต้อง stream text 😂
ตอนนี้ หน้าแรก อวด DeepSeek
tontpong Mon, 03/02/2025 - 15:17
ตอนนี้ หน้าแรก อวด DeepSeek R1-70B llama แทนละ .. เคลมว่า , At over 1,500 tokens per second
ช้ากว่า llama ดั้งเดิม ? .. เหมือนแบก param เพิ่มอยู่ , รึ perf/eff ร่วงไปทื่อๆ เลย 🤔