EXO Labs ผู้พัฒนาซอฟต์แวร์คลัสเตอร์สำหรับรันปัญญาประดิษฐ์ รายงานถึงผลทดสอบของ Mac Studio ที่ใช้ชิป M3 Ultra พร้อมกับแรม 512GB สองเครื่อง สามารถรันโมเดล DeepSeek-R1 ตัวเต็มที่ 671B FP8 ได้ด้วยความเร็ว 11 token/s
M3 Ultra มีความได้เปรียบสำหรับการรันปัญญาประดิษฐ์ในบ้าน เพราะรองรับแรมแบบ unified memory ขนาดใหญ่, มีแบนวิดท์หน่วยความจำสูง, และในเวอร์ชั่นนี้ยังรองรับ Thunderbolt 5 ที่แบนวิดท์สูงขึ้นเป็น 120Gb/s ตัวแอปเปิลเองถึงกับโฆษณาความเร็วในการรัน LLM ไว้ด้วย
โดยเฉลี่ยแล้วความเร็ว 11 token/s ประมาณได้ว่าเป็นการพิมพ์ 40-50 ตัวอักษรต่อวินาทีซึ่งก็น่าจะเพียงพอต่อการแชตทั่วไป แต่ในกรณีโมเดลคิดก่อนตอบ เช่น R1 นั้นประสิทธิภาพจะช้ามากก่อนได้คำตอบ เนื่องจากโมเดลเสียเวลาคิดอยู่ช่วงหนึ่ง
Alex Cheema จาก EXO Labs ระบุว่าความเร็วทางทฤษฎีน่าจะไปได้ถึง 20 token/s และหลังจากนั้นน่าจะหาทางปรับปรุงประสิทธิภาพทางอื่น เช่น expert parallelism ซึ่งอาจจะดันไปได้ถึง 40 token/s นอกจากนี้หากย่อโมเดลลงให้กลายเป็น Q6_K น่าจะย่อโมเดลได้เหลือ 500GB ซึ่งจะรันใน Mac Studio เครื่องเดียวได้ (แรมเกือบหมดทันที) Cheema ระบุว่าเขาจะเอามาทดสอบต่อไป
ที่มา - @alexocheema
Comments
เอาเรื่องอยู่นะเนี่ย
ประมาณสามแสนสามนะครับ เผื่อคนสนใจและงบถึง
สองเครื่องเจ็ดแสนครับ
lewcpe.com, @wasonliw
ซื้อประกัน Alpple Care + อย่างคุ้มเลย
ประกันถูกกว่าMacbook Air อีก
คุ้นๆว่า ใครไม่รู้บอกว่า iOS ram 8gb ก็ใช้ได้แล้ว ...55
แล้วถ้าให้ได้ผลเท่าๆกันแต่ไม่ใช้ Mac Studio มันต้องลงทุนเท่าไหร่หรอ?
Ooh
DeepSeek-R1 แบบ FP8 เฉพาะโมเดลก็ปาไป 713.3 GB ต้องใช้ H100 สัก 8-9 ตัวจึงจะรันฉบับเต็มแบบนั้นได้ ได้ยินว่าค่าตัวมันก็ใบละล้านเห็นจะได้
เรียกได้ว่าตัวเลือกนี้ ถูกที่สุดแล้ว ที่จะรันบนฮาร์ดแวร์ตัวเอง
ถ้าใช้ AMD MI300 รุ่น 256GB ก็น่าจะ 4 ใบ เฉลี่ยใบละล้าน ก็น่าจะแถวๆ 4 ล้านครับ
lewcpe.com, @wasonliw
โอเค ถูกไปครึ่งหนึ่ง .... (WoW)
เอ ... แรมเครื่อง = แรมการ์ดจอ เลยเหรอครับ ,, งั้นเอา mac mini 32G มารัน โมเดลเล็กๆ จะดีกว่า(คุ้มกว่า) ไปซื้อ การ์ดจอแรม 32G มั้ยหว่า ราคาต่างกัน 3-4 เท่าเลย
เรารู้ว่าคุณซื้อ NVIDIA ไม่ไหว แอปเปิลโฆษณา M3 Ultra ด้วยความเร็ว LLM ชี้อัดโมเดลแสนล้านพารามิเตอร์ไหว
ใช่ครับ เป็น unified memory
คุ้มกว่าไหมนี่ต้องถามถึงประสิทธิภาพด้วยครับ โหลดโมเดลขึ้น รันได้ แต่ช้าจัดๆ ยอมรับได้ไหม
lewcpe.com, @wasonliw
สงสัยจะไม่เวริค ไปเจอ Benchmarks มา m3 ram 64G ยังแพ้ 3070 ช้าจัดๆ จริงๆครับ มีดีแค่ ไม่ OOM
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
อันนี้ขึ้นกับงานเลยครับ สมมติว่างานที่ต้องการคือรัน model 70B FP16 (ขนาด 140GB) ลองย่อแล้วกลับไม่ตอบสนองความต้องการ การซื้อ 3070 ก็ไม่มีความคุ้มเลย (รันได้ช้าจัดดีกว่ารันไม่ได้) ก็อาจจะต้องไปเทียบกับพวก H100 ซึ่งราคาห่างกันมาก
lewcpe.com, @wasonliw
4090 ยังแรงกว่าอยู่ ในเงินเท่ากัน