EXO Labs ผู้พัฒนาซอฟต์แวร์คลัสเตอร์สำหรับรันปัญญาประดิษฐ์ รายงานถึงผลทดสอบของ Mac Studio ที่ใช้ชิป M3 Ultra พร้อมกับแรม 512GB สองเครื่อง สามารถรันโมเดล DeepSeek-R1 ตัวเต็มที่ 671B FP8 ได้ด้วยความเร็ว 11 token/s
M3 Ultra มีความได้เปรียบสำหรับการรันปัญญาประดิษฐ์ในบ้าน เพราะรองรับแรมแบบ unified memory ขนาดใหญ่, มีแบนวิดท์หน่วยความจำสูง, และในเวอร์ชั่นนี้ยังรองรับ Thunderbolt 5 ที่แบนวิดท์สูงขึ้นเป็น 120Gb/s ตัวแอปเปิลเองถึงกับโฆษณาความเร็วในการรัน LLM ไว้ด้วย
โดยเฉลี่ยแล้วความเร็ว 11 token/s ประมาณได้ว่าเป็นการพิมพ์ 40-50 ตัวอักษรต่อวินาทีซึ่งก็น่าจะเพียงพอต่อการแชตทั่วไป แต่ในกรณีโมเดลคิดก่อนตอบ เช่น R1 นั้นประสิทธิภาพจะช้ามากก่อนได้คำตอบ เนื่องจากโมเดลเสียเวลาคิดอยู่ช่วงหนึ่ง
Alex Cheema จาก EXO Labs ระบุว่าความเร็วทางทฤษฎีน่าจะไปได้ถึง 20 token/s และหลังจากนั้นน่าจะหาทางปรับปรุงประสิทธิภาพทางอื่น เช่น expert parallelism ซึ่งอาจจะดันไปได้ถึง 40 token/s นอกจากนี้หากย่อโมเดลลงให้กลายเป็น Q6_K น่าจะย่อโมเดลได้เหลือ 500GB ซึ่งจะรันใน Mac Studio เครื่องเดียวได้ (แรมเกือบหมดทันที) Cheema ระบุว่าเขาจะเอามาทดสอบต่อไป
ที่มา - @alexocheema

on
เอาเรื่องอยู่นะเนี่ย
incredibles Fri, 14/03/2025 - 01:31
เอาเรื่องอยู่นะเนี่ย
ประมาณสามแสนสามนะครับ
mr_tawan Fri, 14/03/2025 - 02:03
ประมาณสามแสนสามนะครับ เผื่อคนสนใจและงบถึง
สองเครื่องเจ็ดแสนครับ
lew Fri, 14/03/2025 - 09:28
In reply to ประมาณสามแสนสามนะครับ by mr_tawan
สองเครื่องเจ็ดแสนครับ
ซื้อประกัน Alpple Care +
MaxxIE Fri, 14/03/2025 - 13:43
In reply to สองเครื่องเจ็ดแสนครับ by lew
ซื้อประกัน Alpple Care + อย่างคุ้มเลย
ประกันถูกกว่าMacbook Air อีก
คุ้นๆว่า ใครไม่รู้บอกว่า iOS
waroonh Fri, 14/03/2025 - 07:17
คุ้นๆว่า ใครไม่รู้บอกว่า iOS ram 8gb ก็ใช้ได้แล้ว ...55
แล้วถ้าให้ได้ผลเท่าๆกันแต่ไม่
Ooh Fri, 14/03/2025 - 08:10
แล้วถ้าให้ได้ผลเท่าๆกันแต่ไม่ใช้ Mac Studio มันต้องลงทุนเท่าไหร่หรอ?
DeepSeek-R1 แบบ FP8
tekkasit Fri, 14/03/2025 - 08:56
In reply to แล้วถ้าให้ได้ผลเท่าๆกันแต่ไม่ by Ooh
DeepSeek-R1 แบบ FP8 เฉพาะโมเดลก็ปาไป 713.3 GB ต้องใช้ H100 สัก 8-9 ตัวจึงจะรันฉบับเต็มแบบนั้นได้ ได้ยินว่าค่าตัวมันก็ใบละล้านเห็นจะได้
เรียกได้ว่าตัวเลือกนี้ ถูกที่สุดแล้ว ที่จะรันบนฮาร์ดแวร์ตัวเอง
ถ้าใช้ AMD MI300 รุ่น 256GB
lew Fri, 14/03/2025 - 09:49
In reply to DeepSeek-R1 แบบ FP8 by tekkasit
ถ้าใช้ AMD MI300 รุ่น 256GB ก็น่าจะ 4 ใบ เฉลี่ยใบละล้าน ก็น่าจะแถวๆ 4 ล้านครับ
โอเค ถูกไปครึ่งหนึ่ง ....
tekkasit Fri, 14/03/2025 - 11:23
In reply to ถ้าใช้ AMD MI300 รุ่น 256GB by lew
โอเค ถูกไปครึ่งหนึ่ง .... (WoW)
เอ ... แรมเครื่อง =
SilentHeal Fri, 14/03/2025 - 09:04
เอ ... แรมเครื่อง = แรมการ์ดจอ เลยเหรอครับ ,, งั้นเอา mac mini 32G มารัน โมเดลเล็กๆ จะดีกว่า(คุ้มกว่า) ไปซื้อ การ์ดจอแรม 32G มั้ยหว่า ราคาต่างกัน 3-4 เท่าเลย
เรารู้ว่าคุณซื้อ NVIDIA
tekkasit Fri, 14/03/2025 - 09:09
In reply to เอ ... แรมเครื่อง = by SilentHeal
เรารู้ว่าคุณซื้อ NVIDIA ไม่ไหว แอปเปิลโฆษณา M3 Ultra ด้วยความเร็ว LLM ชี้อัดโมเดลแสนล้านพารามิเตอร์ไหว
ใช่ครับ เป็น unified memory
lew Fri, 14/03/2025 - 09:29
In reply to เอ ... แรมเครื่อง = by SilentHeal
ใช่ครับ เป็น unified memory
คุ้มกว่าไหมนี่ต้องถามถึงประสิทธิภาพด้วยครับ โหลดโมเดลขึ้น รันได้ แต่ช้าจัดๆ ยอมรับได้ไหม
สงสัยจะไม่เวริค ไปเจอ
SilentHeal Fri, 14/03/2025 - 16:11
In reply to ใช่ครับ เป็น unified memory by lew
สงสัยจะไม่เวริค ไปเจอ Benchmarks มา m3 ram 64G ยังแพ้ 3070 ช้าจัดๆ จริงๆครับ มีดีแค่ ไม่ OOM
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
อันนี้ขึ้นกับงานเลยครับ
lew Sat, 15/03/2025 - 13:32
In reply to สงสัยจะไม่เวริค ไปเจอ by SilentHeal
อันนี้ขึ้นกับงานเลยครับ สมมติว่างานที่ต้องการคือรัน model 70B FP16 (ขนาด 140GB) ลองย่อแล้วกลับไม่ตอบสนองความต้องการ การซื้อ 3070 ก็ไม่มีความคุ้มเลย (รันได้ช้าจัดดีกว่ารันไม่ได้) ก็อาจจะต้องไปเทียบกับพวก H100 ซึ่งราคาห่างกันมาก
4090 ยังแรงกว่าอยู่
orchidkit Sat, 15/03/2025 - 14:54
4090 ยังแรงกว่าอยู่ ในเงินเท่ากัน