Tags:
Node Thumbnail

EXO Labs ผู้พัฒนาซอฟต์แวร์คลัสเตอร์สำหรับรันปัญญาประดิษฐ์ รายงานถึงผลทดสอบของ Mac Studio ที่ใช้ชิป M3 Ultra พร้อมกับแรม 512GB สองเครื่อง สามารถรันโมเดล DeepSeek-R1 ตัวเต็มที่ 671B FP8 ได้ด้วยความเร็ว 11 token/s

M3 Ultra มีความได้เปรียบสำหรับการรันปัญญาประดิษฐ์ในบ้าน เพราะรองรับแรมแบบ unified memory ขนาดใหญ่, มีแบนวิดท์หน่วยความจำสูง, และในเวอร์ชั่นนี้ยังรองรับ Thunderbolt 5 ที่แบนวิดท์สูงขึ้นเป็น 120Gb/s ตัวแอปเปิลเองถึงกับโฆษณาความเร็วในการรัน LLM ไว้ด้วย

โดยเฉลี่ยแล้วความเร็ว 11 token/s ประมาณได้ว่าเป็นการพิมพ์ 40-50 ตัวอักษรต่อวินาทีซึ่งก็น่าจะเพียงพอต่อการแชตทั่วไป แต่ในกรณีโมเดลคิดก่อนตอบ เช่น R1 นั้นประสิทธิภาพจะช้ามากก่อนได้คำตอบ เนื่องจากโมเดลเสียเวลาคิดอยู่ช่วงหนึ่ง

Alex Cheema จาก EXO Labs ระบุว่าความเร็วทางทฤษฎีน่าจะไปได้ถึง 20 token/s และหลังจากนั้นน่าจะหาทางปรับปรุงประสิทธิภาพทางอื่น เช่น expert parallelism ซึ่งอาจจะดันไปได้ถึง 40 token/s นอกจากนี้หากย่อโมเดลลงให้กลายเป็น Q6_K น่าจะย่อโมเดลได้เหลือ 500GB ซึ่งจะรันใน Mac Studio เครื่องเดียวได้ (แรมเกือบหมดทันที) Cheema ระบุว่าเขาจะเอามาทดสอบต่อไป

ที่มา - @alexocheema

Get latest news from Blognone

Comments

By: incredibles
iPhoneWindows PhoneAndroidUbuntu
on 14 March 2025 - 01:31 #1335827

เอาเรื่องอยู่นะเนี่ย

By: mr_tawan
ContributoriPhoneAndroidWindows
on 14 March 2025 - 02:03 #1335828
mr_tawan's picture

ประมาณสามแสนสามนะครับ เผื่อคนสนใจและงบถึง


  • 9tawan.net บล็อกส่วนตัวฮับ
By: lew
FounderJusci's WriterMEconomicsAndroid
on 14 March 2025 - 09:28 #1335837 Reply to:1335828
lew's picture

สองเครื่องเจ็ดแสนครับ


lewcpe.com, @wasonliw

By: MaxxIE
iPhoneAndroidUbuntuWindows
on 14 March 2025 - 13:43 #1335862 Reply to:1335837
MaxxIE's picture

ซื้อประกัน Alpple Care + อย่างคุ้มเลย
ประกันถูกกว่าMacbook Air อีก

By: waroonh
Windows
on 14 March 2025 - 07:17 #1335830

คุ้นๆว่า ใครไม่รู้บอกว่า iOS ram 8gb ก็ใช้ได้แล้ว ...55

By: Ooh
ContributoriPhoneAndroidSymbian
on 14 March 2025 - 08:10 #1335831
Ooh's picture

แล้วถ้าให้ได้ผลเท่าๆกันแต่ไม่ใช้ Mac Studio มันต้องลงทุนเท่าไหร่หรอ?


Ooh

By: tekkasit
ContributorAndroidWindowsIn Love
on 14 March 2025 - 08:56 #1335833 Reply to:1335831
tekkasit's picture

DeepSeek-R1 แบบ FP8 เฉพาะโมเดลก็ปาไป 713.3 GB ต้องใช้ H100 สัก 8-9 ตัวจึงจะรันฉบับเต็มแบบนั้นได้ ได้ยินว่าค่าตัวมันก็ใบละล้านเห็นจะได้

เรียกได้ว่าตัวเลือกนี้ ถูกที่สุดแล้ว ที่จะรันบนฮาร์ดแวร์ตัวเอง

By: lew
FounderJusci's WriterMEconomicsAndroid
on 14 March 2025 - 09:49 #1335840 Reply to:1335833
lew's picture

ถ้าใช้ AMD MI300 รุ่น 256GB ก็น่าจะ 4 ใบ เฉลี่ยใบละล้าน ก็น่าจะแถวๆ 4 ล้านครับ


lewcpe.com, @wasonliw

By: tekkasit
ContributorAndroidWindowsIn Love
on 14 March 2025 - 11:23 #1335846 Reply to:1335840
tekkasit's picture

โอเค ถูกไปครึ่งหนึ่ง .... (WoW)

By: SilentHeal
AndroidUbuntuWindowsIn Love
on 14 March 2025 - 09:04 #1335834
SilentHeal's picture

เอ ... แรมเครื่อง = แรมการ์ดจอ เลยเหรอครับ ,, งั้นเอา mac mini 32G มารัน โมเดลเล็กๆ จะดีกว่า(คุ้มกว่า) ไปซื้อ การ์ดจอแรม 32G มั้ยหว่า ราคาต่างกัน 3-4 เท่าเลย

By: lew
FounderJusci's WriterMEconomicsAndroid
on 14 March 2025 - 09:29 #1335838 Reply to:1335834
lew's picture

ใช่ครับ เป็น unified memory

คุ้มกว่าไหมนี่ต้องถามถึงประสิทธิภาพด้วยครับ โหลดโมเดลขึ้น รันได้ แต่ช้าจัดๆ ยอมรับได้ไหม


lewcpe.com, @wasonliw

By: SilentHeal
AndroidUbuntuWindowsIn Love
on 14 March 2025 - 16:11 #1335873 Reply to:1335838
SilentHeal's picture

สงสัยจะไม่เวริค ไปเจอ Benchmarks มา m3 ram 64G ยังแพ้ 3070 ช้าจัดๆ จริงๆครับ มีดีแค่ ไม่ OOM

https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

By: lew
FounderJusci's WriterMEconomicsAndroid
on 15 March 2025 - 13:32 #1335904 Reply to:1335873
lew's picture

อันนี้ขึ้นกับงานเลยครับ สมมติว่างานที่ต้องการคือรัน model 70B FP16 (ขนาด 140GB) ลองย่อแล้วกลับไม่ตอบสนองความต้องการ การซื้อ 3070 ก็ไม่มีความคุ้มเลย (รันได้ช้าจัดดีกว่ารันไม่ได้) ก็อาจจะต้องไปเทียบกับพวก H100 ซึ่งราคาห่างกันมาก


lewcpe.com, @wasonliw

By: orchidkit on 15 March 2025 - 14:54 #1335908

4090 ยังแรงกว่าอยู่ ในเงินเท่ากัน