Node Thumbnail

NVIDIA เปิดตัวจีพียู Tesla รุ่นใหม่ในชื่อ V100 สำหรับงานดาต้าเซ็นเตอร์, AI แทน P100 เดิม ความน่าสนใจอยู่ที่ใช้จีพียูชื่อสถาปัตยกรรมใหม่ Volta ในรหัส GV100 ที่พร้อมผลิตเป็นการ์ดรุ่น GeForce ซีรีย์ 2000 ในลำดับต่อไป

สเปคที่น่าสนใจของ Tesla V100 อยู่ที่จำนวนทรานซิสเตอร์ขึ้นไปอยู่ที่ 21 พันล้านหน่วย (จากเดิม 15.3 พันล้านบน P100) ผลิตโดย TSMC ที่เทคโนโลยีระดับ 12nm FF (จากเดิม 16nm FF) มากับ CUDA Core 5,120 หน่วย ถูกหารเป็น 84 Volta Streaming Multiprocessor ทำงานกับแรม HBM2 16GB แบนด์วิดธ์ 900GB/s รีดพลังประมวลผลได้ 15 FP32 TFLOPS ยังไม่มีสเปคความร้อนหรือสัญญาณนาฬิกาออกมา ในรูปแบบการ์ด PCI-Express และ NVLINK ครับ (สเปคทรงพลังเกินกว่าจะเล่นเกมจริงๆ)

ที่มา - NVIDIA

alt="upic.me"

alt="upic.me"

Get latest news from Blognone

Comments

By: waroonh
Windows
on 11 May 2017 - 10:44 #984374

อืม.. ใกล้ถึงเวลาเปิดตัว GTX Titan XP Service pack 1 แล้วสินะครับ

By: nununu
Windows Phone
on 11 May 2017 - 10:55 #984375 Reply to:984374

จาก p เป็น v แทน สงสัยจะเป็น Vista ครับ 5555

By: waroonh
Windows
on 11 May 2017 - 12:05 #986108 Reply to:984375

^
ใจเย็นๆ ครับ ผมเข้าความรู้สึกนะ

ปีที่แล้ว เดือน 6 เปิดตัว GTX Titan มา $1,200 (ซื้อนี่)

2 เดือนที่แล้ว เปิดตัว GTX 1080Ti มา $699 แต่แรงกว่า Titan (WTF ?)

พอโดนด่าเข้า เยอะๆ ก็ประชดออก GTX Titan รุ่นใหม่
เดือนที่แล้ว GTX Titan Xp แรงกว่า 1080Ti ประมาณ แมลงหวี่ กับ แมลงวัน บินแข่งกัน
(ซื้อตัวนี้ อีกรอบ ?)

เดือนนี้ ประกาศว่า Volta ที่จะมาเป็น Series 2000 ออกขาย ประมาณเดือน 7-8
ขอให้เจริญๆ นะครับ nVidia

By: McKay
ContributorAndroidWindowsIn Love
on 11 May 2017 - 12:37 #986114
McKay's picture

15 'FP 32' TFLOPS -> 15 'FP32' TFLOPS จะดีกว่าครับ

ข้อสังเกตของ V100 คือ FP16 ไม่ได้เร็วเป็น 2 เท่าของ FP32 เหมือน P100 อีกแล้ว แต่เป็น 8 เท่าแทน!


In Soviet Warcraft, Argus comes to you.

By: twometre
WriterAndroidWindows
on 11 May 2017 - 14:26 #986140 Reply to:986114
twometre's picture

เป็นหน่วยวัดใหม่ที่ผมเพิ่งเคยเห็นน่ะครับ เลยเว้นวรรคผิด ขอบพระคุณครับ

By: lew
FounderJusci's WriterMEconomicsAndroid
on 11 May 2017 - 19:31 #986180 Reply to:986114
lew's picture

แสดงว่าใส่ ALU FP16 รัวๆ ไม่ได้เอา FP32 มาแบ่งครึ่งแล้ว?


lewcpe.com, @public_lewcpe

By: McKay
ContributorAndroidWindowsIn Love
on 12 May 2017 - 02:13 #986256 Reply to:986180
McKay's picture

จากที่อ่านลิ้งที่คุณ k2w2yut โพสมาสรุปว่าเพิ่ม ALU แบบใหม่ขึ้นมาจริงๆครับ แต่ไม่ใช่ FP16 ปกติ โดยเป็น core เพื่อประมวลผล Matrix-Matrix multiplication (BLAS GEMM) -- Tensor Cores ซึ่งใช้ในงาน deep learning แทน FP32(@16) ALU แบบปกติครับ

ดังนั้นที่ผมเม้นไปว่า x8 อันนั้นคงผิดเพราะมันไม่ใช่ FP32/16 แบบปกติ(และน่าจะประมวลผล FP16 แบบปกติไม่ได้) ซึ่งคงต้องใช้การ optimize พอสมควร อันนี้ NVIDIA โฆษณาว่า

Tensor Cores provide up to 12x higher peak TFLOPS on Tesla V100 for deep learning training compared to P100 FP32 operations, and for deep learning inference, up to 6x higher peak TFLOPS compared to P100 FP16 operations


In Soviet Warcraft, Argus comes to you.

By: k2w2yut
Android
on 12 May 2017 - 07:58 #986274 Reply to:986256

รายละเอียดเพิ่มเติมอ่านได้จาก blog CUDA แล้วครับ

”Each Tensor Core performs 64 floating point FMA mixed-precision operations per clock (FP16 input multiply with full precision product and FP32 accumulate, as Figure 8 shows) and 8 Tensor Cores in an SM perform a total of 1024 floating point operations per clock”

สรุปง่ายๆคือ"โกง"นับ FLOPS มันตรงๆเลย ไม่สนว่าเป็น 16/32/64
Peak FP32 TFLOP/s : 15 (32-bit each)
Peak Tensor Core TFLOP/s : 120 (1-bit each,1455x640x64x2)

*นอกเรื่อง เทียบกับ TPU ของ Google ที่ยัด 8-bit 256x256 MAC (10K fp/clock/unit) ดูยังห่างกันหลายขุม แต่ทางนั้นเน้น inference ล้วนๆไม่เน้น learning

ref:https://devblogs.nvidia.com/parallelforall/cuda-9-features-revealed/

By: McKay
ContributorAndroidWindowsIn Love
on 12 May 2017 - 08:22 #986280 Reply to:986274
McKay's picture

ไอ้ FP32 นี่ไม่น่าจะถือว่าโกงหล่ะครับเพราะตัว shader มันให้ raw perf ได้แบบนั้นจริงๆไม่ต้อง optimize อะไร

แต่ตัว Tensor Cores นี่ถ้าไม่ได้ใช้ cuBLAS GEMM FP16->FP32 Mixed Precision นี่ก็แทบจะไม่ได้ประโยชน์อะไรเลย


In Soviet Warcraft, Argus comes to you.

By: k2w2yut
Android
on 12 May 2017 - 10:44 #986314 Reply to:986280

ผมไม่แน่ใจถ้าไม่ได้ใช้ cuBLAS แล้วตัว compiler จะฉลาดพอ,หรือต้อง inline assembly เอาถึงจะใช้งานได้

By: tekkasit
ContributorAndroidWindowsIn Love
on 11 May 2017 - 21:55 #986205 Reply to:986114
tekkasit's picture

งงครับ จากที่มา ตอนที่ "NVIDIA Tesla V100 Specifications" ยังระบุว่า

  • Double-Precision: 7.5 TeraFLOPS
  • Single-Precision: 15 TeraFLOPS
  • Deep Learning: 120 TeraFLOPS

เหมือน Deep Learning ก็ยังไม่ใช่ Single-Precision

By: k2w2yut
Android
on 11 May 2017 - 22:11 #986208 Reply to:986114

whitepaper ยังไม่ออกก็คงได้แค่เดาๆแหละครับ
2x FP32->FP16x2
2x FP64->FP16x4 native instruction ใหม่?
4x 8 TensorCore core ที่ใส่มาน้อยมากแต่ไม่บอกรายละเอียด?

ref:https://devblogs.nvidia.com/parallelforall/inside-volta/

ปล.Nvidia น่าจะหมดมุขไม่หั่นไม่แก้ SM ไปอีกพักใหญ่คงได้แต่ยัดตัวประมวลผลเฉพาะทางมากขึ้น - -

By: art_duron
AndroidWindows
on 11 May 2017 - 13:47 #986130
art_duron's picture

"สเปคทรงพลังเกินกว่าจะเล่นเกมจริงๆ"
ผมว่าไม่น่าจะจริงนะครับถ้าเอามาใช้กับ Dell UP3218K ที่ native นะครับ 555

By: sapjunior
AndroidUbuntuWindows
on 11 May 2017 - 19:18 #986179

ไม่น่าจะเล่นเกมได้รึเปล่าครับ เพราะ Tesla ไม่มี Output นิครับ

By: MaylinZ
Contributor
on 11 May 2017 - 20:30 #986190 Reply to:986179

ก็เอาไปพ่วงกับ Quadro สิครับ ถ้ามันมีหัวต่อ SLI นะ 555+