Tags:
Node Thumbnail

Google Cloud ในฐานะผู้ให้บริการคลาวด์รายใหญ่ มีศูนย์ข้อมูลของตัวเอง และต้องใช้งานฮาร์ดดิสก์เป็นจำนวนมาก จับมือกับ Seagate พัฒนาเทคนิค machine learning เพื่อใช้พยากรณ์ว่าฮาร์ดดิสก์จะเสียหรือไม่

กูเกิลบอกว่ามีฮาร์ดดิสก์เป็นล้านๆ ตัว และมีข้อมูล metadata จำนวนมหาศาล เช่น SMART(Self-Monitoring, Analysis and Reporting Technology), Online Vendor Diagnostics (OVD), Field Accessible Reliability Metrics (FARM) ซึ่งไม่สามารถใช้มนุษย์อ่านได้อีกแล้ว จึงต้องใช้ machine learning มาช่วยอ่านข้อมูลแทน

โซลูชันของกูเกิลคือนำข้อมูล metadata เหล่านี้เก็บลงในบริการ BigQuery และ Cloud Dataflow ของตัวเอง ใช้ AutoML พัฒนาโมเดล เรียนรู้ด้วย TensorFlow แล้วพัฒนาระบบมอนิเตอร์ด้วย Cloud Functions กับ Cloud Composer

No Description

กูเกิลเล่าว่าระบบมอนิเตอร์เดิมจะแจ้งเมื่อพบดิสก์ที่มีปัญหา แล้วซ่อมดิสก์ลูกนั้นแบบ on-site ด้วยซอฟต์แวร์ แต่พบปัญหาว่ายุ่งยาก เพราะต้องเอาข้อมูลออกจากดิสก์ก่อน แยกดิสก์ออกมา รันซอฟต์แวร์วิเคราะห์อาการ ซ่อมเสร็จแล้วค่อยใส่ดิสก์กลับเข้าในระบบ

หลังจากมีระบบใหม่ที่ใช้ machine learning สามารถบอกได้ล่วงหน้าว่าดิสก์ลูกไหนจะมีปัญหา ทำให้ลดงานของทีมซ่อมลง กูเกิลยังได้พัฒนาระบบมอนิเตอร์ให้เชื่อมต่อกับระบบจัดการคอนฟิกระบบ (ใช้ Terraform และ GitLab) ให้เปิด-ปิดการทำงานของฮาร์ดดิสก์อัตโนมัติ

กูเกิลยังลองพัฒนาโมเดล ML สองแบบมาเปรียบเทียบกัน โดยใช้ AutoML แบบอัตโนมัติ และโมเดลคัสตอมแบบ Transformer-based ผลลัพธ์คือ AutoML ให้ประสิทธิภาพดีกว่า มีอัตราความแม่นยำ 98% เมื่อเทียบกับ 70-80% ของโมเดลแบบคัสตอม

ที่มา - Google, ภาพจาก Seagate

Get latest news from Blognone

Comments

By: whitebigbird
Contributor
on 18 May 2021 - 11:22 #1209308
whitebigbird's picture

ทำให้ลดงานของทีมซ่อมลง

ยังไงเหรอครับ สนใจตรงนี้ว่าต่างกับกระบวนการก่อนหน้ายังไง

By: plen007
iPhoneAndroidWindows
on 19 May 2021 - 08:37 #1209430 Reply to:1209308

+1 คิดเหมือนกันเลยครับ ว่าลดงานลงได้ยังไง คือรู้ล่วงหน้าก่อนจะเสีย แต่การซ่อมก็ยังต้องทำเหมือนเดิม

By: Switch_On
AndroidWindows
on 20 May 2021 - 05:45 #1209597 Reply to:1209430
Switch_On's picture

ดูจากสิ่งที่คนต้องเข้าไปทำหลังจากได้รับ alert แล้ว

น่าจะเป็นพอ AutoML detected เจอว่ามีแนวโน้มว่าจะเสียแน่ๆ ก็น่าจะให้โยกข้อมูลออกรอเลยมั้งครับ พอคนดูแลไปถึงก็ถอดออกมาจัดการ หรือทำการเปลี่ยนได้เลย ไม่ต้องไปสั่งโอนข้อมูลอีกซึ่งมันรอนานแน่ๆกว่ากระบวนการโอนข้อมูลออกจะแล้วเสร็จ

ยังไม่รวมว่าถ้ากระบวนการซ่อมดังกล่าว ทำได้เองภายใน server นั้นๆ AI น่าจะจัดการสั่งโอนสั่งซ่อมและสั่งเปิดให้ให้เรียบร้อยเลย ไม่ต้องการคนไปช่วยอีกแล้ว เว้นแต่มันทำไม่ได้หรือไม่สำเร็จค่อยแจ้งคนเข้าไปดูแล

ซึ่งถ้าทำได้แบบนี้มันลดงานได้มหาศาลจริงๆแหละ ยิ่งเทียบกับปริมาณ harddisk นับล้านลูกที่ว่าแล้ว

By: whitebigbird
Contributor
on 20 May 2021 - 13:20 #1209637 Reply to:1209597
whitebigbird's picture

ขอบคุณครับ อ่านแล้วได้ไอเดีย

By: Architec
ContributorWindows PhoneAndroidWindows
on 18 May 2021 - 11:25 #1209309

แคร่กกกกๆๆๆๆ

ไม่ดังไม่ใช่ seagate แท้

By: waroonh
Windows
on 18 May 2021 - 14:51 #1209345 Reply to:1209309

CDC (แก๊กๆๆๆ), Conner (กร๊อก ๆๆๆ), Maxtor (กึ๊กๆๆ แท๊กกๆๆๆๆๆๆ)
ถ้าท่านรู้จัก จะรู้ว่า Seagate Take Over Hard Disk ที่โด่งดังทางด้าน Mechanic
มาแล้วทุกยี่ห้อ มาใส่รวมกัน

By: Jonathan_Job
WriteriPhoneUbuntuWindows
on 18 May 2021 - 21:48 #1209393 Reply to:1209345
Jonathan_Job's picture

คอมเครื่องแรกผมใช้ Conner แหละ ... พังเหมือนกัน ส่ง claim ไป ได้กลับมากลายร่างเป็น Seagate

By: TeamKiller
ContributoriPhone
on 18 May 2021 - 13:16 #1209337
TeamKiller's picture

ซ่อม HDD กันเลยหรอเนี่ย นึกว่าลดพวก stock ของหรือเข้าไป predict ลูกเสีย เปลี่ยนก่อนล่วงหน้าเลย

By: anoid on 18 May 2021 - 14:50 #1209344 Reply to:1209337

เห็นซ่อมด้วย software น่าจะแบบกันพื้นที่ bad sector ไม่ให้ใช้งาน

By: btoy
ContributorAndroidWindows
on 18 May 2021 - 16:57 #1209361
btoy's picture

เทพของแท้


..: เรื่อยไป

By: xyz123 on 18 May 2021 - 22:57 #1209398
xyz123's picture

Google Cloud ใช้ HDD ของ Seagate เหรอครับ? ถ้าใช่ คือมันใช้ดีหรือว่ายังไง ในความรู้สึก HDD ผมไม่ค่อยเชื่อใจ Seagate ซักเท่าไหร่