Google Cloud ในฐานะผู้ให้บริการคลาวด์รายใหญ่ มีศูนย์ข้อมูลของตัวเอง และต้องใช้งานฮาร์ดดิสก์เป็นจำนวนมาก จับมือกับ Seagate พัฒนาเทคนิค machine learning เพื่อใช้พยากรณ์ว่าฮาร์ดดิสก์จะเสียหรือไม่
กูเกิลบอกว่ามีฮาร์ดดิสก์เป็นล้านๆ ตัว และมีข้อมูล metadata จำนวนมหาศาล เช่น SMART(Self-Monitoring, Analysis and Reporting Technology), Online Vendor Diagnostics (OVD), Field Accessible Reliability Metrics (FARM) ซึ่งไม่สามารถใช้มนุษย์อ่านได้อีกแล้ว จึงต้องใช้ machine learning มาช่วยอ่านข้อมูลแทน
โซลูชันของกูเกิลคือนำข้อมูล metadata เหล่านี้เก็บลงในบริการ BigQuery และ Cloud Dataflow ของตัวเอง ใช้ AutoML พัฒนาโมเดล เรียนรู้ด้วย TensorFlow แล้วพัฒนาระบบมอนิเตอร์ด้วย Cloud Functions กับ Cloud Composer

กูเกิลเล่าว่าระบบมอนิเตอร์เดิมจะแจ้งเมื่อพบดิสก์ที่มีปัญหา แล้วซ่อมดิสก์ลูกนั้นแบบ on-site ด้วยซอฟต์แวร์ แต่พบปัญหาว่ายุ่งยาก เพราะต้องเอาข้อมูลออกจากดิสก์ก่อน แยกดิสก์ออกมา รันซอฟต์แวร์วิเคราะห์อาการ ซ่อมเสร็จแล้วค่อยใส่ดิสก์กลับเข้าในระบบ
หลังจากมีระบบใหม่ที่ใช้ machine learning สามารถบอกได้ล่วงหน้าว่าดิสก์ลูกไหนจะมีปัญหา ทำให้ลดงานของทีมซ่อมลง กูเกิลยังได้พัฒนาระบบมอนิเตอร์ให้เชื่อมต่อกับระบบจัดการคอนฟิกระบบ (ใช้ Terraform และ GitLab) ให้เปิด-ปิดการทำงานของฮาร์ดดิสก์อัตโนมัติ
กูเกิลยังลองพัฒนาโมเดล ML สองแบบมาเปรียบเทียบกัน โดยใช้ AutoML แบบอัตโนมัติ และโมเดลคัสตอมแบบ Transformer-based ผลลัพธ์คือ AutoML ให้ประสิทธิภาพดีกว่า มีอัตราความแม่นยำ 98% เมื่อเทียบกับ 70-80% ของโมเดลแบบคัสตอม
ที่มา - Google, ภาพจาก Seagate
on
ทำให้ลดงานของทีมซ่อมลง
whitebigbird Tue, 18/05/2021 - 11:22
ยังไงเหรอครับ สนใจตรงนี้ว่าต่างกับกระบวนการก่อนหน้ายังไง
+1 คิดเหมือนกันเลยครับ
plen007 Wed, 19/05/2021 - 08:37
In reply to ทำให้ลดงานของทีมซ่อมลง by whitebigbird
+1 คิดเหมือนกันเลยครับ ว่าลดงานลงได้ยังไง คือรู้ล่วงหน้าก่อนจะเสีย แต่การซ่อมก็ยังต้องทำเหมือนเดิม
ดูจากสิ่งที่คนต้องเข้าไปทำหลั
Switch_On Thu, 20/05/2021 - 05:45
In reply to +1 คิดเหมือนกันเลยครับ by plen007
ดูจากสิ่งที่คนต้องเข้าไปทำหลังจากได้รับ alert แล้ว
น่าจะเป็นพอ AutoML detected เจอว่ามีแนวโน้มว่าจะเสียแน่ๆ ก็น่าจะให้โยกข้อมูลออกรอเลยมั้งครับ พอคนดูแลไปถึงก็ถอดออกมาจัดการ หรือทำการเปลี่ยนได้เลย ไม่ต้องไปสั่งโอนข้อมูลอีกซึ่งมันรอนานแน่ๆกว่ากระบวนการโอนข้อมูลออกจะแล้วเสร็จ
ยังไม่รวมว่าถ้ากระบวนการซ่อมดังกล่าว ทำได้เองภายใน server นั้นๆ AI น่าจะจัดการสั่งโอนสั่งซ่อมและสั่งเปิดให้ให้เรียบร้อยเลย ไม่ต้องการคนไปช่วยอีกแล้ว เว้นแต่มันทำไม่ได้หรือไม่สำเร็จค่อยแจ้งคนเข้าไปดูแล
ซึ่งถ้าทำได้แบบนี้มันลดงานได้มหาศาลจริงๆแหละ ยิ่งเทียบกับปริมาณ harddisk นับล้านลูกที่ว่าแล้ว
ขอบคุณครับ อ่านแล้วได้ไอเดีย
whitebigbird Thu, 20/05/2021 - 13:20
In reply to ดูจากสิ่งที่คนต้องเข้าไปทำหลั by Switch_On
ขอบคุณครับ อ่านแล้วได้ไอเดีย
แคร่กกกกๆๆๆๆ
Architec Tue, 18/05/2021 - 11:25
แคร่กกกกๆๆๆๆ
ไม่ดังไม่ใช่ seagate แท้
CDC (แก๊กๆๆๆ), Conner (กร๊อก
waroonh Tue, 18/05/2021 - 14:51
In reply to แคร่กกกกๆๆๆๆ by Architec
CDC (แก๊กๆๆๆ), Conner (กร๊อก ๆๆๆ), Maxtor (กึ๊กๆๆ แท๊กกๆๆๆๆๆๆ)
ถ้าท่านรู้จัก จะรู้ว่า Seagate Take Over Hard Disk ที่โด่งดังทางด้าน Mechanic
มาแล้วทุกยี่ห้อ มาใส่รวมกัน
คอมเครื่องแรกผมใช้ Conner
Jonathan_Job Tue, 18/05/2021 - 21:48
In reply to CDC (แก๊กๆๆๆ), Conner (กร๊อก by waroonh
คอมเครื่องแรกผมใช้ Conner แหละ ... พังเหมือนกัน ส่ง claim ไป ได้กลับมากลายร่างเป็น Seagate
ซ่อม HDD กันเลยหรอเนี่ย
TeamKiller Tue, 18/05/2021 - 13:16
ซ่อม HDD กันเลยหรอเนี่ย นึกว่าลดพวก stock ของหรือเข้าไป predict ลูกเสีย เปลี่ยนก่อนล่วงหน้าเลย
เห็นซ่อมด้วย software
anoid Tue, 18/05/2021 - 14:50
In reply to ซ่อม HDD กันเลยหรอเนี่ย by TeamKiller
เห็นซ่อมด้วย software น่าจะแบบกันพื้นที่ bad sector ไม่ให้ใช้งาน
เทพของแท้
btoy Tue, 18/05/2021 - 16:57
เทพของแท้
Google Cloud ใช้ HDD ของ
xyz123 Tue, 18/05/2021 - 22:57
Google Cloud ใช้ HDD ของ Seagate เหรอครับ? ถ้าใช่ คือมันใช้ดีหรือว่ายังไง ในความรู้สึก HDD ผมไม่ค่อยเชื่อใจ Seagate ซักเท่าไหร่