เฟซบุ๊กเขียนบล็อกเล่าถึงเหตุล่มเมื่อวานนี้โดยเพิ่มรายละเอียดเพิ่มเติม ระบุว่าเหตุทั้งหมดเกิดจากการซ่อมบำรุง และวิศวกรส่งคำสั่งเพื่อทดสอบว่าลิงก์แกนกลางยังรับทราฟิกได้เพียงใด (global backbone capacity) แต่คำสั่งนั้นกลับทำให้ลิงก์แกนกลางล่มไปทั้งหมดทันที โดยปกติแล้วระบบของเฟซบุ๊กจะป้องกันไม่ให้ใครส่งคำสั่งอันตรายเช่นนี้ แต่ซอฟต์แวร์ตัวนี้กลับมีบั๊กทำให้คำสั่งรันไปได้
หลังจากลิงก์แกนกลางล่มไปแล้ว เหล่าเซิร์ฟเวอร์ DNS ที่อยู่ในศูนย์ข้อมูลอื่นๆ ก็พบว่าไม่สามารถติดต่อศูนย์ข้อมูลหลักได้ ระบบของเฟซบุ๊กออกแบบให้เน็ตเวิร์คของ DNS เหล่านี้ถอนการประกาศเราท์ BGP ออกไปทันที เผื่อว่าในกรณีที่ DNS เชื่อมต่อศูนย์ข้อมูลหลักไม่ได้แค่บางแห่ง ผู้ใช้จะได้สามารถเชื่อมต่อ DNS ทางศูนย์ข้อมูลอื่นๆ ได้ แต่เมื่อลิงก์แกนกลางล่มไปแล้ว เซิร์ฟเวอร์ DNS ก็พากันถอนเราท์ BGP ออกไปทั้งหมด ส่งผลให้ระบบ DNS ของเฟซบุ๊กล่มตาม
ถึงตอนนี้วิศวกรของเฟซบุ๊กรู้ว่าต้องเข้าไปกู้ลิงก์แกนกลางในศูนย์ข้อมูล เนื่องจากลิงก์หลักล่มแถม DNS ก็ทำให้เครื่องมือตรวจสอบเน็ตเวิร์คล่มไม่ทำงาน และหลังจากกู้ลิงก์ได้แล้ววิศวกรของเฟซบุ๊กก็ไม่สามารถเปิดระบบกลับขึ้นมาได้ทันที เพราะศูนย์ข้อมูลทั้งหมดที่ล่มไปแต่ละแห่งใช้ไฟฟ้าน้อยลงนับสิบเมกกะวัตต์ การเปิดระบบกลับขึ้นมาทันทีสร้างอันตรายต่อระบบไฟฟ้า แต่เฟซบุ๊กเคยซักซ้อมการเปิดระบบกลับในกรณีเกิดเหตุล่มขนาดใหญ่เช่นนี้มาแล้ว เรียกว่า storm drill
เฟซบุ๊กระบุว่าเหตุที่ช้าเพราะระบบส่วนมากออกแบบไว้เพื่อเน้นความปลอดภัยมากกว่าเหตุล่มที่เจ้าหน้าที่ต้องทำงานหน้าเครื่องเช่นนี้ แต่เหตุแบบนี้ก็เกิดไม่บ่อยนัก
ที่มา - Facebook
Comments
นึกถึงตอนโรงงานนิวเคลียร์ระเบิด เพราะวิศวกรทดสอบอะไรสักอย่าง
Facebook intern: Let's test the network, just to be sure.
อาจเป็นไปได้
ตอนผมฝึกงานที่ internet provider แห่งหนึ่งเมื่อ 10 ปีที่แล้วก็ทดลองจิ้มสายแลนเข้าคอมตัวเองละโหลดบิทเหมือนกันครับ เครื่องค้างเลย ไม่รู้ดิสเขียนไม่ทันหรืออะไร555
คนจริงเทสบน Production
+1
?
นับว่าเป็นการทดสอบระบบที่มีค่าใช้จ่าย(ความเสียหาย)สูงที่สุดในโลกไหมเคสนี้
"เนื่องจากลิงก็หลักล่ม" ลิงก์
อาจจะไม่เกี่ยวกับเรื่องนี้ แต่เหตุผลประมาณนี้ทำให้ผมนึกถึง เหตุการณ์โรงงานไฟฟ้านิวเคลียร์เชอร์โนบิล (เหตุเริ่มต้นมาจากการทดสอบระบบ แล้วเกิดความผิดพลาดในการทดสอบระบบเหมือนกัน)
ผมชอบที่ต่างชาติมาอธิบายสาเหตุจริงๆและอธิบายให้คนทั่วไปเข้าใจง่าย ไม่เหมือนที่ไทยที่ไม่บอกอะไรเลย หรือระบุว่าโดนแฮก
อย่าว่าแต่อธิบายเลย เค้าอาจจะรู้แค่คำนั้นจริงๆก็ได้ครับ.....
เวลามีปัญหาอะไรขึ้นมา สิ่งที่คนไทยเริ่มคือ ด่าก่อน จึงไม่จำเป็นต้องอธิบายอะไร ไหน ๆ ก็โดนด่าอยู่ดี
คนไทยขอโทษ โดนด่าว่า ทำผิดแล้วมาขอโทษหรอ ง่ายไปไหม คนญี่ปุ่นขอโทษ คนไทยบอก สุดยอดเขารู้จักผิด
Real man 2021, Test on production!
System testing: Hardcore mode.
ความล้มเหลว คือจุดเริ่มต้นสู่ความหายนะ มีผลกระทบมากกว่าแค่เสียเงิน เวลา อนาคต และทรัพยากรที่เสียไป - จงอย่าล้มเหลว
อ่านดีเทลทั้งหมด ได้ความรู้เยอะดีกับการ Manage Megascale DC ทั้งเรื่องการเข้า DC, Traffic, ไฟฟ้า
ระดับเฟซบุ๊กไม่ต้องกลัวคนแฮกแล้ว กลัวพนักงานนี่แหละ
แนะนำดูคลิปของนายอาร์ม อธิบายดีมาก คนไม่เก่งคอม ก็เข้าใจได้
ลองไปฟังดู Facebook ล่มวันก่อนเกิดจากอะไร