Tags:
Node Thumbnail

เฟซบุ๊กเขียนบล็อกเล่าถึงเหตุล่มเมื่อวานนี้โดยเพิ่มรายละเอียดเพิ่มเติม ระบุว่าเหตุทั้งหมดเกิดจากการซ่อมบำรุง และวิศวกรส่งคำสั่งเพื่อทดสอบว่าลิงก์แกนกลางยังรับทราฟิกได้เพียงใด (global backbone capacity) แต่คำสั่งนั้นกลับทำให้ลิงก์แกนกลางล่มไปทั้งหมดทันที โดยปกติแล้วระบบของเฟซบุ๊กจะป้องกันไม่ให้ใครส่งคำสั่งอันตรายเช่นนี้ แต่ซอฟต์แวร์ตัวนี้กลับมีบั๊กทำให้คำสั่งรันไปได้

หลังจากลิงก์แกนกลางล่มไปแล้ว เหล่าเซิร์ฟเวอร์ DNS ที่อยู่ในศูนย์ข้อมูลอื่นๆ ก็พบว่าไม่สามารถติดต่อศูนย์ข้อมูลหลักได้ ระบบของเฟซบุ๊กออกแบบให้เน็ตเวิร์คของ DNS เหล่านี้ถอนการประกาศเราท์ BGP ออกไปทันที เผื่อว่าในกรณีที่ DNS เชื่อมต่อศูนย์ข้อมูลหลักไม่ได้แค่บางแห่ง ผู้ใช้จะได้สามารถเชื่อมต่อ DNS ทางศูนย์ข้อมูลอื่นๆ ได้ แต่เมื่อลิงก์แกนกลางล่มไปแล้ว เซิร์ฟเวอร์ DNS ก็พากันถอนเราท์ BGP ออกไปทั้งหมด ส่งผลให้ระบบ DNS ของเฟซบุ๊กล่มตาม

ถึงตอนนี้วิศวกรของเฟซบุ๊กรู้ว่าต้องเข้าไปกู้ลิงก์แกนกลางในศูนย์ข้อมูล เนื่องจากลิงก์หลักล่มแถม DNS ก็ทำให้เครื่องมือตรวจสอบเน็ตเวิร์คล่มไม่ทำงาน และหลังจากกู้ลิงก์ได้แล้ววิศวกรของเฟซบุ๊กก็ไม่สามารถเปิดระบบกลับขึ้นมาได้ทันที เพราะศูนย์ข้อมูลทั้งหมดที่ล่มไปแต่ละแห่งใช้ไฟฟ้าน้อยลงนับสิบเมกกะวัตต์ การเปิดระบบกลับขึ้นมาทันทีสร้างอันตรายต่อระบบไฟฟ้า แต่เฟซบุ๊กเคยซักซ้อมการเปิดระบบกลับในกรณีเกิดเหตุล่มขนาดใหญ่เช่นนี้มาแล้ว เรียกว่า storm drill

เฟซบุ๊กระบุว่าเหตุที่ช้าเพราะระบบส่วนมากออกแบบไว้เพื่อเน้นความปลอดภัยมากกว่าเหตุล่มที่เจ้าหน้าที่ต้องทำงานหน้าเครื่องเช่นนี้ แต่เหตุแบบนี้ก็เกิดไม่บ่อยนัก

ที่มา - Facebook

No Description

Get latest news from Blognone

Comments

By: skycreeper
iPhoneBlackberryUbuntu
on 6 October 2021 - 04:09 #1226695

นึกถึงตอนโรงงานนิวเคลียร์ระเบิด เพราะวิศวกรทดสอบอะไรสักอย่าง

By: pepporony
ContributorAndroid
on 6 October 2021 - 06:52 #1226698

Facebook intern: Let's test the network, just to be sure.

By: mrmamon
ContributorAndroidWindows
on 6 October 2021 - 13:47 #1226784 Reply to:1226698

อาจเป็นไปได้
ตอนผมฝึกงานที่ internet provider แห่งหนึ่งเมื่อ 10 ปีที่แล้วก็ทดลองจิ้มสายแลนเข้าคอมตัวเองละโหลดบิทเหมือนกันครับ เครื่องค้างเลย ไม่รู้ดิสเขียนไม่ทันหรืออะไร555

By: Perl
ContributoriPhoneUbuntu
on 6 October 2021 - 07:11 #1226700
Perl's picture

คนจริงเทสบน Production

By: VanGogh
AndroidWindows
on 6 October 2021 - 11:26 #1226756 Reply to:1226700
VanGogh's picture

+1
?

By: Rainbow
iPhoneWindows
on 6 October 2021 - 07:22 #1226701

นับว่าเป็นการทดสอบระบบที่มีค่าใช้จ่าย(ความเสียหาย)สูงที่สุดในโลกไหมเคสนี้

By: byebyeblue
AndroidUbuntu
on 6 October 2021 - 08:21 #1226707

"เนื่องจากลิงก็หลักล่ม" ลิงก์

By: suotirips
iPhoneWindows PhoneAndroidUbuntu
on 6 October 2021 - 08:42 #1226709
suotirips's picture

อาจจะไม่เกี่ยวกับเรื่องนี้ แต่เหตุผลประมาณนี้ทำให้ผมนึกถึง เหตุการณ์โรงงานไฟฟ้านิวเคลียร์เชอร์โนบิล (เหตุเริ่มต้นมาจากการทดสอบระบบ แล้วเกิดความผิดพลาดในการทดสอบระบบเหมือนกัน)

By: Alios
iPhoneAndroidWindows
on 6 October 2021 - 09:11 #1226714

ผมชอบที่ต่างชาติมาอธิบายสาเหตุจริงๆและอธิบายให้คนทั่วไปเข้าใจง่าย ไม่เหมือนที่ไทยที่ไม่บอกอะไรเลย หรือระบุว่าโดนแฮก

By: Rainbow
iPhoneWindows
on 6 October 2021 - 09:29 #1226720 Reply to:1226714

อย่าว่าแต่อธิบายเลย เค้าอาจจะรู้แค่คำนั้นจริงๆก็ได้ครับ.....

By: meejaa on 7 October 2021 - 10:21 #1226854 Reply to:1226714

เวลามีปัญหาอะไรขึ้นมา สิ่งที่คนไทยเริ่มคือ ด่าก่อน จึงไม่จำเป็นต้องอธิบายอะไร ไหน ๆ ก็โดนด่าอยู่ดี

คนไทยขอโทษ โดนด่าว่า ทำผิดแล้วมาขอโทษหรอ ง่ายไปไหม คนญี่ปุ่นขอโทษ คนไทยบอก สุดยอดเขารู้จักผิด

By: crozzifyz
iPhoneWindows
on 6 October 2021 - 09:49 #1226725
crozzifyz's picture

Real man 2021, Test on production!

By: IDCET
Contributor
on 6 October 2021 - 11:31 #1226758

System testing: Hardcore mode.


ความล้มเหลว คือจุดเริ่มต้นสู่ความหายนะ มีผลกระทบมากกว่าแค่เสียเงิน เวลา อนาคต และทรัพยากรที่เสียไป - จงอย่าล้มเหลว

By: banky118
iPhone
on 6 October 2021 - 12:25 #1226771
banky118's picture

อ่านดีเทลทั้งหมด ได้ความรู้เยอะดีกับการ Manage Megascale DC ทั้งเรื่องการเข้า DC, Traffic, ไฟฟ้า

By: Eka-X
ContributoriPhoneAndroidIn Love
on 6 October 2021 - 13:21 #1226780

ระดับเฟซบุ๊กไม่ต้องกลัวคนแฮกแล้ว กลัวพนักงานนี่แหละ

By: jaideejung007
ContributorWindows PhoneWindows
on 6 October 2021 - 20:15 #1226806
jaideejung007's picture

แนะนำดูคลิปของนายอาร์ม อธิบายดีมาก คนไม่เก่งคอม ก็เข้าใจได้

ลองไปฟังดู Facebook ล่มวันก่อนเกิดจากอะไร