เมื่อวานนี้หลังเหตุการณ์ route leak จากลูกค้ารายหนึ่งของ Verizon ทำให้บริการสำคัญๆ อย่าง Cloudflare, AWS, Linode เข้าใช้งานไม่ได้ไประยะหนึ่ง ตอนนี้ Cloudflare ก็ออกมารายงานถึงรายละเอียด
ต้นเรื่องของปัญหามาจาก DQE Communications ผู้ให้บริการอินเทอร์เน็ตรายหนึ่งในรัฐเพนซิลเวเนีย (AS33154) โดย DQE ใช้บริการ BGP Optimizer ของบริษัท Noction แยกเราท์ออกเป็นวงย่อยๆ เหมือนป้ายบอกทางที่ระบุชัดเจนว่าปลายทางไปที่ใด เราท์เหล่านี้ถูกประกาศให้กับลูกค้า คือ Allegheny Technology (AS396531) แต่เราท์เหล่านี้กลับถูกส่งต่อไปยังผู้ให้บริการ transit อย่าง Verizon (AS701) ด้วย โดยปกติแล้ว และเมื่อ Verizon ได้รับ ก็ประกาศออกไปทั้งโลก ลากเอาทราฟิกมหาศาลไปผ่านผู้ให้บริการอินเทอร์เน็ตรายเล็กๆ
Cloudflare ระบุว่า Verizon มีความไม่มืออาชีพหลายประการ ตั้งแต่การรับเราท์จำนวนมากจากลูกค้าโดยไม่จำกัดจำนวนไว้, ไม่เปิดฟิลเตอร์จำกัด prefix ที่ยอมรับได้จากลูกค้า, ไม่เปิดการตรวจสอบ RPKI (แต่ผู้ให้บริการจำนวนมากก็ไม่เปิดเหมือนกัน) โดยระบุว่ากระบวนการพื้นฐานไม่ได้สร้างค่าใช้จ่ายเพิ่มขึ้นมาก และหากวิศวกรของ Verizon ไม่ทำก็เพราะขี้เกียจหรือสะเพร่า
นอกจากนี้ Verizon ยังไม่ตอบโทรศัพท์หรืออีเมล แม้จะเกิดเหตุไปแล้วถึง 8 ชั่วโมง โดยวิศวกรของ Cloudflare ต้องแก้ปัญหากับ DQE โดยตรง
Cloudflare ระบุว่าช่วงที่เกิดปัญหา ทราฟิกทั้งโลกของ Cloudflare หายไป 15%
ที่มา - Cloudflare
Comments
เพนซิลวาเนียร์ => เพนซิลเวเนีย
ใช่บริการ => ใช้บริการ
รอดูฝั่ง Verizon จะตอบโต้หรือยอมรับผิดหรือเปล่า และจะตอบอย่างไรด้วย ฟังข้างเดียวเดี๋ยวโป๊ะแตกอีก
ความล้มเหลว คือจุดเริ่มต้นสู่ความหายนะ มีผลกระทบมากกว่าแค่เสียเงิน เวลา อนาคต และทรัพยากรที่เสียไป - จงอย่าล้มเหลว
เคสนี้หลักฐานทางเทคนิคมันชัดเจนครับ คนดูแลโครงข่ายเห็นกันหมดทั้งโลก...
สงสัยจะเป็นโรคเรื้อรังสำหรับคนยุคนี้ ต้อง text หาเจ้าตัวถึงจะตอบ