ปัญหา AWS S3 ในโซน US-EAST-1 ล่มเมื่อต้นเดือนที่ผ่านมา พาบริการสำคัญๆ ล่มตามไปด้วยจำนวนมาก ตอนนี้ทีมงาน AWS ก็ออกมาชี้แจงปัญหาที่เกิดขึ้นแล้ว
รายงานระบุว่าทีมงานกำลังแก้ปัญหาระบบ billing อัพเดตช้ากว่าที่ควรจะเป็นโดยการถอดเครื่องบางส่วนออกจากระบบ billing แต่การสั่งสคริปต์ผิดพลาดทำให้ถอดเครื่องในระบบ index (สำหรับการดึงข้อมูลและลบข้อมูล) และระบบ placement (สำหรับการ PUT ข้อมูล) ออกไปเป็นจำนวนมาก
ปกติแล้วระบบเหล่านี้ทนทานต่อการเสียเครื่องบางส่วนไปอยู่แล้ว แต่เหตุการณ์ครั้งนี้ทำให้ทีมงานต้องรีสตาร์ตระบบเป็นครั้งแรกในรอบหลายปี ระบบ index กลับมาทำงานได้สามชั่วโมงหลังการถอดเครื่องออก และระบบ placement ทำงานได้อีกประมาณหนึ่งชั่วโมงต่อมา
ระหว่างนั้นหน้าจอ AWS Service Health Dashboard กลับขึ้นสถานะปกติตลอดเวลาเพราะตัวระบบใช้ S3 เองด้วย ทีมงานจึงต้องอัพเดตสถานะผ่านทางทวิตเตอร์แทน
การแก้ไขระยะยาวหลังจากนี้จะมีการปรับเปลี่ยนสคริปต์ไม่ให้มีการถอดเครื่องจำนวนมากออกจากระบบได้อีกต่อไป และเพิ่มมาตรการเพื่อการกู้ระบบกลับมาให้เร็วขึ้น
ที่มา - AWS
on
และเพิ่มมาตรการเพื่อการในการก
panurat2000 Fri, 03/03/2017 - 09:44
เพื่อการในการ ?
แล้วเรื่องชดเชยหละ
sonkub Fri, 03/03/2017 - 10:34
แล้วเรื่องชดเชยหละ มีพูดถึงมั้ยหว่า หรือมันยังอยู่ใน SLA
Amazon S3 Service Level
tekkasit Fri, 03/03/2017 - 10:48
In reply to แล้วเรื่องชดเชยหละ by sonkub
Amazon S3 Service Level Agreement
ถือว่าเป็นงานช้างของผู้ดูแลระ
btoy Fri, 03/03/2017 - 13:44
ถือว่าเป็นงานช้างของผู้ดูแลระบบเลยเนอะ คิดแล้วก็เครียดแทน ห้าห้า