Tags:
Node Thumbnail

ปัญหา AWS S3 ในโซน US-EAST-1 ล่มเมื่อต้นเดือนที่ผ่านมา พาบริการสำคัญๆ ล่มตามไปด้วยจำนวนมาก ตอนนี้ทีมงาน AWS ก็ออกมาชี้แจงปัญหาที่เกิดขึ้นแล้ว

รายงานระบุว่าทีมงานกำลังแก้ปัญหาระบบ billing อัพเดตช้ากว่าที่ควรจะเป็นโดยการถอดเครื่องบางส่วนออกจากระบบ billing แต่การสั่งสคริปต์ผิดพลาดทำให้ถอดเครื่องในระบบ index (สำหรับการดึงข้อมูลและลบข้อมูล) และระบบ placement (สำหรับการ PUT ข้อมูล) ออกไปเป็นจำนวนมาก

ปกติแล้วระบบเหล่านี้ทนทานต่อการเสียเครื่องบางส่วนไปอยู่แล้ว แต่เหตุการณ์ครั้งนี้ทำให้ทีมงานต้องรีสตาร์ตระบบเป็นครั้งแรกในรอบหลายปี ระบบ index กลับมาทำงานได้สามชั่วโมงหลังการถอดเครื่องออก และระบบ placement ทำงานได้อีกประมาณหนึ่งชั่วโมงต่อมา

ระหว่างนั้นหน้าจอ AWS Service Health Dashboard กลับขึ้นสถานะปกติตลอดเวลาเพราะตัวระบบใช้ S3 เองด้วย ทีมงานจึงต้องอัพเดตสถานะผ่านทางทวิตเตอร์แทน

การแก้ไขระยะยาวหลังจากนี้จะมีการปรับเปลี่ยนสคริปต์ไม่ให้มีการถอดเครื่องจำนวนมากออกจากระบบได้อีกต่อไป และเพิ่มมาตรการเพื่อการกู้ระบบกลับมาให้เร็วขึ้น

ที่มา - AWS

Get latest news from Blognone

Comments

By: panurat2000
ContributorSymbianUbuntuIn Love
on 3 March 2017 - 09:44 #973094
panurat2000's picture

และเพิ่มมาตรการเพื่อการในการกู้ระบบกลับมาให้เร็วขึ้น

เพื่อการในการ ?

By: sonkub
AndroidWindows
on 3 March 2017 - 10:34 #973100

แล้วเรื่องชดเชยหละ มีพูดถึงมั้ยหว่า หรือมันยังอยู่ใน SLA

By: tekkasit
ContributorAndroidWindowsIn Love
on 3 March 2017 - 10:48 #973102 Reply to:973100
By: btoy
ContributorAndroidWindows
on 3 March 2017 - 13:44 #973135
btoy's picture

ถือว่าเป็นงานช้างของผู้ดูแลระบบเลยเนอะ คิดแล้วก็เครียดแทน ห้าห้า


..: เรื่อยไป