เซิร์ฟเวอร์ของ British Airways ล่มขนานใหญ่กระทบผู้โดยสารถึง 75,000 คนแล้วในตอนนี้ หนังสือพิมพ์ The Times ก็อ้างแหล่งข่าวภายในระบุว่าสาเหตุเกิดจากเจ้าหน้าที่ที่เข้าไปบำรุงรักษาศูนย์ข้อมูลของสายการบิน สับสวิตช์ปิดระบบจ่ายไฟโดยไม่ตั้งใจ
ก่อนหน้านี้ Alex Cruz ระบบในวิดีโอชี้แจงว่าปัญหาของเซิร์ฟเวอร์ล่มมาจากปัญหาระบบจ่ายไฟ แต่จากแหล่งข่าวของ The Times ตอนนี้การสอบสวนมุ่งไปที่ความผิดพลาดของมนุษย์มากกว่าอุปกรณ์
ที่มา - Strait Times
Comments
ไม่มี 2 Power Source เหรอ
อาจจะ main switch ห้อง IDC ที่จ่ายเข้าตัว Server เลย คล้ายๆ UPS ระบบทั้งหมดพัง อันนี้มีกี่ Source ก็ช่วยยาก
ผมเคยเจอเคส แบบทำห้อง server เดินสายไฟแยกต่างหาก จากระบบไฟฟ้าของตัวอาคาร คือ
ลงทุนทำห้อง กับ ระบบไฟไปแบบ หนังเกรด AAA โดยให้เหตุผลง่ายๆว่า
อาคารดับ server koo ไม่ดับ เฟ้ย เจ๋งป่ะหล่ะ
แล้วก็มีอยู่วันนึง รถพ่วงสิบแปดล้อ วิ่งไปชนหม้อแปลงไฟฟ้า พังไปตัวนึง จากสามตัว
แล้วตัวที่พังดันเป็นตัวของห้อง server อ่ะครับ ... ก็เศร้าๆ เหงาๆ กันไป
(ต้อง shutdown แต่ server ไม่พังครับนะ เพราะมี UPS คุมอีกชั้นนึง)
ของผมนี่ล่ะครับ ที่ไฟฟ้าแยกจากของอาคาร
แต่ผมใช้ไฟจาก 3 แหล่งจ่าย มีมาจาก 2 หม้อแปลง และ 1 เครื่องกำเนิดไฟฟ้า
แต่ที่น่าเศร้าคือ ผมดันเอามันมารวมกันหมด โดยใช้การขนาน UPS แบบ n+1
เพื่อเพิ่มกำลังของ UPS ด้วย และใช้กับโหลดที่มีแหล่งจ่ายเดียว
มีอยู่ครั้งนึงฟ้าผ่าในโรงงาน สงสัยสายกราวด์ไม่ดี ไฟวิ่งย้อนกลับจากระบบกล้องวงจรปิดเข้ามา
ทั้ง UPS และ PLC ที่ใช้ควบคุมตู้ไฟพังเรียบ การ์ดบันทึกกล้องวงจรปิดก็พัง Core Switch ก็พังไปหลายรู
หมดค่าซ่อมไปเป็นเกือบ 2 แสน
หลังจากนั้น ระบบที่จะวิ่งเข้าห้องเซิร์ฟเวอร์ต้อง Isolate เท่านั้น ยกเว้นไฟฟ้า
และใส่ Surge Protection ไว้ตรง Output ของ UPS ด้วย (กันไว้อีกชั้น จากที่ก่อนหน้านี้มีแต่ด้าน Input เพียงอย่างเดียว)
ส่วนของโรงงานก็ปรับปรุงระบบสายล่อฟ้าใหม่ หมดไปหลายแสนเหมือนกัน เห็นว่าใช้อุปกรณ์นำเข้าจากฝรั่งเศสเลย
นึกถึงสมัยตอน Ragnarok บูมๆ พอเซิร์ฟเวอร์ล่มที ก็บ่นกัน GM เตะปลั๊กหลุด
คนสับสวิตช์ปิด น่าจะรอดยาก ต้องตัดหัวเสียบประจาน หน้าห้อง Server :)
เด็กฝึกงานทำครับ
ไม่มี DR site ?
ระดับนี้คงมีแต่ คงไม่ขึ้นแบบทันทีทันใด
มีครับแต่ไม่ขึ้น
http://www.pcworld.com/article/3198854/backup-recovery/power-surge-at-british-airways-data-center-causes-flight-chaos.html
ระบบไอทีของระบบ mission critical พวกนี้น่าจะกฎหมายให้มีกระบวนการ inspect/certify
ได้แล้ว ผลเสียหายมันกว้างขวางมาก
ดึงปลั๊กออกเพราะจะชาร์จแบตไรงี้
ที่ทำงานผม
ups แยกเป็นสองระบบ เข้า server dual psu ขาล่ะระบบ
แต่การไฟฟ้ามีที่เดียวเลยได่หม้อแปลงเดียวกับ genset เลยยังอยู่ที่ tier-3
โอย เคยไปทำโรงงานประกอบรถยนต์แห่งหนึ่งซึ่งมีไฟแค่เฟสเดียว ถ้าไฟดับคือจบกันทั้งโรงงานทำอะไรไม่ได้ UPS ช่วยได้แค่ 20 นาทีจากนั้นปิดโรงงานไล่กลับบ้านเลย เป็นบ่อยด้วยนะนั่นเพราะไม่ได้อยู่ในนิคม
โรงงานประกอบหรือครับ หรือแค่โรงงานผลิตชิ้นส่วนส่งให้โรงงานประกอบครับ