Tags:
Node Thumbnail

ไมโครซอฟท์ออกรายงานฉบับเต็มถึงเหตุการณ์ศูนย์ข้อมูลในสิงคโปร์ล่ม จนทำให้บริการจำนวนหนึ่งใช้งานไม่ได้เป็นเวลานานประมาณหนึ่งวันเต็ม โดยต้นตอของปัญหาเกิดจากเหตุไฟตก (power dip) จนทำให้ระบบทำความเย็นทำงานไม่เต็มที่ สร้างปัญญาต่อๆ มาอย่างต่อเนื่อง

รายงานระบุว่ามีระบบทำความเย็นทั้งหมด 8 ชุดจากยี่ห้อ A 5 ชุดและ B 3 ชุด โดยมีชุดหนึ่งของยี่ห้อ A ปิดซ่อมบำรุงตามรอบอยู่ เมื่อเกิดเหตุไฟตกระบบทำความเย็นทั้งหมดปิดตัวลง แต่ทีมงานเปิดระบบของยี่ห้อ B กลับขึ้นมาไม่ได้แม้จะสั่งเปิดเครื่องแบบแมนนวลแล้วก็ตาม ศูนย์ข้อมูลร้อนขึ้นเรื่อยๆ เพราะระบบหล่อเย็น 4 ชุดนั้นไม่เพียงพอ หลังจากตามช่างของผู้ผลิตเข้ามาพบว่าบอร์ดควบคุมคอมเพรสเซอร์ต้องปิดทิ้งไว้ 5 นาทีจึงเปิดกลับขึ้นมาได้เพื่อให้ประจุไฟคายออกให้หมดก่อน แต่คู่มือการทำงานกลับไม่ได้เขียนขั้นตอนนี้ไว้

ระยะเวลาที่นานทำให้น้ำหล่อเย็นร้อนขึ้นเรื่อยๆ จนเกิน 28 องศา ซึ่งทำให้ไม่สามารถเปิดระบบหล่อเย็นได้แม้จะซ่อมอุปกรณ์เสร็จแล้วเพราะจะทำให้ระบบเสียหาย ทีมงานตัดสินใจปิดระบบทั้งหมดเพื่อให้อุณหภูมิลดลง จากนั้นก็เปิดระบบหล่อเย็นกลับขึ้นมาทั้งหมดได้สำเร็จแล้วค่อยเปิดโครงสร้างทั้งหมดกลับขึ้นมา เริ่มจากระบบสตอเรจและระบบประมวลผล (compute)

ผลกระทบต่อเนื่องจากการปิดศูนย์ข้อมูลไปหนึ่งโซน คือ บริการบางตัวที่ผู้ใช้เปิดระบบทำงานข้ามโซนเอาไว้กลับทำงานไม่ถูกต้องระหว่างเหตุการณ์ครั้งนี้ด้วย เนื่องจาก ARM control plane ที่เป็นตัวจัดการบริการต่างๆ นั้นคอนฟิกไว้ในภูมิภาค Southeast Asia ผิด ทำให้ CosmosDB อ่านข้อมูลบางส่วนไม่ได้เมื่อโซนหนึ่งถูกปิดไป บริการที่ได้รับผลกระทบได้แก่ Azure Site Recovery (ASR) ลูกค้าบางส่วนย้ายไซต์ไม่สำเร็จ, Azure Backup เกิดความล่าช้าระหว่างการกู้คืนข้อมูล, Azure Storage ที่เปิดการทำงานข้ามภูมิภาคบางรายไม่สามารถใช้งานต่อเนื่องได้ เพราะระบบตรวจสอบความถูกต้องข้อมูลบล็อคการทำ failover เอาไว้, Azure SQL มีปัญหากู้ระบบได้ช้าประมาณ 90 นาที และลูกค้าบางส่วนที่รอศูนย์ข้อมูลเปิดกลับมาก็กลับไม่สามารถใช้ Azure SQL ได้เพราะเซิร์ฟเวอร์มีปัญหาจากบั๊กใน BIOS จนต้องใช้เวลาแก้ไขต่ออีกวัน

ที่มา - Azure Status

Get latest news from Blognone

Comments

By: deargerous
ContributoriPhoneAndroidWindows
on 24 February 2023 - 13:20 #1278388
deargerous's picture

บอร์ดควบคุมคอมเพรสเซอร์ต้องปิดทิ้งไว้ 5 นาทีจึงเปิดกลับขึ้นมาได้เพื่อให้ประจุไฟคายออกให้หมดก่อน

เรื่องนี้ไม่น่าจะเกี่ยวกับการคายประจุใน capacitor เลยครับ โดยปกติเครื่องทำความเย็นเมื่อถูก shutdown จะต้องรอ 5 นาที เพื่อรอให้ความดันของสารทำความเย็นลดลง ในวงจรที่จะ start เครื่องทำความเย็นจะมีการหน่วงเวลาไว้ 5 นาที แต่ต้นฉบับดันไปใช้คำว่า drain internal capacitor จริงแล้วควรจะเป็น drain internal pressure มากกว่า

By: lew
FounderJusci's WriterMEconomicsAndroid
on 24 February 2023 - 13:37 #1278393 Reply to:1278388
lew's picture

เขาไม่บอกยี่ห้อหรือรุ่นก็คงเช็คให้ไม่ได้ครับ ก็ต้องยึดตามต้นทางก่อน

และจากรายงานของเขา ก็ไม่มีการหน่วงวงจร start นะครับ ไม่งั้นคงไม่มีปัญหาตั้งแต่แรกไม่ต้องเรียกช่างของบริษัทแอร์เข้าไป


lewcpe.com, @wasonliw

By: itpcc
ContributoriPhoneRed HatUbuntu
on 24 February 2023 - 14:48 #1278399 Reply to:1278388
itpcc's picture

+1 ยุคนี้ยิ่งไม่น่ามางกกับพวก bleeder resistor แล้วด้วยนะ


บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P

By: panurat2000
ContributorSymbianUbuntuIn Love
on 24 February 2023 - 13:57 #1278394
panurat2000's picture

สร้างปัญญาต่อๆ มาอย่างต่อเนื่อง

สร้างปัญญา ?

By: itpcc
ContributoriPhoneRed HatUbuntu
on 24 February 2023 - 14:47 #1278398
itpcc's picture
ARM control plane ที่เป็นตัวจัดการบริการต่างๆ นั้นคอนฟิกไว้ในภูมิภาค Southeast Asia ผิด 

แม้แต่ M$ ก็ยังไม่เทส backup จนมีเรื่องอีกเรอะเนี่ย นี่ถ้าหลุด guarantee SA ด้วยน่าจะได้จ่ายกันอานแหง


บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P

By: SilentHeal
AndroidUbuntuWindowsIn Love
on 25 February 2023 - 09:30 #1278426
SilentHeal's picture

กฏเมอฟี่ เปล่านิ