ถ้ายังจำกันได้ Dropbox เป็นบริการออนไลน์ที่เลิกใช้คลาวด์ AWS และหันมาสร้างศูนย์ข้อมูลเองเพราะประหยัดกว่า กรณีของ Dropbox อาจเกิดได้ไม่บ่อย เพราะบริษัทที่มีความจำเป็นการเก็บสตอเรจขนาดใหญ่ระดับที่เป็นเจ้าของศูนย์ข้อมูลเองแล้วคุ้ม อาจมีไม่เยอะนัก
ล่าสุด Dropbox เพิ่งเปิดเผยว่าทดลองถอดปลั๊กศูนย์ข้อมูลหลักที่เมือง San Jose ในแคลิฟอร์เนีย เพื่อทดสอบระบบ Disaster Readiness (DR) ว่าทำงานได้ตามที่วางแผนไว้หรือไม่ โดยเป็นการจำลองสถานการณ์ว่าหากเมือง San Jose เจอแผ่นดินไหวจนศูนย์ข้อมูลดับทั้งหมด บริการจะยังออนไลน์ต่อได้
Dropbox บอกว่ามีวิธีวัดความพร้อมด้วยเมทริกชื่อ Recovery Time Objective (RTO) เป็นการวัดว่าใช้เวลานานแค่ไหนในการฟื้นตัวจากระบบล่มครั้งใหญ่
เบื้องหลังของการลดค่า RTO เป็นงานใหญ่ยักษ์ที่ต้องปรับสถาปัตยกรรมเบื้องหลังของ Dropbox อยู่หลายปี เพื่อทำระบบ failover ให้เข้มแข็งขึ้นเรื่อยๆ มีทั้งการใช้ซอฟต์แวร์จากข้างนอกและพัฒนาระบบจัดการภายในขึ้นมาเอง (ตอนแรกตั้งใจเป็น active-active แต่พบว่าซับซ้อนเกินไป เลยเปลี่ยนเป้าหมายเป็น active-passive)
หลังจากพัฒนาระบบจนมั่นใจแล้ว Dropbox จึงตัดสินใจลองถอดปลั๊กศูนย์ข้อมูล (ถอดปลั๊กจริงในทางกายภาพเลย ไม่ใช่ลองตัดระบบ) ซึ่งใช้เวลาวางแผนและซ้อมล่วงหน้า 2 เดือน ระหว่างซ้อมก็เจอปัญหาบางอย่างที่ไม่คาดฝัน ต้องซ้อมถึง 2 รอบกว่าจะมั่นใจว่าเอาอยู่
พอถึงวันจริง ก็ให้พนักงานไปยืนถอดสายที่หน้าตู้เซิร์ฟเวอร์เพื่อซ้อมระบบล่มจริงเป็นเวลานาน 30 นาที ผลลัพธ์ออกมาดีตามที่วางแผนไว้ ว่าระบบสามารถสลับไปใช้ศูนย์ข้อมูลอีกแห่งที่เมือง Dallas Fort Worth ได้ตามเป้าหมาย

ที่มา - Dropbox
on
นี่สิของจริง 555
akira Sat, 07/05/2022 - 10:41
นี่สิของจริง 555 แต่อย่าเลียนแบบกันโดยไม่ได้มีพื้นฐานการออกแบบระบบที่ดีล่ะ อย่าเชื่อแต่ Sale หรือระบบ Prototype อย่างเดียว เดี๋ยวจะกินพาราเป็นขวด ระบบพวกนี้มันมีปัจจัยพื้นฐานด้านสิ่งแวดล้อม บุคลากร และจำนวนข้อมูลด้วย ระบบออกแบบดี เงินก็ต้องถึงด้วยถึงจะทำได้
ถอดสายนิดเดียว Data Center
TeamKiller Sat, 07/05/2022 - 14:43
ถอดสายนิดเดียว Data Center ตัดการเชื่อมต่อเลยเหรอ นึกว่าไปสับ Breaker ไฟจะได้สมจริงกว่านี้
ตัดไฟอันนี้มันจะ h/w
Ford AntiTrust Sat, 07/05/2022 - 14:48
In reply to ถอดสายนิดเดียว Data Center by TeamKiller
ตัดไฟอันนี้มันจะ h/w พังไปด้วยไงครับ การซ้อมก็ควรอยู่บนพื้นฐานที่ว่าฝั่ง DC ต้องไม่พังไปด้วย ยิ่งช่วงนี้อุปกรณ์ h/w ไอทีของใหม่หายาก สั่งอะไหล่ก็ลำบาก
แล้วปกติเขาจะมีซ้อมแบบเริ่มระ
TeamKiller Sat, 07/05/2022 - 16:07
In reply to ตัดไฟอันนี้มันจะ h/w by Ford AntiTrust
แล้วปกติเขาจะมีซ้อมแบบเริ่มระบบจาก 0 ไหมอะครับ ค่อยๆ start แต่ละ service ขึ้นมางี้
เท่าที่เคยสัมผัสมา
Ford AntiTrust Sat, 07/05/2022 - 17:33
In reply to แล้วปกติเขาจะมีซ้อมแบบเริ่มระ by TeamKiller
เท่าที่เคยสัมผัสมา ระบบความซับซ้อนสูงมักมีการทำเอกสารและระบุขั้นตอนไว้ แต่จะทดสอบบน production จริงไหม อันนี้แล้วแต่ที่ แต่คนอนุมัติก็จะร้อนๆ หน่อยถ้าเอาระบบ production ลงแล้วเอาขึ้นมามีปัญหา อย่างมากก็จำลองบนระบบฝั่ง DR เอามากกว่า
ซึ่งการทำแบบ Dropbox เป็นสิ่งที่ไม่เกิดขึ้นบ่อยนัก
ในทางเทคนิคมันน่าจะมี
ash_to_ash Sat, 07/05/2022 - 23:46
In reply to ตัดไฟอันนี้มันจะ h/w by Ford AntiTrust
ในทางเทคนิคมันน่าจะมี Regulate ที่ main Power หรือเปล่าครับ
ถ้าซ่อมบำรุงดีๆมันน่าจะแทบไม่มีความเสียหายเลยนะครับ
อย่างน้อยๆ UPS ก็เสียไปบ้าง แต่ถ้าระบบแบ็คอัพดีพอก็ไม่น่ามีปัญหาครับ
ปล.เวลาเทสระบบ automation ผมสับเมนเบรคเกอร์ตู้เลยนะครับ เผื่อความเร้าใจ
พอรอบสองชักปลั๊ก UPS PLC ต่อ ตอนเฟสแรกไม่ชักซิมูเลทอย่างเดียว พอเจอไฟตกจริงๆ
บั๊ก auto restart ไม่ขึ้น
ปล2. ไม่รู็ความคิดผมจะรีเลทกับเรื่องศูนย์ข้อมูลได้ไหม
ในคอมเม้นข้างบน
Ford AntiTrust Sun, 08/05/2022 - 00:06
In reply to ในทางเทคนิคมันน่าจะมี by ash_to_ash
ในคอมเม้นข้างบน ผมตีความว่าเค้าหมายถึง อยู่ๆ เดินไปสับเบรกเกอร์ให้ไฟดับดื้อๆ ในห้อง IDC เลยครับ แบบเครื่อง server อุปกรณ์ network ต่างๆ มันดับจริงๆ จากระบบไฟฟ้าดับอะไรแบบนั้น ซึ่งหากทำแบบนั้น อุปกรณ์อย่าง server และ network ถ้าปิดไม่ถูกต้อง และดับไปดื้อๆ เสี่ยงพังสูงมาก นึกสภาพ CAT IDC โดนตัดไฟ อุปกรณ์พังเยอะมาก
ผมเข้าใจว่าแต่ละแร็คมันน่าจะม
iamfalan Sun, 08/05/2022 - 11:08
In reply to ในคอมเม้นข้างบน by Ford AntiTrust
ผมเข้าใจว่าแต่ละตู้แร็คมันน่าจะมี ups อยู่นะครับ ไม่งั้นไฟตกทีน่าจะลำบาก
แล้วแต่ว่าจะ implement
Ford AntiTrust Sun, 08/05/2022 - 19:54
In reply to ผมเข้าใจว่าแต่ละแร็คมันน่าจะม by iamfalan
แล้วแต่ว่าจะ implement ตู้ยังไง ถ้าทั้งห้องเป็นคนบริษัทเราล้วน ก็ ups รวมทั้งห้องเป็นตู้ใหญ่ๆ แยก แต่ละตู้ไม่มี ups อัด server และอุปกรณ์อื่นๆ เข้าไปอย่างที่ผมเคยสัมผัสก็จะแบบนั้น เพราะดูแลง่ายกว่า
แต่เวลามีปัญหาจริงผมมองว่ามัน
ash_to_ash Sun, 08/05/2022 - 17:55
In reply to ในคอมเม้นข้างบน by Ford AntiTrust
แต่เวลามีปัญหาจริงผมมองว่ามันไม่ใช่ Soft Shut Down หนะสิครับ
ปกติมันจะเป็น Hard Shut down
อย่างเคส CAT นี่ไอ้ชักฟิวส์มันสปาร์คอยู่แล้วหละครับ อุปกรณ์รันๆอยู่แล้วชักมันกระชาก
แต่ถามผมเราต้องกลับมาดูเรื่องระบบ Main Power ภายในหลังมิเตอร์หรือเปล่าครับ
สมมติ ถ้าฟิวส์ มันเสื่อมสภาพแล้วมันอาร์ค แล้วตู้มขึ้นมา มันก็ไม่ต่างจากชักฟิวส์หรือเปล่าครับ
พวกระบบไฟฟ้า
Ford AntiTrust Mon, 09/05/2022 - 08:58
In reply to แต่เวลามีปัญหาจริงผมมองว่ามัน by ash_to_ash
พวกระบบไฟฟ้า ปรกติมันมีรอบการดูแลและทดสอบอยู่แล้วครับ ไม่ใช่ทำเสร็จปล่อยไปเลย มันก็เหมือนระบบ computer และระบบไอทีอื่นๆ แหละ
การตรวจสอบ-ทดสอบแบบเบื้องต้นก็โยกโหลดจ่ายไฟไประบบสำรองแล้วก็ตรวจสอบระบบหลักเสร็จแล้วเปิดกลับมาใหม่ จากที่เคยสัมผัสมีการทดสอบพวกนี้อยู่แล้ว แต่ไม่ใช่ดับไปดื้อๆ เพื่อกระชากให้อุปกรณ์ที่ต่อกับมันเสียหาย
ดูจากภาพเหมือนถอดสายออกจาก
banky118 Sat, 07/05/2022 - 15:16
In reply to ถอดสายนิดเดียว Data Center by TeamKiller
ดูจากภาพเหมือนถอดสายออกจาก Fiber Patch Panel น่าจะเหมือนกับปิดทางเข้าจากโลกภายนอกไปเลยมั้งครับ
จริงผมสงสัยตรง Patch Panel
TeamKiller Sat, 07/05/2022 - 16:00
In reply to ดูจากภาพเหมือนถอดสายออกจาก by banky118
จริงผมสงสัยตรง Patch Panel เข้ามามีแค่ตู้นี้เองเหรอเนี่ย นึกว่าจะมีแบบสองตู้เข้ามาคนละฝั่งแยกตู้ด้วยอะไรแบบนี้นะครับ
คนจริงเทสบนโปรดักส์ชั่น
rainhawk Sat, 07/05/2022 - 19:58
คนจริงเทสบนโปรดักส์ชั่น
น่าจะทำการ link router
zda98 Sat, 07/05/2022 - 23:01
น่าจะทำการ link router
คนจริง เขาเทสกันบนโปรดักชั่น
pon456123 Sun, 08/05/2022 - 08:35
คนจริง เขาเทสกันบนโปรดักชั่น
ทีแรกนึกว่าถอดปลั๊กไฟ +
jokerxsi Sun, 08/05/2022 - 11:53
ทีแรกนึกว่าถอดปลั๊กไฟ + ทุบแผงควบคุม อันนี้น่าจะ Disaster ของจริง
อันนั้น รมต.
TeamKiller Sun, 08/05/2022 - 15:41
In reply to ทีแรกนึกว่าถอดปลั๊กไฟ + by jokerxsi
อันนั้น รมต. กระทรวงดิจิตอลของไทยทดสอบมาแล้วนะครับ เสียหายไปเยอะ แต่ได้ตำแหน่งใหญ่โตเลย
เจ๋งมาก
pongcp Sun, 08/05/2022 - 13:13
เจ๋งมาก
คนจริง
wegang Mon, 09/05/2022 - 08:34
คนจริง ถ้าใครวางระบบไม่ดีแล้วดันอุตริทำตาม รับรองว่าเป็น Disaster ของจริงแน่นอน
รูปแรก (ซ้ายไปขวา) ใส่หมวก =
emm Thu, 12/05/2022 - 09:15
รูปแรก (ซ้ายไปขวา) ใส่หมวก = ไม่ร้อน
รูปสอง ถอดหมวก = เริ่มร้อน
รูปสาม โกนหัว = หัวร้อน