Tags:
Node Thumbnail

ถ้ายังจำกันได้ Dropbox เป็นบริการออนไลน์ที่เลิกใช้คลาวด์ AWS และหันมาสร้างศูนย์ข้อมูลเองเพราะประหยัดกว่า กรณีของ Dropbox อาจเกิดได้ไม่บ่อย เพราะบริษัทที่มีความจำเป็นการเก็บสตอเรจขนาดใหญ่ระดับที่เป็นเจ้าของศูนย์ข้อมูลเองแล้วคุ้ม อาจมีไม่เยอะนัก

ล่าสุด Dropbox เพิ่งเปิดเผยว่าทดลองถอดปลั๊กศูนย์ข้อมูลหลักที่เมือง San Jose ในแคลิฟอร์เนีย เพื่อทดสอบระบบ Disaster Readiness (DR) ว่าทำงานได้ตามที่วางแผนไว้หรือไม่ โดยเป็นการจำลองสถานการณ์ว่าหากเมือง San Jose เจอแผ่นดินไหวจนศูนย์ข้อมูลดับทั้งหมด บริการจะยังออนไลน์ต่อได้

Dropbox บอกว่ามีวิธีวัดความพร้อมด้วยเมทริกชื่อ Recovery Time Objective (RTO) เป็นการวัดว่าใช้เวลานานแค่ไหนในการฟื้นตัวจากระบบล่มครั้งใหญ่

เบื้องหลังของการลดค่า RTO เป็นงานใหญ่ยักษ์ที่ต้องปรับสถาปัตยกรรมเบื้องหลังของ Dropbox อยู่หลายปี เพื่อทำระบบ failover ให้เข้มแข็งขึ้นเรื่อยๆ มีทั้งการใช้ซอฟต์แวร์จากข้างนอกและพัฒนาระบบจัดการภายในขึ้นมาเอง (ตอนแรกตั้งใจเป็น active-active แต่พบว่าซับซ้อนเกินไป เลยเปลี่ยนเป้าหมายเป็น active-passive)

หลังจากพัฒนาระบบจนมั่นใจแล้ว Dropbox จึงตัดสินใจลองถอดปลั๊กศูนย์ข้อมูล (ถอดปลั๊กจริงในทางกายภาพเลย ไม่ใช่ลองตัดระบบ) ซึ่งใช้เวลาวางแผนและซ้อมล่วงหน้า 2 เดือน ระหว่างซ้อมก็เจอปัญหาบางอย่างที่ไม่คาดฝัน ต้องซ้อมถึง 2 รอบกว่าจะมั่นใจว่าเอาอยู่

พอถึงวันจริง ก็ให้พนักงานไปยืนถอดสายที่หน้าตู้เซิร์ฟเวอร์เพื่อซ้อมระบบล่มจริงเป็นเวลานาน 30 นาที ผลลัพธ์ออกมาดีตามที่วางแผนไว้ ว่าระบบสามารถสลับไปใช้ศูนย์ข้อมูลอีกแห่งที่เมือง Dallas Fort Worth ได้ตามเป้าหมาย

No Description

ที่มา - Dropbox

Get latest news from Blognone

Comments

By: akira on 7 May 2022 - 10:41 #1247885

นี่สิของจริง 555 แต่อย่าเลียนแบบกันโดยไม่ได้มีพื้นฐานการออกแบบระบบที่ดีล่ะ อย่าเชื่อแต่ Sale หรือระบบ Prototype อย่างเดียว เดี๋ยวจะกินพาราเป็นขวด ระบบพวกนี้มันมีปัจจัยพื้นฐานด้านสิ่งแวดล้อม บุคลากร และจำนวนข้อมูลด้วย ระบบออกแบบดี เงินก็ต้องถึงด้วยถึงจะทำได้

By: TeamKiller
ContributoriPhone
on 7 May 2022 - 14:43 #1247900
TeamKiller's picture

ถอดสายนิดเดียว Data Center ตัดการเชื่อมต่อเลยเหรอ นึกว่าไปสับ Breaker ไฟจะได้สมจริงกว่านี้

By: Ford AntiTrust
ContributorAndroidBlackberryUbuntu
on 7 May 2022 - 14:48 #1247903 Reply to:1247900
Ford AntiTrust's picture

ตัดไฟอันนี้มันจะ h/w พังไปด้วยไงครับ การซ้อมก็ควรอยู่บนพื้นฐานที่ว่าฝั่ง DC ต้องไม่พังไปด้วย ยิ่งช่วงนี้อุปกรณ์ h/w ไอทีของใหม่หายาก สั่งอะไหล่ก็ลำบาก

By: TeamKiller
ContributoriPhone
on 7 May 2022 - 16:07 #1247907 Reply to:1247903
TeamKiller's picture

แล้วปกติเขาจะมีซ้อมแบบเริ่มระบบจาก 0 ไหมอะครับ ค่อยๆ start แต่ละ service ขึ้นมางี้

By: Ford AntiTrust
ContributorAndroidBlackberryUbuntu
on 7 May 2022 - 17:33 #1247917 Reply to:1247907
Ford AntiTrust's picture

เท่าที่เคยสัมผัสมา ระบบความซับซ้อนสูงมักมีการทำเอกสารและระบุขั้นตอนไว้ แต่จะทดสอบบน production จริงไหม อันนี้แล้วแต่ที่ แต่คนอนุมัติก็จะร้อนๆ หน่อยถ้าเอาระบบ production ลงแล้วเอาขึ้นมามีปัญหา อย่างมากก็จำลองบนระบบฝั่ง DR เอามากกว่า

ซึ่งการทำแบบ Dropbox เป็นสิ่งที่ไม่เกิดขึ้นบ่อยนัก

By: ash_to_ash
AndroidWindows
on 7 May 2022 - 23:46 #1247937 Reply to:1247903

ในทางเทคนิคมันน่าจะมี Regulate ที่ main Power หรือเปล่าครับ
ถ้าซ่อมบำรุงดีๆมันน่าจะแทบไม่มีความเสียหายเลยนะครับ
อย่างน้อยๆ UPS ก็เสียไปบ้าง แต่ถ้าระบบแบ็คอัพดีพอก็ไม่น่ามีปัญหาครับ

ปล.เวลาเทสระบบ automation ผมสับเมนเบรคเกอร์ตู้เลยนะครับ เผื่อความเร้าใจ
พอรอบสองชักปลั๊ก UPS PLC ต่อ ตอนเฟสแรกไม่ชักซิมูเลทอย่างเดียว พอเจอไฟตกจริงๆ
บั๊ก auto restart ไม่ขึ้น

ปล2. ไม่รู็ความคิดผมจะรีเลทกับเรื่องศูนย์ข้อมูลได้ไหม

By: Ford AntiTrust
ContributorAndroidBlackberryUbuntu
on 8 May 2022 - 00:06 #1247938 Reply to:1247937
Ford AntiTrust's picture

ในคอมเม้นข้างบน ผมตีความว่าเค้าหมายถึง อยู่ๆ เดินไปสับเบรกเกอร์ให้ไฟดับดื้อๆ ในห้อง IDC เลยครับ แบบเครื่อง server อุปกรณ์ network ต่างๆ มันดับจริงๆ จากระบบไฟฟ้าดับอะไรแบบนั้น ซึ่งหากทำแบบนั้น อุปกรณ์อย่าง server และ network ถ้าปิดไม่ถูกต้อง และดับไปดื้อๆ เสี่ยงพังสูงมาก นึกสภาพ CAT IDC โดนตัดไฟ อุปกรณ์พังเยอะมาก

By: iamfalan
iPhoneAndroidWindows
on 8 May 2022 - 11:08 #1247944 Reply to:1247938

ผมเข้าใจว่าแต่ละตู้แร็คมันน่าจะมี ups อยู่นะครับ ไม่งั้นไฟตกทีน่าจะลำบาก

By: Ford AntiTrust
ContributorAndroidBlackberryUbuntu
on 8 May 2022 - 19:54 #1248008 Reply to:1247944
Ford AntiTrust's picture

แล้วแต่ว่าจะ implement ตู้ยังไง ถ้าทั้งห้องเป็นคนบริษัทเราล้วน ก็ ups รวมทั้งห้องเป็นตู้ใหญ่ๆ แยก แต่ละตู้ไม่มี ups อัด server และอุปกรณ์อื่นๆ เข้าไปอย่างที่ผมเคยสัมผัสก็จะแบบนั้น เพราะดูแลง่ายกว่า

By: ash_to_ash
AndroidWindows
on 8 May 2022 - 17:55 #1247995 Reply to:1247938

แต่เวลามีปัญหาจริงผมมองว่ามันไม่ใช่ Soft Shut Down หนะสิครับ
ปกติมันจะเป็น Hard Shut down

อย่างเคส CAT นี่ไอ้ชักฟิวส์มันสปาร์คอยู่แล้วหละครับ อุปกรณ์รันๆอยู่แล้วชักมันกระชาก
แต่ถามผมเราต้องกลับมาดูเรื่องระบบ Main Power ภายในหลังมิเตอร์หรือเปล่าครับ
สมมติ ถ้าฟิวส์ มันเสื่อมสภาพแล้วมันอาร์ค แล้วตู้มขึ้นมา มันก็ไม่ต่างจากชักฟิวส์หรือเปล่าครับ

By: Ford AntiTrust
ContributorAndroidBlackberryUbuntu
on 9 May 2022 - 08:58 #1248043 Reply to:1247995
Ford AntiTrust's picture

พวกระบบไฟฟ้า ปรกติมันมีรอบการดูแลและทดสอบอยู่แล้วครับ ไม่ใช่ทำเสร็จปล่อยไปเลย มันก็เหมือนระบบ computer และระบบไอทีอื่นๆ แหละ

การตรวจสอบ-ทดสอบแบบเบื้องต้นก็โยกโหลดจ่ายไฟไประบบสำรองแล้วก็ตรวจสอบระบบหลักเสร็จแล้วเปิดกลับมาใหม่ จากที่เคยสัมผัสมีการทดสอบพวกนี้อยู่แล้ว แต่ไม่ใช่ดับไปดื้อๆ เพื่อกระชากให้อุปกรณ์ที่ต่อกับมันเสียหาย

By: banky118
iPhone
on 7 May 2022 - 15:16 #1247904 Reply to:1247900
banky118's picture

ดูจากภาพเหมือนถอดสายออกจาก Fiber Patch Panel น่าจะเหมือนกับปิดทางเข้าจากโลกภายนอกไปเลยมั้งครับ

By: TeamKiller
ContributoriPhone
on 7 May 2022 - 16:00 #1247906 Reply to:1247904
TeamKiller's picture

จริงผมสงสัยตรง Patch Panel เข้ามามีแค่ตู้นี้เองเหรอเนี่ย นึกว่าจะมีแบบสองตู้เข้ามาคนละฝั่งแยกตู้ด้วยอะไรแบบนี้นะครับ

By: rainhawk
AndroidWindows
on 7 May 2022 - 19:58 #1247923
rainhawk's picture

คนจริงเทสบนโปรดักส์ชั่น

By: zda98
Windows Phone
on 7 May 2022 - 23:01 #1247936

น่าจะทำการ link router

By: pon456123 on 8 May 2022 - 08:35 #1247942

คนจริง เขาเทสกันบนโปรดักชั่น

By: jokerxsi on 8 May 2022 - 11:53 #1247953

ทีแรกนึกว่าถอดปลั๊กไฟ + ทุบแผงควบคุม อันนี้น่าจะ Disaster ของจริง

By: TeamKiller
ContributoriPhone
on 8 May 2022 - 15:41 #1247980 Reply to:1247953
TeamKiller's picture

อันนั้น รมต. กระทรวงดิจิตอลของไทยทดสอบมาแล้วนะครับ เสียหายไปเยอะ แต่ได้ตำแหน่งใหญ่โตเลย

By: pongcp
Android
on 8 May 2022 - 13:13 #1247963

เจ๋งมาก

By: wegang
ContributorAndroid
on 9 May 2022 - 08:34 #1248040
wegang's picture

คนจริง ถ้าใครวางระบบไม่ดีแล้วดันอุตริทำตาม รับรองว่าเป็น Disaster ของจริงแน่นอน

By: emm
iPhoneAndroidWindows
on 12 May 2022 - 09:15 #1248624

รูปแรก (ซ้ายไปขวา) ใส่หมวก = ไม่ร้อน
รูปสอง ถอดหมวก = เริ่มร้อน
รูปสาม โกนหัว = หัวร้อน