Tags:
EMC

ข่าวไฟดับของศูนย์ข้อมูลหลายแห่งและความไม่สงบในประเทศทำให้ประเด็นความมั่นคงของศูนย์ข้อมูลกลายเป็นประเด็นสำคัญ ในเชิงเทคนิค Blognone ได้นำเสนอบทความของคุณ icez ถึงประเด็นปัญหาของการรวมศูนย์การเชื่อมต่ออินเทอร์เน็ตในเมืองไทยไปแล้ว

สำหรับผู้บริหารฝ่ายไอทีของธุรกิจ Blognone จึงขอสัมภาษณ์คุณสุรักษ์ ธรรมรักษ์ วิศวกรอาวุโสของ EMC ประเทศไทย เข้ามาพูดคุยถึงการจัดการระบบไอทีภายใต้ภาวะที่มีความเสี่ยงหลายอย่าง และเราต้องมองถึงอะไรบ้างเพื่อให้ธุรกิจดำเนินไปได้แม้จะมีอุปสรรคอยู่รอบด้าน

จากประสบการณ์ทั่วโลก เหตุการณ์น้ำท่วมหรือมีผู้ชุมนุมในไทยตอนนี้เป็นเรื่องเฉพาะของไทยเองหรือในต่างประเทศก็มีความเสี่ยงคล้ายกัน?

ทุกประเทศมีปัญหานี้เพราะภัยพิบัติเกิดขึ้นทั่วโลกอยู่แล้ว ครั้งแรกที่ทำให้คนหันมาสนใจเรื่อง disaster recovery (DR) คือเหตุการณ์ 9/11 ของสหรัฐอเมริกา เพราะตึก World Trade Center มีบริษัทไอทีและองค์กรใหญ่ๆ มากมาย ตอนนั้นมีทั้งบริษัทที่รันงานต่อไปได้ และบริษัทที่ระบบล่มไปเลยเพราะไม่มีระบบสำรอง เหตุการณ์อุทกภัยหรือภัยธรรมชาติเป็นเรื่องที่เกิดขึ้นได้ทั่วโลก ภัยพิบัติที่ฟิลิปปินส์หรือญี่ปุ่นถือเป็นตัวอย่างที่ชัดเจนในต่างประเทศ

upic.me

ที่ผ่านมาลูกค้าในไทยได้รับผลกระทบกันมากไหม ธุรกิจยังเดินหน้าต่อไปได้เต็มรูปแบบรึเปล่า

เหตุการณ์น้ำท่วมใหญ่ปี 2554 มีลูกค้าในเมืองไทยเจอปัญหานี้ค่อนข้างเยอะ บางรายที่ไม่มีศูนย์สำรองข้อมูลใช้วิธีเรียกบริษัทไอทีต่างๆ มาช่วย shutdown ระบบก่อนน้ำเข้าตัวอาคาร และย้ายอุปกรณ์หรือ data center ไปที่อื่น เพื่อให้ธุรกิจเดินหน้าต่อไปได้

กรณีที่พบบ่อยว่าไม่มี DR คือตามโรงงานต่างๆ ถือว่าเป็นความท้าทายมาก ส่วนธุรกิจอื่นๆ ก็มีผลกระทบในบางระดับ ไม่ว่าจะเป็น banking หรือ telecom ส่วนเรื่องการชุมนุมก็มีโอกาสเกิดได้ทุกประเทศเช่นกัน กรณีของบ้านเราจะเห็นว่าเกิดการชุมนุมบ่อยหน่อยในช่วงหลายๆ ปีให้หลัง ดังนั้นด้วยเทคโนโลยีด้าน DR ก็จะเข้ามาช่วยแก้ปัญหาเหล่านี้ได้

เหตุการณ์ล่าสุดที่ปิดศูนย์ราชการแจ้งวัฒนะ ทำให้ลูกค้ามองว่าจำเป็นต้องมีแผนเรื่อง DR เมื่ออาทิตย์ที่แล้ว EMC ก็เข้าไปช่วยลูกค้ารายหนึ่งย้ายศูนย์ข้อมูลไปอยู่ต่างจังหวัด

ลูกค้าส่วนใหญ่ตอนนี้มีกี่ศูนย์ข้อมูล ที่ผ่านมาเคยเจอเหตุการณ์กระทบทั้งศูนย์หลักและศูนย์สำรองไหม

จากประสบการณ์ที่ผ่านมา การประท้วงจะใช้วิธีปิดถนนหลายสายหรือเดินทางไปหลายจุด ทีนี้หน่วยงานบ้านเราที่มีศูนย์ข้อมูล 2 แห่งก็จริง แต่กลับอยู่ห่างไกลกันไม่มากคือประมาณ 10-20 กิโลเมตร ก็อาจได้รับผลกระทบทั้งคู่

อีกตัวอย่างที่เคยพบคือ มีลูกค้ารายหนึ่งมีศูนย์ข้อมูลห่างกันถึง 70 กิโลเมตร แต่ตอนน้ำท่วมใหญ่กลับโดนทั้งคู่ ทำให้ลูกค้าเริ่มมองถึงศูนย์ข้อมูลสำรองแห่งที่สามเพิ่มเติม เพราะโดยทั่วไปแล้ว หน่วยงานบ้านเราอย่างเก่งก็มีแค่สองศูนย์ ยังไม่ค่อยมีกลุ่มที่มี 3-4 ไซต์เท่าไร แต่ตอนนี้ลูกค้าหลายกลุ่มเริ่มคิดเรื่องศูนย์ที่สาม มองไปยังจังหวัดไกลๆ เช่น ชลบุรี ขอนแก่น เชียงใหม่ แล้วแต่โซนว่าลูกค้าสะดวกที่จะไปตรงไหน

ข้อแนะนำเบื้องต้นคือต้องศึกษาที่ตั้งศูนย์ข้อมูลว่าอยู่ห่างไกลกันเพียงพอไหม ตอนนี้ระยะ 30-40 กิโลเมตรอาจไม่พอแล้ว อาจต้องมากกว่า 100 กิโลเมตร ซึ่งเมื่อจะย้ายไปต่างจังหวัดก็ต้องศึกษาว่า network bandwidth หรือ link fiber channel ที่จังหวัดนั้นๆ พร้อมหรือไม่ด้วย

upic.me

แนวทางของหน่วยงานภาครัฐกับเอกชนไทยมีความแตกต่างกันหรือไม่

หน่วยงานภาครัฐยังไม่ค่อยเน้นเรื่องศูนย์สำรองข้อมูลเท่าไรนัก ขึ้นกับนโยบายของหน่วยงาน จะต่างไปจากหน่วยงานเอกชนที่พร้อมมากกว่า

หน่วยงานราชการมักมีนโยบายว่าต้องวางศูนย์ข้อมูลอยู่ในหน่วยราชการ บางแห่งอาจมีศูนย์สำรองก็จริง แต่ห่างไกลกันแค่คนละตึก หรือบางครั้งใช้วิธีวางเครื่องแลกกันระหว่างหน่วยงานใต้กระทรวงเดียวกัน พอหน่วยงานราชการโดนปิด ก็แทบจะไม่มีโอกาสรันเลย

การสร้างศูนย์ข้อมูลที่รองรับความเสี่ยงเหล่านี้ได้ ต้องมีแนวทางอย่างไร แนวทางเดิมๆ ที่เป็นมาในไทยต้องปรับอย่างไรบ้าง

ภาครัฐต้องมองยุทธศาสตร์แบบเชิงรุก (proactive) มากกว่านี้ เพราะหลังๆ การประท้วงมักพุ่งเป้าที่หน่วยงานภาครัฐเสียมาก ดังนั้นหน่วยงานภาครัฐก็ต้องเตรียมพร้อมเรื่องนี้ด้วย

ภาคเอกชนพยายามใช้เทคโนโลยีเพื่อรองรับปัญหาแบบ proactive อยู่แล้ว แต่ต้องแบ่งเป็น 2 ระดับ

กลุ่มที่เป็นองค์กรขนาดใหญ่ (enterprise) ที่มีคนเป็นหลักพัน โดยส่วนใหญ่เริ่มให้ความสนใจในการทำ BC (business continuity) มากขึ้นจากเหตุการณ์น้ำท่วม แถมกลุ่มนี้เงินหนา มักมีศูนย์ข้อมูล 2 แห่งในรูปแบบ active-standby (ศูนย์สำรอง ปกติจะไม่ทำงานแต่รอสลับทำงานแทนศูนย์หลักถ้ามีปัญหา) และมีกระบวนการชัดเจนว่าต้องทำอะไรบ้างเมื่อเกิดปัญหาลักษณะนี้

ส่วนบริษัทขนาดกลาง-เล็ก (SMB) ยังไม่ได้ลงทุนเรื่องศูนย์ข้อมูลแห่งที่สองสักเท่าไร แต่จะใช้วิธี backup/recovery โดยฝากเก็บข้อมูลไว้สถานที่อื่น พอต้องการใช้ค่อยเอาเทปกลับมา restore มากกว่า แต่ระยะหลัง หลายหน่วยงานก็เริ่มคิดถึงการทำสำเนา (replication) ของข้อมูลไปยังไซต์งานอื่นๆ (เช่น โรงงานสาขาอื่น) กันบ้างแล้ว บริษัทกลุ่มนี้ยอมรับได้ว่าระบบปัจจุบันเรียกข้อมูลคืนแบบเรียลไทม์ไม่ได้ แต่ก็จะมองว่าระยะเวลากู้คืนอาจจะสัก 24 ชั่วโมงถือเป็นช่วงที่ยอมรับได้

การปรับตัวจากศูนย์ข้อมูลสำรองแบบ active-standby (ศูนย์สำรองรอสลับงานแทนศูนย์หลัก) เพียงพอไหม ทำไมจึงต้องเตรียมทำศูนย์ข้อมูลสำรองแบบ active-active (มีสองศูนย์ข้อมูลและทำงานพร้อมกันทั้งคู่)

ปัจจุบัน ลูกค้าเจอปัญหาว่าลงทุนทำศูนย์สำรองแบบ standby ไปแล้วแต่กลับใช้ประโยชน์ได้ไม่ค่อยคุ้ม แถมกระบวนการเปลี่ยนศูนย์สำรองแทนศูนย์หลัก ส่วนใหญ่ต้องใช้เวลากันหลายชั่วโมง หรืออาจเป็นวันถึงจะย้ายข้อมูลกันเสร็จ เพราะองค์กรมีขั้นตอนค่อนข้างเยอะ เช่น เช็คว่าอุปกรณ์สตอเรจฝั่ง standby พร้อมแล้ว บูตเซิร์ฟเวอร์เสร็จหมดแล้ว เมาท์ฮาร์ดดิสก์ได้ และสุดท้ายก็ต้องมาลุ้นอยู่ดีกว่าแอพพลิเคชันที่ย้ายไปแล้ว start ขึ้นหรือไม่ ซึ่งมีโอกาสผิดพลาดสูงและใช้เวลานาน

ดังนั้นถ้าหน่วยงานสามารถย้ายไปทำระบบศูนย์ข้อมูลสำรองแบบ active-active ได้ ก็จะช่วยให้ continuous availability ทำงานได้ต่อเนื่อง ลดเวลา recovery time ได้เยอะ จากเดิม 1 วันอาจลดเหลือศูนย์เลยด้วยซ้ำ เพราะถ้าไซต์หนึ่งถูกปิดลงไป อีกไซต์หนึ่งก็ยังให้บริการต่อได้ทันที ธุรกิจก็จะเดินหน้าได้

เมื่อพูดถึงระบบแบบ active-active ก็มีความเข้าใจผิดๆ อยู่บ้างหลายประการ เพราะผู้ขายระบบบางรายอ้างว่าตัวเองเป็น active-active แต่เอาเข้าจริงแล้ว เวลาเรียกข้อมูลจากสตอเรจกลับต้องเรียกจาก primary storage (ที่อยู่ในศูนย์ใดศูนย์หนึ่ง) เท่านั้น ดังนั้นก็ถือเป็นการอ่านข้อมูลข้ามศูนย์ข้อมูลอยู่ดี
โซลูชันของ EMC เรียกว่าเป็น truly active-active คือเวลาเรียกข้อมูลภายในศูนย์ใด ก็จะเรียกจากสตอเรจของศูนย์ข้อมูลนั้นๆ ทำให้มีข้อดีคือไม่กินแบนด์วิธการเรียกข้อมูลข้ามระหว่างสองศูนย์

ในกรณีว่าลูกค้ามีศูนย์ข้อมูลสำรองแบบ active-standby อยู่แล้ว จะอัพเกรดมาเป็น active-active ต้องลงทุนเพิ่มอีกเยอะหรือไม่

ค่าใช้จ่ายของการทำศูนย์แบบ active-active ไม่ได้แพงกว่าศูนย์แบบ active-standby เยอะ เพราะความคุ้มค่าหรือ ROI (return on investment) วัดที่ความต่อเนื่องของธุรกิจ

ปกติเวลาผมให้คำปรึกษากับลูกค้าเรื่องนี้ จะให้ลูกค้าลองเลือกว่าระบบไอทีระบบไหนที่มีผลกระทบต่อธุรกิจเป็นอย่างมากก่อน แล้วมาดูว่าถ้าระบบล่มไป ค่าเสียหายเป็นเท่าไร จากนั้นค่อยนำไปหาความคุ้มค่าของการลงทุน

การเปลี่ยนจากศูนย์ active-standby เป็น active-active จะช่วยให้สิ่งที่ลงทุนไปแล้วในศูนย์แบบ active-standby สามารถใช้ประโยชน์ได้เพิ่มขึ้น โดยลงทุนเพิ่มแค่ในส่วนของ infrastructure ให้สองศูนย์ข้อมูลมองข้อมูลเป็นผืนเดียวกันเท่านั้น แต่สิ่งที่ได้ประโยชน์มากขึ้นคือความต่อเนื่องของการให้บริการตาม SLA (service-level agreement) ที่ต่อเนื่องกว่าเดิม

ยุคสมัยนี้เริ่มพูดถึงการใช้ cloud กันเยอะ เป็นไปได้หรือไม่ที่จะทำ cloud backup

กรณีที่จะใช้ public cloud ยังต้องสร้างความมั่นใจเรื่องความปลอดภัยของข้อมูล (information security) เพราะลูกค้าย่อมไม่อยากให้ข้อมูลออกนอกองค์กร ตอนนี้เรื่อง cloud backup ของบ้านเรา ลูกค้ายังอยู่ในช่วงศึกษาและเรียนรู้ว่ามีข้อจำกัดมากน้อยแค่ไหน เลือกใช้บริการจากค่ายไหนดีที่ไว้ใจได้
ส่วนเรื่องปัญหาเรื่องแบนด์วิธคงไม่มีมากนัก เพราะแบนด์วิธบ้านเราดีขึ้นเยอะแล้ว สามารถใช้งานได้จริงแล้ว

ถ้าหากว่ามีหน่วยงานในไทยที่ได้รับผลกระทบจากการชุมนุม ณ ขณะนี้ มีคำแนะนำที่สามารถปฏิบัติเบื้องต้นอะไรบ้าง

คำแนะนำที่ให้ได้ในตอนนี้คือต้องสำรองข้อมูลเป็นอย่างแรก ถึงแม้หน่วยงานยังไม่มีระบบสำรองข้อมูลอัตโนมัติใดๆ ก็ตาม หรืออาจมีศูนย์สำรองแบบ active-standby ก็ตาม สิ่งแรกที่ต้องทำคือสำรองข้อมูลออกมาจากพื้นที่ที่ได้รับผลกระทบให้ได้ก่อน

ขั้นต่อไป แต่ละหน่วยงานต้องคิดเรื่อง business continuity หรือการมองศูนย์สำรองที่สอง เพื่อให้ระบบสามารถทำงานต่อไป และต้องเริ่มมองไซต์ที่สามที่ไกลออกไปจากโซนกรุงเทพและปริมณฑลที่ได้รับผลกระทบในปัจจุบัน

ในฐานะที่มีความเชี่ยวชาญเรื่องนี้ มีมุมมองอย่างไรบ้างต่อกรณีศูนย์ข้อมูลของ CAT มีปัญหาเรื่องโดนตัดไฟ

สำหรับบริการโฮสติ้งบางรายอาจคิดเรื่องการทำ active-active ที่ศูนย์สำรองด้วย เพื่อเพิ่ม SLA ให้กับกลุ่มธุรกิจลูกค้าบางกลุ่มที่ต้องการความต่อเนื่องสูง หรืออาจจะเริ่มมองถึงการทำโฮสติ้งบน cloud ก็ได้เช่นกัน

Comments

By: cittavuddho
cittavuddho's blog
on 03/12/13 14:31 #662051 toggle
cittavuddho's picture

ศูนย์ข้อมูลสำรองต้องเลือกจังหวัดที่มีสายเคเบิลใต้น้ำลากผ่าน และอีก 2 ปัจจัยที่สำคัญ ภูมิประเทศต่อภัยพิบัติ และ เป็นพื้นที่ปราศจากความขัดแย้งทางการเมือง ในประเทศไทยนั้นเท่าที่เห็นพื้นที่ที่มีปัจจัยครบ 3 ด้านที่ว่า คงเป็นจังหวัดไกลกังวลที่ในหลวงทรงประทับ

แต่หากในอนาคต อาเซียนบูมกว่านี้ อาจมีการลากสายไฟเบอร์ใต้น้ำผ่านทวายเข้ามา จุดพักที่เมืองกาญจฯ อยุธยา ภาคอีสาน ลาว เวียดนาม และอาจมีแนวสายลากผ่านแม่น้ำโขงเข้าจีน ซึ่งที่แน่ๆ อาจมีความสัมพันธ์ไปพร้อมกับเส้นทางรถไฟความเร็วสูงในภูมิภาคนี้ ดูท่า 2.2 ล้านล้านอาจไม่พอ มีใครสนใจตั้งบริษัทอาเซียนตอนบนบางครับ ผมจะไปซื้อหุ้นด้วย

By: Architec
ContributorWindows PhoneSUSE
Architec's blog
on 03/12/13 15:16 #662062 toggle
Architec's picture

DBA ผมไม่ยอมรับเรื่อง Backup ทั้งระบบครับ เพราะว่าลูกค้าเขาต้องการความต่อเนื่อง ถ้าจะทำแบบนี้ต้องทำเป็น Replicate แล้ว Backup สักชุดนึงก็จะเป็นการดีครับ

แต่ปัญหาตอนนี้คือห่วงเรื่องระบบไฟฟ้ามากกว่า เพราะกระชาก UPS แต่ละครั้งก็เสียวแทน พอเกิดปัญหาซ้ำจนตรอกก็ไปจัด UPS ตู้ใหญ่ๆพร้อมกับเครื่องปั่นไฟเพื่อตัดปัญหาเลย

ถ้าไปขออาศัยกับ IDC เขาแล้วทำอย่างที่ผมว่าคงโดนปฏิเสธไปแล้ว

By: panurat2000
ContributorSymbianUbuntuIn Love
panurat2000's blog
on 03/12/13 16:48 #662096 toggle
panurat2000's picture

Blognone จึงขอสัมภาษณ์คุณสุรักษ์ ธรรมรักษ์ วิศวกรอาวุโสของ EMC ประเทศไทย เข้ามาพูดคุยถึงการจัดการระบไอที

การจัดการระบไอที => การจัดการระบบไอที

แต่สิ่งที่ได้ประโยชนืมากขึ้นคือความต่อเนื่องของการให้บริการตาม SLA (service-level agreement) ที่ต่อเนื่องกว่าเดิม

ประโยชนื => ประโยชน์