ข่าวนี้ต่อเนื่องจากข่าวเก่า ออราเคิลร่วมวง NoSQL ออกผลิตภัณฑ์ใหม่ Oracle Big Data Appliance จะให้รู้เรื่องต้องย้อนกลับไปอ่านก่อนครับ
สรุปสั้นๆ ก็คือ ออราเคิลเริ่มขายเซิร์ฟเวอร์สำเร็จรูป Big Data Appliance สำหรับงานประมวลผลจำพวก NoSQL/Big Data แล้ว
- 5 comments
- 1970 reads
- Read more
โครงการโอเพนซอร์สอย่าง Hadoop กลายเป็นมาตรฐานของอุตสาหกรรมไอที โดยเฉพาะการประมวลผลข้อมูลขนาดใหญ่ (big data) มากขึ้นเรื่อยๆ
เดิมทียักษ์ใหญ่อย่างไมโครซอฟท์มีแผนจะทำซอฟต์แวร์ big data ของตัวเองชื่อ "Dryad" (LINQ to HPC) ควบคู่ไปกับการสนับสนุน Hadoop ในผลิตภัณฑ์ของตัวเอง (ข่าวเก่า 1, ข่าวเก่า 2)
แต่ล่าสุดทีมของไมโครซอฟท์ประกาศบนบล็อก TechNet แล้วว่าจะหยุดพัฒนา Dryad แล้ว โดยจะคงไว้ในสถานะพรีวิวบน HPC Pack 2008 R2 SP3 เท่านั้น จากนี้ต่อไปไมโครซอฟท์จะมุ่งเน้นไปที่ Apache Hadoop แทน โดยโฟกัสกับการทำงานทั้งบน Windows Server และ Windows Azure
ใครที่สนใจเรื่อง big data ที่จะเป็นกระแสในเร็วๆ นี้ ได้เวลาหัดใช้ Hadoop กันแล้วนะครับ
- 2 comments
- 1603 reads
ไมโครซอฟท์แถลงข่าวผลิตภัณฑ์สายฐานข้อมูลของตัวเองหลายอย่าง
อย่างแรกคือการประกาศ Microsoft SQL Server 2012 จากเดิมที่มีชื่อรหัสว่า "Denali" จะออกในครึ่งแรกของปี 2012 (ตอนนี้มีสถานะ CTP3) ฟีเจอร์ใหม่ได้แก่ Power View, SQL Server Data Tools, ColumnStore Index และปรับปรุงเรื่อง Business Intelligence
อย่างที่สอง ไมโครซอฟท์จะหันมาลุยเรื่อง Hadoop มากขึ้น จากที่เคยออก Hadoop Connector for SQL Server มาแล้ว คราวนี้จะออก Hadoop for Windows Azure และ Hadoop for Windows Server ด้วย (รุ่น CTP จะออกปลายปีนี้-ต้นปีหน้า) ซอฟต์แวร์สองตัวนี้จะช่วยให้รัน Hadoop บนวินโดวส์ทั้งสองรุ่นนี้ได้ดีขึ้น
งานนี้ไมโครซอฟท์จับมือกับบริษัท HortonWorks ที่แยกมาจากยาฮู (ข่าวเก่า) และจะส่งแพตช์กลับไปยังโครงการ Hadoop ต้นน้ำที่ Apache ด้วย
ที่มา - Microsoft
- 4 comments
- 2050 reads
ทิศทางที่มาแรงในโลกเซิร์ฟเวอร์ช่วงหลัง คือการเก็บ-ประมวลผลข้อมูลขนาดใหญ่ หรือที่เรียกกันว่า big data ซึ่งซอฟต์แวร์ยอดนิยมตัวหนึ่งก็คือ Apache Hadoop ที่เขียนขึ้นมาตามแนวทาง MapReduce ของกูเกิล ปัจจุบันมีบริษัทใหญ่ๆ จำนวนมากใช้งาน Hadoop ในสภาพแวดล้อมจริง (ตัวอย่างเช่น Facebook)
ฝั่งไมโครซอฟท์เองถึงแม้จะมีซอฟต์แวร์ลักษณะเดียวกันคือ Azure Table Storage, LINQ for HPC และ Project Daytona แต่ก็ทนความร้อนแรงของ Hadoop ไม่ไหว ออกซอฟต์แวร์ช่วยเชื่อมข้อมูลระหว่าง Hadoop กับซอฟต์แวร์ของไมโครซอฟท์ในที่สุด
จากที่ทราบกันไปแล้วว่า Facebook สร้างศูนย์ข้อมูลขนาดยักษ์ของตัวเองขึ้นมาเมื่อปีที่แล้ว และสร้างเสร็จแล้วในช่วงไตรมาสแรกของปีนี้
ในช่วงเดือนที่ผ่านมา (มิ.ย. 2554) Facebook ก็ได้ฤกษ์ถ่ายโอนข้อมูลขนาดมหึมาของตนเองบนเฟรมเวิร์ค Hadoop จากระบบเดิมสู่ระบบใหม่ และเปิดใช้งานระบบจากศูนย์ข้อมูลใหม่อย่างเป็นทางการ
หมายเหตุ: เฟรมเวิร์ค Hadoop เป็นระบบการจัดการข้อมูลขนาดใหญ่แบบกระจายระบบหนึ่งที่ Facebook เลือกใช้ ซึ่งมีระบบนิเวศต่าง ๆ ให้พร้อมสรรพ เช่น ระบบโครงสร้างไฟล์ HDFS, ระบบฐานข้อมูล Hbase, ระบบวิเคราะห์และประมวลผลข้อมูล Hive, และโครงสร้างภาษาโปรแกรม Hadoop MapReduce เป็นต้น
- 36 comments
- 2925 reads
- Read more
จากข่าวก่อนหน้านี้ว่า ยาฮูอาจแยกฝ่าย Hadoop ออกเป็นบริษัทใหม่ ก็มีความคืบหน้าออกมาว่ายาฮูจะประกาศเรื่องนี้อย่างเป็นทางการในวันสองวันนี้
ข่าวจาก GigaOm บอกว่าบริษัทใหม่จะใช้ชื่อว่า HortonWorks โดยชื่อ Horton มาจากช้างในนิยายชุด Dr.Suess (ของผู้เขียนเรื่อง How the Grinch Stole Christmas!)
พนักงานของ HortonWorks จะเป็นวิศวกรทีมเล็กที่พัฒนา Hadoop ตามแนวทางของ Apache หลังยาฮูประกาศเลิกทำ Hadoop รุ่นของตัวเอง และหันไปร่วมกับ Apache Hadoop เพียงที่เดียว
ตลาดของ HortonWorks คือการใช้ Hadoop ระดับองค์กร ซึ่งมีคู่แข่งอย่าง Cloudera และ EMC (ทำตลาดในชื่อ Greenplum HD)
ที่มา - GigaOm
- 625 reads
ยักษ์สีฟ้า IBM ประกาศบุกตลาดการประมวลผลข้อมูลที่มีรูปแบบไม่คงตัว (unstructured data) และมีจำนวนมหาศาล ซึ่งเรียกรวมๆ ว่า "Big Data" ตัวอย่างข้อมูลเหล่านี้ได้แก่ ข้อความทวีต, ข้อมูลการคลิก, รูปภาพ, วิดีโอ, พิกัด GPS, ข้อมูลจากเซ็นเซอร์, ข้อมูลการเคลื่อนไหวของหุ้น ฯลฯ
IBM ได้เปิดตัวซอฟต์แวร์ตระกูล InfoSphere สำหรับงานประมวลผลลักษณะนี้ 2 ตัว ได้แก่
- InfoSphere BigInsights สำหรับประมวลผลข้อมูลขนาดใหญ่มากๆ ตัวเทคโนโลยีพัฒนามาจาก Apache Hadoop โดยทีม IBM Research และนำเทคนิคบางส่วนจากคอมพิวเตอร์ Watson เช่น การประมวลผลข้อความ มาใช้ด้วย
- InfoSphere Streams สำหรับประมวลผลข้อมูลขนาดใหญ่แบบเรียลไทม์ เช่น ทวิตเตอร์ หรือพิกัด GPS
- 5 comments
- 938 reads
- Read more
Hadoop เป็นซอฟต์แวร์โอเพนซอร์สสำหรับการประมวลผลแบบกระจายศูนย์ (distributed computing) ที่ยาฮูสร้างขึ้นเพื่อต่อกรกับ MapReduce ของกูเกิล (โดยสร้างจากเปเปอร์วิชาการของกูเกิล เพราะกูเกิลไม่ได้เปิดซอร์ส MapReduce)
ปัจจุบัน Hadoop เป็นโครงการโอเพนซอร์สใต้ Apache Foundation และมีองค์กรขนาดใหญ่นำไปใช้มากมาย เช่น Amazon, eBay, Facebook, Apple, HP, IBM (จริงๆ ก็เกือบทุกรายที่ไม่ใช่กูเกิลกับไมโครซอฟท์) แต่กำลังนักพัฒนาหลักก็ยังอยู่ที่ยาฮู
และถึงแม้ยาฮูจะประสบอุปสรรคกับธุรกิจเว็บอยู่บ้าง แต่ในสายของ cloud computing นั้น Hadoop ไปได้สวยมาก จึงมีข่าวออกมาว่ายาฮูอาจแยกทีม Hadoop ออกเป็นบริษัทใหม่เพื่อทำเรื่องนี้โดยเฉพาะ
- 4 comments
- 730 reads
- Read more
คนแถวนี้คงรู้จัก Hadoop ซอฟต์แวร์สำหรับกระจายการประมวลผลแบบขนาน ที่ยาฮูสร้างขึ้นมาเพื่อต่อกรกับกูเกิล (ซึ่งมี MapReduce ต้นกำเนิดของซอฟต์แวร์ตระกูลนี้)
ยาฮูเปิดซอร์ส Hadoop แล้วยกให้โครงการ Apache ดูแล แต่ยาฮูเองก็ทำ Yahoo! Hadoop เวอร์ชันของตัวเองขนานไปด้วย ล่าสุดยาฮูประกาศหยุดทำ Yahoo! Hadoop และหันไปร่วมมือกับ Apache Hadoop โดยตรงแล้ว
สาเหตุก็ตรงไปตรงมาคือการทำงานสองที่นั้นซ้ำซ้อนและเปลืองทรัพยากร สุดท้ายทางยาฮูจึงยกโค้ดส่วนของตัวเองไปรวมกับ Apache และนำเสนอเป็นฟีเจอร์ใหม่ต่อ Apache Hadoop
ที่มา - Networkworld
- 5 comments
- 863 reads
Doug Cutting ผู้พัฒนาโครงการโอเพนซอร์สที่เกี่ยวข้องกับเทคโนโลยีค้นหาและ cloud computing หลายตัว เช่น Lucene, Nutch, Hadoop ซึ่งก่อนหน้านี้ทำงานกับยาฮู และเป็นผู้ผลักดันให้ยาฮูใช้งาน Hadoop (เพื่อแข่งกับ MapReduce ของกูเกิล) ลาออกจากยาฮูแล้ว
Doug Cutting จะย้ายไปทำงานกับ Cloudera ซึ่งเป็นบริษัทที่นำ Hadoop มาใช้งานในเชิงพาณิชย์ เขาบอกว่าการย้ายงานครั้งนี้ไม่เกี่ยวข้องกับเรื่องยาฮู-ไมโครซอฟท์แต่อย่างใด
ที่มา - New York Times
- 5 comments
- 2077 reads
เคล็ดลับความว่องไวในการค้นหาผ่านกูเกิลคือระบบคอมพิวเตอร์สมรรถนะสูง ซึ่งประกอบด้วยเทคโนโลยีหลายตัวอย่าง MapReduce หรือ GFS แน่นอนว่ากูเกิลเก็บไว้ใช้เองคนเดียว อย่างไรก็ตามมีคนเขียนโปรแกรมที่ทำงานลักษณะเดียวกันออกมา (โดยดูจากเปเปอร์ของกูเกิล) ชื่อว่า Hadoop ซึ่งปัจจุบันอยู่ใต้โครงการ Apache ผมทราบมาบ้างว่าคนแถวๆ นี้ก็เล่น Hadoop กันอยู่หลายคน
Yahoo! เป็นหนึ่งในผู้ใช้ Hadoop รายใหญ่ของโลก (Facebook กับ IBM ก็ใช้) อาจเป็นเพราะต้องไล่กูเกิลให้ทันในเรื่องสมรรถนะ แต่อีกเหตุผลก็คือ Doug Cutting นักพัฒนาหลักของ Hadoop (รวมถึง Lucene และ Nutch) ปัจจุบันมาทำงานกับ Yahoo!
ล่าสุด Yahoo! ประกาศแจกซอร์สโค้ดของ Hadoop เวอร์ชันที่ใช้ภายในบริษัทแล้ว (ใต้ชื่อ Yahoo! Distribution of Hadoop) โดย Yahoo! Hadoop ก็มีแพตช์ต่างๆ เพิ่มมาจาก Apache Hadoop ซึ่ง Yahoo! อ้างว่าได้ปรับปรุงประสิทธิภาพ เสถียรภาพเพิ่มขึ้นมาอีกมาก
Yahoo! Distribution of Hadoop ใช้สัญญาอนุญาตแบบโอเพนซอร์สเหมือนกับ Apache Hadoop ดังนั้นแพตช์ทั้งหลายก็สามารถกลับเข้า Hadoop หลักได้ง่าย
ที่มา - Yahoo! Developer Network Blog
- 13 comments
- 2769 reads
มีข่าวใหญ่ที่หลุดรอดจอเรดาร์ไป คือ Yahoo! เริ่มใช้ Hadoop ซึ่งเป็นโปรแกรม MapReduce สำหรับทำ search engine แล้ว ในขณะนี้ Yahoo! ใช้งาน Hadoop ประมาณหมื่นเครื่อง
MapReduce เป็นการแบ่งงานออกเป็นส่วนเล็กๆ เพื่อกระจายกันไปทำในคอมพิวเตอร์ขนาดเล็กเป็นจำนวนมาก (map) แล้วนำผลกลับมารวมกันเพื่อหาผลลัพท์ที่ต้องการ (reduce) MapReduce ได้รับความสนใจในหมู่นักวิจัยหลังจากที่กูเกิลเปิดเผยว่าใช้ MapReduce ในการทำ search engine เมื่อสามปีก่อนในช่วงที่กูเกิลเริ่มเปิดตัว GFS (Google File System) ซึ่งใช้เชื่อมโยงคอมพิวเตอร์เล็กๆ หลายพันเครื่องเข้าด้วยกัน
Hadoop เป็น MapReduce เขียนด้วยจาวา เดิมเคยเป็นส่วนของ Nutch มาก่อน ในขณะนี้ได้แยกออกจาก Nutch มาเป็นโครงการใต้ Lucene โดยตรงเนื่องจากมีความซับซ้อนมากขึ้น ในปัจจุบันนอกจากจะมีส่วนของ MapReduce แล้ว ยังมี HDFS (Hadoop Distributed File System) อีกด้วย
ที่มา:
- The Road to an Open Source Google
- Yahoo!'s bet on Hadoop
- Open Source Distributed Computing: Yahoo's Hadoop Support (Yahoo! Developer Network Blog)
- Yahoo brings on Hadoop
- ไฟล์การนำเสนอในงาน OSCON 2007: ppt ส่วนที่ 1, ppt ส่วนที่ 2, video iPod
- 14 comments
- 1241 reads







