Tags:
Node Thumbnail

ข่าวน่าสนใจของวงการไอทีในวันนี้คือ การควบรวมกันระหว่าง Cloudera และ Hortonworks สองบริษัทที่ทำธุรกิจซอฟต์แวร์ Hadoop ส่งผลให้บริษัทใหม่ (ซึ่งจะใช้ชื่อว่า Cloudera) กลายเป็นบริษัท Hadoop รายใหญ่ของโลก

ถ้าดูเผินๆ การควบกิจการครั้งนี้อาจเป็นเรื่องปกติทั่วไปในโลกธุรกิจ แต่แท้จริงแล้ว Cloudera และ Hortonworks เรียกได้ว่าเป็น "แฝดท้องเดียวกัน" ที่พรากจากกันมานาน และกลับมารวมกันอีกครั้ง

Tags:
Node Thumbnail

Cloudera และ Hortonworks สองบริษัทผู้พัฒนาซอฟต์แวร์จัดการฐานข้อมูลขนาดใหญ่บน Hadoop ประกาศควบรวมกิจการกัน โดยบริษัทใหม่คาดมีมูลค่ากิจการราว 5,200 ล้านดอลลาร์

รายละเอียดในการควบรวมนั้นระบุว่า เป็นการรวมกิจการเข้าด้วยกัน (ไม่ใช่ใครซื้อกิจการใคร) โดยผู้ถือหุ้น Cloudera เดิม จะถือหุ้น 60% ในบริษัทใหม่ ส่วนที่เหลือเป็นของ Hortonworks นอกจากนี้ Tom Reilly ซีอีโอ Cloudea จะเป็นซีอีโอของบริษัทใหม่ ส่วน Rob Bearden ซีอีโอ Hortonworks จะย้ายไปเป็นกรรมการบอร์ด

Tags:
Node Thumbnail

Cloudera บริษัทพัฒนาซอฟต์แวร์ที่ต่อยอดจาก Hadoop ซอฟต์แวร์มาตรฐานของ Big Data โดยเน้นที่กลุ่มลูกค้าองค์กรธุรกิจ เตรียมไอพีโอนำหุ้นเข้าซื้อขายในในตลาดหลักทรัพย์นิวยอร์กคืนวันนี้ (28 เมษายน) ด้วยตัวย่อ CLDR

อินเทลถือเป็นผู้ลงทุนรายสำคัญใน Cloudera โดยซื้อหุ้นถึง 18% ที่มูลค่า 740 ล้านดอลลาร์ เมื่อปี 2014 และเพิ่มทุนมาโดยตลอด โดยหลังไอพีโออินเทลจะถือหุ้นอยู่ 19.4%

ราคาไอพีโอของ Cloudera อยู่ที่ 15 ดอลลาร์ต่อหุ้น ทำให้มีมูลค่ากิจการ 1.9 พันล้านดอลลาร์ ซึ่งลดลงมาจากราคาที่อินเทลเคยลงทุนที่ 30.92 ดอลลาร์ หรือมากกว่าครึ่งหนึ่ง

Tags:
Node Thumbnail

ซอฟต์แวร์แห่งโลกยุคใหม่ที่มาแรงสองตัวคือ Apache Hadoop/Spark สำหรับงานประมวลผล Big Data และ TensorFlow สำหรับงาน Machine Learning

ล่าสุดทีมพัฒนาจาก Yahoo จับมันมารวมกันแล้วในชื่อว่า TensorFlowOnSpark หน้าที่ของมันคือการนำฟีเจอร์เรียนรู้ของ TensorFlow มารันอยู่บนคลัสเตอร์ Hadoop/Spark โดยตรง เพื่อไม่ให้ต้องย้ายข้อมูลระหว่างคลัสเตอร์สองระบบ ซึ่งเสียเวลาและทรัพยากรในการย้ายข้อมูลขนาดใหญ่

Tags:
Topics: 
Node Thumbnail

สัปดาห์ที่แล้วมีรายงานการขโมยข้อมูลจากเซิร์ฟเวอร์ MongoDB ที่เปิดสู่อินเทอร์เน็ตโดยไม่ได้ตั้งรหัสผ่าน ทำให้แฮกเกอร์สามารถขโมยข้อมูลไปได้โดยง่าย เมื่อได้ข้อมูลไปแล้วก็จะเรียกค่าไถ่ 0.2 BTC ตอนนี้รายงานการขโมยข้อมูลแบบเดียวกันก็มีทั้ง ElasticSearch และ Hadoop แล้ว

รายงานการโจมตีเซิร์ฟเวอร์ Hadoop พบเซิร์ฟเวอร์เหยื่อที่เปิดพอร์ต 50070 ออกสู่อินเทอร์เน็ตโดยไม่มีมาตรการรักษาความปลอดภัยเพิ่มเติม แฮกเกอร์เข้ามาสั่งลบข้อมูลทั้งหมดพร้อมกับสร้างโฟลเดอร์ NODATA4U_SECUREYOURSHIT ทิ้งเอาไว้

Tags:
Node Thumbnail

เมื่อกลางปีที่แล้ว ไมโครซอฟท์รองรับ Apache Spark ประมวลผลข้อมูลในหน่วยความจำบน Azure HDInsight โดยมีสถานะเป็นรุ่นพรีวิว หนึ่งปีผ่านมา ไมโครซอฟท์ปรับสถานะเป็นรุ่นใช้งานจริง (general availability - GA) แล้ว รุ่นที่ใช้งานคือ Apache Spark v1.6.1

ไมโครซอฟท์ระบุว่า Spark ได้รับความนิยมสูงในหมู่ผู้ใช้ HDInsight และการเข้าสถานะ GA น่าจะยิ่งทำให้ Spark ได้รับความนิยมมากขึ้น

HDInsight คือการนำแพลตฟอร์มประมวลผลข้อมูล big data อย่าง Hadoop ไปรันบนคลาวด์ Azure ของไมโครซอฟท์ ส่วน Spark เป็นซอฟต์แวร์ในชุดเดียวกันที่ประมวลผลข้อมูลทั้งหมดในแรม เพื่อประสิทธิภาพที่สูงขึ้นจาก Hadoop ปกติ

Tags:
Node Thumbnail

ปีที่แล้ว Google เปิดตัว Cloud Dataproc บริการ Hadoop/Spark บนกลุ่มเมฆ ตอนนี้บริการตัวนี้เข้าสถานะ GA (general availability) แล้ว

Google Cloud Dataproc ออกแบบมาสำหรับคนที่ต้องการวิเคราะห์ข้อมูล big data ด้วย Apache Hadoop/Spark แต่ไม่อยากเซ็ตระบบเซิร์ฟเวอร์เอง หรือไม่อยากลงทุนเตรียมคลัสเตอร์ขนาดใหญ่ไว้ ก็สามารถเช่าใช้บริการจากคลาวด์ของกูเกิลได้เลย ช่วยแก้ปัญหาทั้งค่าใช้จ่ายตั้งต้น ภาระการดูแล และการขยายขนาดในอนาคตถ้าหากข้อมูลมีปริมาณเยอะขึ้น

Tags:
Node Thumbnail

ไมโครซอฟท์เปิดตัวบริการใหม่ Azure Data Lake แพลตฟอร์มสำหรับจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ (big data) บนกลุ่มเมฆ

Azure Data Lake ประกอบด้วยชิ้นส่วนย่อย ดังนี้

Tags:
Node Thumbnail

Google Cloud Platform เปิดบริการใหม่ (อีกแล้ว) โดยใช้ชื่อว่า Google Cloud Dataproc มันคือการนำเอาซอฟต์แวร์วิเคราะห์ข้อมูลอย่าง Apache Hadoop และ Apache Spark มาโฮสต์บนระบบคลาวด์ของกูเกิล และปรับแต่งให้เซ็ตอัพ คอนฟิก และใช้งานง่ายขึ้น ลดความยุ่งยากในการดูแลระบบลง

Cloud Dataproc ยังใช้ประโยชน์จากราคาประมวลผลบนกลุ่มเมฆ โดยคิดราคาเพิ่มจากปกติเพียงแค่ 1 เซ็นต์ต่อซีพียูต่อชั่วโมง (นอกเหนือจากค่าประมวลผล-สตอเรจที่ต้องจ่ายให้กูเกิลอยู่แล้ว) และถ้าอยากประหยัดแบบสุดๆ ก็สามารถรันงานบน Preemptible Instances เซิร์ฟเวอร์พร้อมตายทุกเวลา ที่ราคาถูกมากเป็นพิเศษได้

Tags:
Node Thumbnail

ช่วงที่ผมไปซิลิคอนวัลเลย์มีโอกาสเจอคนไทยที่ทำงานอยู่ในบริษัทไอทีระดับโลกหลายคน เลยติดต่อขอสัมภาษณ์ลง Blognone เพื่อถ่ายทอดประสบการณ์ล้ำค่าเหล่านี้กับคนอื่นๆ ที่อยากไปสานฝันในระดับเดียวกัน

Tags:
Node Thumbnail

ซิสโก้ประกาศความร่วมมือกับผู้ผลิตชุดดิสทริบิวชั่นหลักของ Hadoop ได้แก่ Cloudera, Hortonworks, และ MapR โดยทางซิสโก้จะเป็นตัวแทนจำหน่ายไลเซนส์ของทั้งสามดิสทริบิวชั่นให้ พร้อมกับประกาศทำตลาด UCS Director Express for Big Data (PDF) ไปพร้อมกัน

UCS Director Express for Big Data จะช่วยควบคุมคลัสเตอร์ อำนวยความสะดวกในการติดตั้งและจัดการ Hadoop บนเซิร์ฟเวอร์จำนวนมาก ตอนนี้รองรับทั้งสามดิสทริบิวชั่นที่ซิสโก้ประกาศร่วมมือ

Tags:
Node Thumbnail

Pivotal บริษัทลูกของ EMC ด้านการจัดการข้อมูลขนาดใหญ่ (big data) ประกาศเปิดซอร์สซอฟต์แวร์สามตัวสำคัญในปีนี้ ได้แก่ GemFire, HAWQ, และ GreenplumDB

ซอร์สโค้ดทั้งหมดยังไม่ได้เปิดออกมาตอนนี้ โดยแผนของ Pivotal คือจะส่งโค้ด HAWQ และ GreenplumDB ให้กับ Apache Foundation ส่วน GemFire จะส่งให้กับชุมชนที่ดูแล PostgreSQL ต่อไป

แนวทางนี้ทำให้ Pivotal Big Data Suite มีซอฟต์แวร์หลักๆ ภายในเป็นโอเพนซอร์สเป็นส่วนใหญ่

Tags:
Node Thumbnail

Google Cloud Platform รองรับ Hadoop มานานแต่เป็น Apache Hadoop มาตรฐาน เมื่อสัปดาห์ที่แล้วทางกูเกิลก็ร่วมกับ Hortonworks ผู้พัฒนาดิสทริบิวชันหนึ่งของ Hadoop ชื่อว่า Hortonworks Data Platform (HDP) 2.2 มารองรับบน Google Cloud Platform เป็นทางการ

HDP 2.2 จะมาพร้อมกับ Hadoop 2.6.0 และชุดซฟต์แวร์อื่นๆ ได้แก่ Pig, Hive, HBase, Phoenix, Accumulo, Storm, Spark, Solr, Tez, Slider, Falcon, Kafka, Sqoop, Flume, Ambari, Oozie, Zookeeper, Knox, และ Ranger

Node Thumbnail

หลังจาก SQL Server 2014 เข้าสถานะ RTM เมื่อวานนี้ไมโครซอฟท์ก็จัดงานเปิดตัวอย่างเป็นทางการ รายละเอียดฟีเจอร์อ่านได้ในข่าวเก่า สามารถดาวน์โหลดรุ่น Express มาใช้งานได้ฟรีเช่นเดิม

ที่น่าสนใจกว่าคือในงานเดียวกัน ไมโครซอฟท์ยังเปิดตัวเครื่องมือวิเคราะห์ข้อมูลใหม่อีก 2 ตัว

Tags:
Node Thumbnail

อินเทลประกาศเข้าซื้อหุ้นในบริษัทซอฟต์แวร์ Cloudera จำนวน 18% คิดเป็นจำนวนเงิน 740 ล้านดอลลาร์ ถือเป็นการลงทุนครั้งใหญ่ที่สุดของอินเทลในบริษัทด้านเทคโนโลยีศูนย์ข้อมูล

Cloudera เป็นบริษัทผู้พัฒนาซอฟต์แวร์ต่อยอดจาก Apache Hadoop ซึ่งเป็นซอฟต์แวร์มาตรฐานในวงการ Big Data โดยใช้ชื่อผลิตภัณฑ์ว่า CDH (Cloudera Distribution Including Apache Hadoop)

หลังจากที่อินเทลเข้ามาถือหุ้น Cloudera จะพัฒนา CDH ให้เหมาะกับเทคโนโลยีของอินเทลในอนาคต ทั้งด้านแฟลช ความปลอดภัย (McAfee) และการเชื่อมต่อ (Intel Fabric) ส่วนอินเทลเองจะหยุดทำ Intel Hadoop (IHP/IDP) และรวมโครงการเข้ากับ CDH แทน

Tags:
Node Thumbnail

เอเอ็มดีย้ายฐานข้อมูลการผลิตและการทดสอบสินค้าจาก Oracle DB ไปยัง Hadoop เพราะประสิทธิภาพและเสถียรภาพของระบบฐานข้อมูลเมื่อข้อมูลมีขนาดใหญ่ๆ มากๆ โดยเอเอ็มดีมีปัญหากับข้อจำกัดกับฐานข้อมูลของออราเคิลที่จำกัดผลการคิวรีไว้ที่ 100,000 ชุด (ที่มาไม่ระบุว่าเอเอ็มดีใช้ฐานข้อมูลรุ่นไหนของออราเคิล) ขณะที่ Hadoop นั้นไม่มีข้อจำกัดแบบนี้ และตอนนี้การคิวรี 99% สามารถทำเสร็จใน 15 นาที ขณะที่การคิวรีเฉลี่ยใช้เวลา 23 วินาที

เอเอ็มดีใช้ Hadoop รุ่นของบริษัท Cloudera ซึ่งในแง่หนึ่ง Cloudera ก็เป็นคู่ค้าของออราเคิลที่จับมือกันมาตั้งแต่ต้นปี 2012

Tags:
Node Thumbnail

เทคโนโลยี Big Data กำลังมาแรงมากขึ้นเรื่อยๆ และซอฟต์แวร์ที่ได้รับการยอมรับว่าเป็นมาตรฐานในวงการแล้วคือ Apache Hadoop (และโครงการที่เกี่ยวข้องอื่นๆ) ซึ่งมีบริษัทมากมายเข้าไปช่วยกันพัฒนากันอย่างเต็มที่

อย่างไรก็ตาม การที่ Hadoop เป็นโครงการโอเพนซอร์สแปลว่ามันยังมีความ "ดิบ" อยู่พอสมควรในการนำมาใช้งานจริง จึงมีบริษัทหน้าใหม่หลายแห่งที่นำ Hadoop มาจัดแพ็กเกจใหม่ ทำระบบติดตั้งและบริหารจัดการ บวกกับฟีเจอร์เสริมอื่นๆ ในลักษณะเดียวกับดิสโทรของลินุกซ์ในอดีต

Tags:
Node Thumbnail

Facebook เป็นเครือข่ายสังคมที่เชื่อมโยง "ความสัมพันธ์" ของผู้คนและวัตถุต่างๆ ซึ่งบริษัทได้ออกแบบแพลตฟอร์ม Open Graph มารองรับฟีเจอร์นี้ (ข่าวเปิดตัวเมื่อปี 2010) ระยะหลัง Facebook จึงมองข้อมูลต่างๆ ในระบบของตัวเองเป็น "กราฟ" (ในความหมายทางคณิตศาสตร์ ไม่ใช้กราฟเส้นแบบราคาหุ้นนะครับ) ไปซะเยอะ

ล่าสุด Facebook ออกมาอธิบายสถาปัตยกรรมเบื้องหลัง Open Graph ที่สามารถประมวลผลข้อมูลกราฟขนาดมหาศาล (Facebook มองไกลถึงระดับ "ล้านล้าน" ความสัมพันธ์)

Tags:
Node Thumbnail

แนวทาง MapReduce ถูกเสนอครั้งแรกในรายงานของกูเกิลและได้รับความสนใจอย่างสูงจากทั้งงานวิชาการและภาคธุรกิจ ที่แปลงเป็นคำว่า BigData ขายกันทั่วไปทุกวันนี้ แต่เทคโนโลยี MapReduce ถูกจดสิทธิบัตรไว้จำนวน 10 ฉบับแยกจากกัน โดยที่ผ่านมาแม้จะมีการเขียนซอฟต์แวร์โอเพนซอร์สอย่าง Hadoop โดยไม่ได้ขออนุญาตจากกูเกิล แต่ก็ไม่มีการดำเนินคดีใดๆ และวันนี้กูเกิลก็ประกาศสัญญาว่าจะไม่ใช้สิทธิบัตรเหล่านั้นนำเดินคดีอย่างเป็นทางการกับโครงการโอเพนซอร์สทุกโครงการ

ด้วยประกาศนี้ โครงการเช่น Hadoop ทั้งนักพัฒนา, ผู้จัดจำหน่าย, และผู้ใช้จะปลอดภัยจากการถูกฟ้องด้วยสิทธิบัตรทั้งสิบฉบับ ตราบใดก็ตามที่หน่วยงานเหล่านี้ยังไม่ได้ฟ้องบริการใดๆ ของกูเกิล หรือทำกำไรจากการฟ้องร้องกูเกิล

Tags:
Node Thumbnail

Greenplum เป็นบริษัทลูกของ EMC ที่ทำซอฟต์แวร์สำหรับประมวลผลด้าน Data Warehouse/Big Data โดยเฉพาะ บริษัทมีผลิตภัณฑ์หลักในมือ 2 ตัวคือ

Tags:
Node Thumbnail

ราชาแห่งวงการ Big Data คือ Apache Hadoop และที่ผ่านมาเราก็เห็นบริษัทมากมายที่เชื่อมระบบของตัวเองให้ทำงานร่วมกับ Hadoop ได้

ซอฟต์แวร์รายล่าสุดที่ประกาศตัวในเรื่องนี้คือ Spring เฟรมเวิร์คยอดนิยมในภาษาจาวา (ปัจจุบันเป็นของ VMware) ก็เปิดตัว Spring Hadoop ที่ช่วยให้แอพที่เขียนด้วย Spring สามารถคำนวณ MapReduce ใน Hadoop ได้ และเชื่อมต่อไปยังบริการอื่นๆ อย่าง Hive และ Pig ได้ด้วย

Tags:
Node Thumbnail

คนที่ติดตามวงการ Big Data คงทราบดีว่าซอฟต์แวร์มาตรฐานของวงการคือ Hadoop ซึ่งตัวซอฟต์แวร์เป็นโอเพนซอร์ส แต่ก็มีบริษัทหลายแห่งพัฒนาเวอร์ชันเชิงพาณิชย์ให้บริการ

Tags:
Node Thumbnail

ข่าวนี้ต่อเนื่องจากข่าวเก่า ออราเคิลร่วมวง NoSQL ออกผลิตภัณฑ์ใหม่ Oracle Big Data Appliance จะให้รู้เรื่องต้องย้อนกลับไปอ่านก่อนครับ

สรุปสั้นๆ ก็คือ ออราเคิลเริ่มขายเซิร์ฟเวอร์สำเร็จรูป Big Data Appliance สำหรับงานประมวลผลจำพวก NoSQL/Big Data แล้ว

Tags:
Node Thumbnail

โครงการโอเพนซอร์สอย่าง Hadoop กลายเป็นมาตรฐานของอุตสาหกรรมไอที โดยเฉพาะการประมวลผลข้อมูลขนาดใหญ่ (big data) มากขึ้นเรื่อยๆ

Pages