Tags:
Node Thumbnail

เมื่อเดือนมีนาคมที่ผ่านมา Meta เปิดตัวโครงการ Velox เป็น unified execution engine กลางสำหรับฐานข้อมูลหรือระบบจัดการข้อมูลหลายรูปแบบ ตอบโจทย์ระดับโครงสร้างพื้นฐานของบริษัทใหญ่ระดับ Meta ที่ต้องใช้ฐานข้อมูลหลากหลาย และซับซ้อนขึ้นเรื่อยๆ

Velox จึงถูกสร้างขึ้นเพื่อจัดระเบียบวิธีการเก็บและเรียกใช้ข้อมูลที่แตกต่างกัน ช่วยลดความซ้ำซ้อนในการพัฒนา และรีดประสิทธิภาพของการเก็บข้อมูลให้ดีขึ้น แก้ปัญหาเอนจินแต่ละตัวมีวิธี optimized ที่แตกต่างกัน

เบื้องต้น Velox รองรับฐานข้อมูล 3 รูปแบบ ได้แก่ Apache Spark, Presto, PyTorch สำหรับงานปัญญาประดิษฐ์ ซึ่งทั้ง 3 แบบเป็นระบบที่ใช้บ่อยภายในบริษัท Meta

Tags:
Node Thumbnail

วันนี้ที่งาน AWS re:Invent 2022 Adam Selipsky ซีอีโอของ AWS ได้พูดถึงแนวทางการจัดการข้อมูลที่น่าสนใจ คือ “Zero ETL” เขาบอกว่าลูกค้าต่างมีข้อมูลที่กระจัดกระจาย เช่นแอพดึงข้อมูลจาก database และดึงข้อมูลอีกส่วนจาก data lake ซึ่งการนำข้อมูลมาใช้ปกติต้องผ่านกระบวนการที่เรียกว่า ETL (Extract, Transform, Load) เพื่อให้ข้อมูลพร้อมใช้งาน และการทำ ETL ก็ใช้เวลาเยอะ แถมยังยากอีกด้วย

Adam ระบุว่า AWS พยายามออกบริการต่างๆ มาให้ลูกค้าเพื่อให้การทำ ETL นั้นง่ายที่สุด แต่อย่างไรก็ยังเสียเวลาอยู่ดี AWS จึงเลือกทางเดินสู่ Zero ETL หรือไม่มีการทำ ETL เลย ในการนี้จึงประกาศว่า Amazon Aurora กับ Amazon Redshift จะทำงานร่วมกันได้โดยไม่ต้องทำ ETL

Tags:
Node Thumbnail

Apache Spark เป็นซอฟต์แวร์วิเคราะห์ข้อมูล big data แบบขนานที่ใช้งานกันอย่างแพร่หลาย และถูกนำไปให้บริการโดยคลาวด์หลายยี่ห้อ (เช่น Azure Databricks หรือ Amazon EMR) ถึงแม้เพิ่มความสะดวกในการดูแลระบบกว่าเดิม แต่ยังคงรูปแบบการเช่าเวลาเครื่องใช้งานเป็นชั่วโมงเหมือนคลาวด์ทั่วไป

ล่าสุด Google Cloud นำเอา Spark มาผสานกับแนวคิด Serverless ที่ไม่ต้องสนใจระบบคลัสเตอร์เบื้องหลังเลย เพราะตัวบริการจัดการเรื่องสเกลให้อัตโนมัติ และจ่ายเงินเฉพาะเท่าที่ใช้งาน

Tags:
Node Thumbnail

Apache Spark กลายเป็นซอฟต์แวร์มาตรฐานในการวิเคราะห์ข้อมูลขนาดใหญ่แบบเรียลไทม์ แต่ภาษาโปรแกรมที่เชื่อมต่อกับ Spark ได้ยังจำกัดอยู่แค่ภาษา Java, Python, Scala, R, SQL เท่านั้น

ไมโครซอฟท์จึงเอาใจชาว .NET ด้วยการเปิดตัว .NET for Apache Spark เพื่อให้สามารถใช้ภาษาตระกูล .NET (C#, F#) เชื่อมต่อกับ Spark ได้ด้วย

.NET for Apache Spark เป็นซอฟต์แวร์โอเพนซอร์ส เปิดโค้ดบน GitHub ทำงานข้ามแพลตฟอร์มได้ทั้งบนวินโดวส์ ลินุกซ์ แมค โดยตอนนี้ยังอยู่ในสถานะพรีวิว ต้องใช้ร่วมกับ .NET Core 2.1 ขึ้นไป

Tags:
Node Thumbnail

เดือนที่แล้วไมโครซอฟท์เปิดตัว Azure Databricks บริการใหม่ในเครือ Azure สำหรับการวิเคราะห์ข้อมูลขนาดใหญ่

Azure Databricks เป็นการนำ Apache Spark มารันบนคลาวด์ ความน่าสนใจคือบริการตัวนี้เป็นความร่วมมือระหว่างไมโครซอฟท์กับบริษัท Databricks ซึ่งก่อตั้งโดยหนึ่งในผู้สร้าง Apache Spark ด้วย

จุดเด่นของ Azure Databricks คือการขยายตัวแบบไม่จำกัดบนโครงสร้างพื้นฐานของไมโครซอฟท์ และการเชื่อมต่อกับบริการข้อมูลตัวอื่นในตระกูล Azure เช่น Azure Cosmos DB, Azure Data Lake Store, Azure IoT Hub เพื่อรวมข้อมูลหลายประเภทหลายแหล่ง มารันวิเคราะห์ใน Azure Databricks อีกทีหนึ่ง

Tags:
Node Thumbnail

ซอฟต์แวร์แห่งโลกยุคใหม่ที่มาแรงสองตัวคือ Apache Hadoop/Spark สำหรับงานประมวลผล Big Data และ TensorFlow สำหรับงาน Machine Learning

ล่าสุดทีมพัฒนาจาก Yahoo จับมันมารวมกันแล้วในชื่อว่า TensorFlowOnSpark หน้าที่ของมันคือการนำฟีเจอร์เรียนรู้ของ TensorFlow มารันอยู่บนคลัสเตอร์ Hadoop/Spark โดยตรง เพื่อไม่ให้ต้องย้ายข้อมูลระหว่างคลัสเตอร์สองระบบ ซึ่งเสียเวลาและทรัพยากรในการย้ายข้อมูลขนาดใหญ่

Tags:
Node Thumbnail

IBM Watson เปิดตัวบริการใหม่ 2 ตัวสำหรับองค์กรที่ต้องการประมวลผลข้อมูลในยุค cognitive ได้แก่ IBM Watson Data Platform และ IBM Watson Machine Learning Service

IBM Watson Data Platform เป็นแพลตฟอร์มสำหรับเก็บข้อมูลจากแหล่งต่างๆ เพื่อนำไปใช้วิเคราะห์ต่อในอนาคต ตัวแกนกลางของระบบคือ Apache Spark ที่รันบน IBM Cloud และสามารถเข้าถึงแหล่งข้อมูลบางอย่างที่ IBM เคยไปลงทุนไว้ เช่น The Weather Company เพื่อนำข้อมูลไปผสมผสานกับข้อมูลที่องค์กรมีได้

ตัว Data Platform รองรับภาษาโปรแกรมหลากหลาย ทั้ง SQL, Python, R, Java, Scala และเชื่อมต่อกับบริการของพาร์ทเนอร์รายอื่นๆ เช่น Keen IO, RStudio ได้ด้วย

Tags:
Node Thumbnail

ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop

ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น

Tags:
Node Thumbnail

เมื่อกลางปีที่แล้ว ไมโครซอฟท์รองรับ Apache Spark ประมวลผลข้อมูลในหน่วยความจำบน Azure HDInsight โดยมีสถานะเป็นรุ่นพรีวิว หนึ่งปีผ่านมา ไมโครซอฟท์ปรับสถานะเป็นรุ่นใช้งานจริง (general availability - GA) แล้ว รุ่นที่ใช้งานคือ Apache Spark v1.6.1

ไมโครซอฟท์ระบุว่า Spark ได้รับความนิยมสูงในหมู่ผู้ใช้ HDInsight และการเข้าสถานะ GA น่าจะยิ่งทำให้ Spark ได้รับความนิยมมากขึ้น

HDInsight คือการนำแพลตฟอร์มประมวลผลข้อมูล big data อย่าง Hadoop ไปรันบนคลาวด์ Azure ของไมโครซอฟท์ ส่วน Spark เป็นซอฟต์แวร์ในชุดเดียวกันที่ประมวลผลข้อมูลทั้งหมดในแรม เพื่อประสิทธิภาพที่สูงขึ้นจาก Hadoop ปกติ

Tags:
Node Thumbnail

ปีที่แล้ว Google เปิดตัว Cloud Dataproc บริการ Hadoop/Spark บนกลุ่มเมฆ ตอนนี้บริการตัวนี้เข้าสถานะ GA (general availability) แล้ว

Google Cloud Dataproc ออกแบบมาสำหรับคนที่ต้องการวิเคราะห์ข้อมูล big data ด้วย Apache Hadoop/Spark แต่ไม่อยากเซ็ตระบบเซิร์ฟเวอร์เอง หรือไม่อยากลงทุนเตรียมคลัสเตอร์ขนาดใหญ่ไว้ ก็สามารถเช่าใช้บริการจากคลาวด์ของกูเกิลได้เลย ช่วยแก้ปัญหาทั้งค่าใช้จ่ายตั้งต้น ภาระการดูแล และการขยายขนาดในอนาคตถ้าหากข้อมูลมีปริมาณเยอะขึ้น

Tags:
Node Thumbnail

Google Cloud Platform เปิดบริการใหม่ (อีกแล้ว) โดยใช้ชื่อว่า Google Cloud Dataproc มันคือการนำเอาซอฟต์แวร์วิเคราะห์ข้อมูลอย่าง Apache Hadoop และ Apache Spark มาโฮสต์บนระบบคลาวด์ของกูเกิล และปรับแต่งให้เซ็ตอัพ คอนฟิก และใช้งานง่ายขึ้น ลดความยุ่งยากในการดูแลระบบลง

Cloud Dataproc ยังใช้ประโยชน์จากราคาประมวลผลบนกลุ่มเมฆ โดยคิดราคาเพิ่มจากปกติเพียงแค่ 1 เซ็นต์ต่อซีพียูต่อชั่วโมง (นอกเหนือจากค่าประมวลผล-สตอเรจที่ต้องจ่ายให้กูเกิลอยู่แล้ว) และถ้าอยากประหยัดแบบสุดๆ ก็สามารถรันงานบน Preemptible Instances เซิร์ฟเวอร์พร้อมตายทุกเวลา ที่ราคาถูกมากเป็นพิเศษได้

Tags:
Node Thumbnail

ซอฟต์แวร์ที่มาแรงในโลกของ Big Data คือ Apache Spark ที่เปรียบเสมือน Hadoop ทำงานในหน่วยความจำ (MapReduce in memory)

ล่าสุดไมโครซอฟท์ที่เคยรองรับ Hadoop บน Azure ในชื่อ HDInsight ก็ประกาศรองรับ Spark เพิ่มเติมแล้ว โดยยังมีสถานะเป็น public preview ภายใต้บริการ Azure HDInsight อีกทีหนึ่ง

Apache Spark for Azure HDInsight เป็นบริการประมวลผลข้อมูลบนกลุ่มเมฆ และสามารถใช้เครื่องมือช่วยวิเคราะห์ข้อมูลยี่ห้อใดก็ได้มาช่วยอ่านค่า ไม่ว่าจะเป็น Power BI ของไมโครซอฟท์เอง, Tableau, SAP Lumira, Qlik