Tags:
Node Thumbnail

ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop

ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น

  • API เวอร์ชันใหม่ ที่สัญญาว่าจะคง API นี้ไปตลอดสาย 2.x ไม่เปลี่ยนแปลง
  • รวม API เกี่ยวกับแหล่งข้อมูลสองตัวสำคัญคือ DataFrame และ Dataset เข้าด้วยกัน (สำหรับภาษา Java และ Scala)
  • รองรับคำสั่ง SQL ของ SQL2003, ตัว parse คำสั่ง SQL ตัวใหม่
  • รองรับการดึงข้อมูลแบบ CSV โดยตรง
  • ปรับปรุงประสิทธิภาพให้ดีขึ้น 2-10 เท่าตามแต่ละกรณี เป็นผลมาจาก Project Tungsten โครงการย่อยของ Spark ที่ปรับปรุงวิธีจัดการหน่วยความจำให้ดีขึ้น
  • SparkR ตัวเชื่อมต่อกับภาษา R มีฟีเจอร์เพิ่มขึ้นหลายอย่าง โดยเฉพาะพัฒนาอัลกอริทึมสำหรับงานด้าน machine learning
  • Structured Streaming เป็น API สำหรับการสตรีมข้อมูลตัวใหม่ ยังอยู่ในสถานะทดลอง (experimental)

ที่มา - Apache Spark, Infoworld

No Description

Get latest news from Blognone