Tags:
Node Thumbnail

MongoDB เปิดตัวบริการคลาวด์ Atlas Data Lake เป็นบริการล่าสุดในตระกูลบริคลาวด์ Atlas ของบริษัท จุดสำคัญคือการคิวรีข้อมูลตรงจาก AWS S3 ด้วย MongoDB Query Language เหมือนมีฐานข้อมูลอยู่

บริการนี้รองรับไฟล์ฟอร์แมต JSON, BSON, CSV, TSV, Avro, และ Parquet โดยผู้ใช้ต้องให้สิทธิอ่านไฟล์กับใน bucket หรือ directory ของ S3 กับทาง MongoDB

ระบบภายในของ Data Lake จะสร้างเซิร์ฟเวอร์สำหรับประมวลผล (compute node) ใน region เดียวกับที่ข้อมูลวางอยู่เพื่อให้เกิดค่าใช้จ่ายต่ำสุด จากนั้นจะประมวลผลตามคำสั่งคิวรีที่ได้รับมาโดยอาจเปิดเซิร์ฟเวอร์ขึ้นมาหลายตัวเพื่อทำงานขนานกัน จากนั้นจะรวมเอาผลลัพธ์เข้าด้วยกัน

Tags:
Node Thumbnail

Google Cloud ประกาศเปิดตัวฟีเจอร์ BigQuery sandbox ระบบสำหรับทดสอบ BigQuery โดยไม่มีค่าใช้จ่าย และไม่ต้องใส่บัตรเครดิตด้วย เพื่อให้ผู้ใช้เรียนรู้ BigQuery ได้ง่ายขึ้นโดยไม่มีข้อจำกัดเรื่องค่าใช้จ่ายเข้ามา

แม้จะเปิดให้ใช้งานฟรี แต่ BigQuery sandbox ก็มีฟีเจอร์ทั่วไปเหมือนผู้ใช้จ่ายเงิน ไม่ว่าจะเป็นพลังในการประมวลผล, รันคำสั่ง query ด้วยภาษา SQL บน dataset ทั้งขนาดใหญ่และเล็ก, มี Data Studio ระบบ visualization ข้อมูลให้ใช้งาน และรองรับความสามารถใหม่ ๆ อย่างเช่น Machine Learning หรือ Geospatial Information Systems ด้วย

Tags:
Node Thumbnail

Google ประกาศเพิ่มฟีเจอร์ใหม่ให้ BigQuery ระบบ data warehouse บน Google Cloud Platform โดยมีฟีเจอร์ใหม่ที่สำคัญคือ รองรับข้อมูลสารสนเทศเชิงพื้นที่ (geospatial), โมเดลและฟังก์ชันใหม่บน BigQuery ML, การตั้งกำหนดเวลาการ query และอื่น ๆ

ฟีเจอร์แรกคือ BigQuery GIS เป็นการรองรับข้อมูลอิงตามลักษณะพื้นที่ (geospatial) โดยผู้ใช้สามารถวิเคราะห์ big data โดยใช้คำสั่ง SQL ปกติ โดยตัว BigQuery จะใช้ไลบรารีการคำนวณแบบเดียวกับที่ใช้ใน Earth Engine, Google Maps และ Google Earth จึงเหมาะกับการใช้งานกับข้อมูลปริมาณมาก

ตอนนี้ BigQuery GIS เปิดให้ใช้งานในแบบเบต้าแล้ว อ่านรายละเอียดเพิ่มเติมได้ที่ BigQuery GIS Documentation

Tags:
Node Thumbnail

Google ประกาศเพิ่มฟีเจอร์ใหม่ BigQuery ML โดยเป็นการนำฟีเจอร์ machine learning ใส่เข้าไปใน BigQuery ระบบฐานข้อมูลขนาดใหญ่ของ Google Cloud Platform และตอนนี้เริ่มเปิดให้ทดลองใช้งานแบบเบต้าแล้ว

การใส่ machine learning จะช่วยอำนวยความสะดวกให้ผู้ใช้งาน BigQuery สามารถสร้างโมเดล regression ทั้งแบบ linear และ logistic ได้จากในตัวฐานข้อมูลโดยตรง ไม่ต้องย้ายข้อมูลไปมา รวมถึงใช้โมเดลเพื่อทำนายได้เพียงแค่เขียน SQL เพิ่มอีกเล็กน้อยเท่านั้น

Tags:
Node Thumbnail

Microsoft ประกาศปรับปรุง Azure SQL Data Warehouse ระบบฐานข้อมูลบนคลาวด์สำหรับงานประเภทบิ๊กดาต้า โดยเน้นที่การปรับปรุงความเร็วในการ query โดยการใช้เทคโนโลยี instant data movement แบบใหม่ ซึ่งทำให้การ query เร็วขึ้นได้ 2 เท่า

ปกติแล้วเมื่อเรากระทำการ query ในรูปแบบใดก็ตาม หากตารางที่ต้องการอยู่ต่างโหนดกันก็ต้องย้ายข้อมูลไปมา ซึ่งอาจจะต้องใช้ Data Movement Service (DMS) คัดลอกข้อมูลออกจาก SQL Server Engine จากนั้นทำการแฮชและส่งไปยัง DMS บนโหนดอื่น ๆ ซึ่ง DMS จะคัดลอกข้อมูลไปยังตารางชั่วคราวโดยใช้ SQL Server BulkCopy API ซึ่งการอ่านข้อมูลออกมาจาก SQL Server นั้นเป็นแบบเทรดเดียวและทำให้เกิดคอขวดได้ง่าย

Tags:
Node Thumbnail

Larry Ellison ซีทีโอของ Oracle เปิดเผยรายละเอียดของฐานข้อมูลใหม่เวอร์ชัน 18c โดยจะใช้ machine learning เรียนรู้จากข้อมูลบันทึกที่เก็บไว้ และสามารถทำงานด้านการป้องกันข้อมูลผู้ใช้ รวมถึงการจัดการฐานข้อมูลได้อัตโนมัติ มีจุดประสงค์หลักเพื่อลดงานของผู้ดูแลระบบฐานข้อมูล เพื่อให้ไปทำงานในด้านอื่นแทนอย่างเช่นการวางแผนและความปลอดภัย

การใช้ machine learning ในฐานข้อมูลนั้น เพื่อเป็นการช่วยปรับปรุงประสิทธิภาพของฐานข้อมูลในงานที่ใช้บ่อย ๆ ผ่านการ caching, indexing และเทคนิคอื่น ๆ และเพื่อเป็นการป้องกันไม่ให้ใครที่ขโมย credential ไปเข้าถึงข้อมูลธุรกิจได้ และยังสามารถลดหรือเพิ่มการคำนวณหรือปริมาณข้อมูลที่ใช้ได้อัตโนมัติ

Tags:
Node Thumbnail

ทิศทางที่มาแรงในโลกเซิร์ฟเวอร์ช่วงหลัง คือการเก็บ-ประมวลผลข้อมูลขนาดใหญ่ หรือที่เรียกกันว่า big data ซึ่งซอฟต์แวร์ยอดนิยมตัวหนึ่งก็คือ Apache Hadoop ที่เขียนขึ้นมาตามแนวทาง MapReduce ของกูเกิล ปัจจุบันมีบริษัทใหญ่ๆ จำนวนมากใช้งาน Hadoop ในสภาพแวดล้อมจริง (ตัวอย่างเช่น Facebook)

Tags:
Node Thumbnail

ช่วงหลังธุรกิจจำนวนมากเริ่มมีการเก็บข้อมูลเพื่อทำ data mining กันมากขึ้นเรื่อยๆ โดยเฉพาะในสหรัฐฯ ที่มีการทำ data mining เพื่อทำตลาดกันเป็นเรื่องปรกติในทุกๆ ธุรกิจ รวมไปถึงตลาดยาที่มีกฏหมายให้บริษัทยาต้องเก็บข้อมูลใบสั่งยาเอาไว้ แต่บริษัทยากลับนำข้อมูลเหล่านี้ไปขายให้กับบริษัทรับทำ Data Mining เพื่อนำไปประมวลผล แล้วนำผลที่ได้กลับมาขายบริษัทยาอีกครั้งเพื่อนำไปทำตลาด

แต่ในปี 2007 รัฐ Vermont ก็ผ่านกฏหมายการทำ data mining ห้ามไม่ให้บริษัทยาขายข้อมูลใบจ่ายยาเหล่านี้ เว้นแต่จะได้รับการยินยอมจากคนไข้ ทำให้บริษัทรับทำ data mining เหล่านี้ต้องหยุดทำธุรกิจในรัฐ Vermont ทั้งหมดเพราะหากขออนุญาตจากคนไข้ ย่อมยากที่จะได้รับการยินยอม

Tags:
Node Thumbnail

ไอบีเอ็มเข้าซื้อบริษัท Netezza ผู้ผลิตซอฟต์แวร์ด้านคลังข้อมูล (data warehouse) และการวิเคราะห์ข้อมูลธุรกิจ (business analytics) หลังจากประกาศการเข้าซื้อครั้งนี้ตั้งแต่เดือนกันยายนที่ผ่านมา วันนี้ก็การซื้อขายก็สิ้นสุดลง

Netezza เป็นบริษัทที่มีสินค้าทับซ้อนกับไอบีเอ็มค่อนข้างมาก โดยสินค้าหลักของบริษัทคือแอพพลิแลนซ์ (appliance) สำหรับการทำคลังข้อมูลที่มีราคาถูกกว่าคู่แข่งรายอื่นๆ ขณะที่มันรองรับการขยายตัวของระบบได้ดี

ไอบีเอ็มระบุว่าบริษัทยังไม่ได้ตัดสินใจว่าจะทำอย่างไรกับเทคโนโลยีที่ได้รับมานี้ โดยอาจจะเป็นไปได้ทั้งการออกแอพพลิแลนซ์รุ่นใหม่ภายใต้แบรนด์ไอบีเอ็มเอง หรือนำซอฟต์แวร์ออกมารวมกับชุดซอฟต์แวร์อื่นๆ ของไอบีเอ็มเอง