Tags:
Node Thumbnail

วันนี้ที่งาน AWS re:Invent 2022 Adam Selipsky ซีอีโอของ AWS ได้พูดถึงแนวทางการจัดการข้อมูลที่น่าสนใจ คือ “Zero ETL” เขาบอกว่าลูกค้าต่างมีข้อมูลที่กระจัดกระจาย เช่นแอพดึงข้อมูลจาก database และดึงข้อมูลอีกส่วนจาก data lake ซึ่งการนำข้อมูลมาใช้ปกติต้องผ่านกระบวนการที่เรียกว่า ETL (Extract, Transform, Load) เพื่อให้ข้อมูลพร้อมใช้งาน และการทำ ETL ก็ใช้เวลาเยอะ แถมยังยากอีกด้วย

Adam ระบุว่า AWS พยายามออกบริการต่างๆ มาให้ลูกค้าเพื่อให้การทำ ETL นั้นง่ายที่สุด แต่อย่างไรก็ยังเสียเวลาอยู่ดี AWS จึงเลือกทางเดินสู่ Zero ETL หรือไม่มีการทำ ETL เลย ในการนี้จึงประกาศว่า Amazon Aurora กับ Amazon Redshift จะทำงานร่วมกันได้โดยไม่ต้องทำ ETL

Tags:
Node Thumbnail

นับจากการเปิดตัว AWS Lambda ในปี 2014 เราก็เห็น AWS ทยอยปรับบริการเดิมของตัวเองจากการเช่าเครื่องตามระยะเวลา มาเป็นการจ่ายตามการใช้งานรายครั้ง (Serverless) มากขึ้นเรื่อยๆ (ตัวก่อนหน้านี้คือฐานข้อมูล Aurora Serverless)

ปี 2021 เป็นคิวของ Amazon Redshift บริการ data warehouse ที่ออกเวอร์ชัน Serverless แล้ว ใช้ชื่อตรงไปตรงมาว่า Amazon Redshift Serverless

Tags:
Node Thumbnail

Snowflake Inc. บริษัทซอฟต์แวร์ data warehouse ชื่อดัง ยื่นเอกสารต่อคณะกรรมการกำกับหลักทรัพย์สหรัฐ (SEC) เพื่อเตรียมขายหุ้น IPO ในตลาดหลักทรัพย์นิวยอร์ก (NYSE) โดยใช้ตัวย่อว่า SNOW

Snowflake ก่อตั้งในปี 2012 โดยเป็นซอฟต์แวร์ด้านคลังข้อมูล (data warehouse) ที่รันบนคลาวด์เท่านั้น ใช้โมเดลรายได้แบบ subscription

การยื่นเอกสารของ Snowflake ทำให้เราเห็นข้อมูลการเงินของบริษัท มีรายได้ 97 ล้านดอลลาร์ในปี 2019 และเพิ่มอย่างก้าวกระโดดเป็น 264.7 ล้านดอลลาร์ในปี 2020 แต่บริษัทยังขาดทุนอยู่ โดยขาดทุน 178 ล้านดอลลาร์ในปี 2019 และขาดทุนเพิ่มขึ้นเป็น 348.5 ล้านดอลลาร์ในปี 2020

Tags:
Node Thumbnail

ประเด็นหนึ่งที่บริการคลาวด์ถูกโจมตีมาตลอดคือเรื่อง vendor lock-in หรือการถูกบังคับโดยอ้อมให้ต้องอยู่กับผู้ให้บริการคลาวด์เจ้านั้นตลอดไป เพราะการย้ายออกมีต้นทุนแฝงสูงมาก โดยเฉพาะบริการเฉพาะทางของผู้ให้บริการแต่ละราย (เช่น AI หรือ data) ที่ไม่ใช่บริการสามัญ (เช่น compute หรือ storage)

กรณีศึกษาล่าสุดมาจาก Discord แอพแชทยอดนิยมของวงการเกมเมอร์ ที่ระบุว่าย้ายระบบคลังข้อมูล (data warehouse) จากเดิมที่ใช้ Amazon Redshift มาเป็นบริการเทียบเคียงกันคือ BigQuery ของกูเกิล

หมายเหตุ: บทความนี้มาจากบล็อกของกูเกิล (เขียนโดยทีมงาน Discord ในฐานะลูกค้า GCP) ย่อมเชียร์บริการฝั่งกูเกิล แต่นำมาให้อ่านเพื่อเป็นกรณีศึกษาเรื่องการย้ายคลาวด์ข้ามค่าย

Tags:
Node Thumbnail

Snowflake บริษัทซอฟต์แวร์ data warehouse บนคลาวด์ที่กำลังมาแรง ประกาศระดมทุนรอบใหม่ 479 ล้านดอลลาร์ (ประมาณ 15,000 ล้านบาท) ทำให้บริษัทมีมูลค่า 12.4 พันล้านดอลลาร์ (3.9 แสนล้านบาท) เรียบร้อยแล้ว ถือเป็นสตาร์ตอัพสายองค์กรที่มีมูลค่าสูงเป็นอันดับต้นๆ ของวงการ

Snowflake ก่อตั้งในปี 2012 โดยผู้เชี่ยวชาญด้าน data warehouse จำนวน 3 คน (สองคนเคยทำงานกับ Oracle) บริษัทเรียกผลิตภัณฑ์ของตัวเองว่า Cloud Data Platform ที่ทำงานบนคลาวด์หลายยี่ห้อ (ปัจจุบันรองรับทั้ง AWS, Azure, GCP) และมีโมเดลคิดเงินแบบ as a service คือมีเฉพาะเวอร์ชันคลาวด์เท่านั้น จ่ายเท่าที่ใช้งานจริง และลดภาระการดูแลเซิร์ฟเวอร์ลง

Tags:
Node Thumbnail

MongoDB เปิดตัวบริการคลาวด์ Atlas Data Lake เป็นบริการล่าสุดในตระกูลบริคลาวด์ Atlas ของบริษัท จุดสำคัญคือการคิวรีข้อมูลตรงจาก AWS S3 ด้วย MongoDB Query Language เหมือนมีฐานข้อมูลอยู่

บริการนี้รองรับไฟล์ฟอร์แมต JSON, BSON, CSV, TSV, Avro, และ Parquet โดยผู้ใช้ต้องให้สิทธิอ่านไฟล์กับใน bucket หรือ directory ของ S3 กับทาง MongoDB

ระบบภายในของ Data Lake จะสร้างเซิร์ฟเวอร์สำหรับประมวลผล (compute node) ใน region เดียวกับที่ข้อมูลวางอยู่เพื่อให้เกิดค่าใช้จ่ายต่ำสุด จากนั้นจะประมวลผลตามคำสั่งคิวรีที่ได้รับมาโดยอาจเปิดเซิร์ฟเวอร์ขึ้นมาหลายตัวเพื่อทำงานขนานกัน จากนั้นจะรวมเอาผลลัพธ์เข้าด้วยกัน

Tags:
Node Thumbnail

Google Cloud ประกาศเปิดตัวฟีเจอร์ BigQuery sandbox ระบบสำหรับทดสอบ BigQuery โดยไม่มีค่าใช้จ่าย และไม่ต้องใส่บัตรเครดิตด้วย เพื่อให้ผู้ใช้เรียนรู้ BigQuery ได้ง่ายขึ้นโดยไม่มีข้อจำกัดเรื่องค่าใช้จ่ายเข้ามา

แม้จะเปิดให้ใช้งานฟรี แต่ BigQuery sandbox ก็มีฟีเจอร์ทั่วไปเหมือนผู้ใช้จ่ายเงิน ไม่ว่าจะเป็นพลังในการประมวลผล, รันคำสั่ง query ด้วยภาษา SQL บน dataset ทั้งขนาดใหญ่และเล็ก, มี Data Studio ระบบ visualization ข้อมูลให้ใช้งาน และรองรับความสามารถใหม่ ๆ อย่างเช่น Machine Learning หรือ Geospatial Information Systems ด้วย

Tags:
Node Thumbnail

Google ประกาศเพิ่มฟีเจอร์ใหม่ให้ BigQuery ระบบ data warehouse บน Google Cloud Platform โดยมีฟีเจอร์ใหม่ที่สำคัญคือ รองรับข้อมูลสารสนเทศเชิงพื้นที่ (geospatial), โมเดลและฟังก์ชันใหม่บน BigQuery ML, การตั้งกำหนดเวลาการ query และอื่น ๆ

ฟีเจอร์แรกคือ BigQuery GIS เป็นการรองรับข้อมูลอิงตามลักษณะพื้นที่ (geospatial) โดยผู้ใช้สามารถวิเคราะห์ big data โดยใช้คำสั่ง SQL ปกติ โดยตัว BigQuery จะใช้ไลบรารีการคำนวณแบบเดียวกับที่ใช้ใน Earth Engine, Google Maps และ Google Earth จึงเหมาะกับการใช้งานกับข้อมูลปริมาณมาก

ตอนนี้ BigQuery GIS เปิดให้ใช้งานในแบบเบต้าแล้ว อ่านรายละเอียดเพิ่มเติมได้ที่ BigQuery GIS Documentation

Tags:
Node Thumbnail

Google ประกาศเพิ่มฟีเจอร์ใหม่ BigQuery ML โดยเป็นการนำฟีเจอร์ machine learning ใส่เข้าไปใน BigQuery ระบบฐานข้อมูลขนาดใหญ่ของ Google Cloud Platform และตอนนี้เริ่มเปิดให้ทดลองใช้งานแบบเบต้าแล้ว

การใส่ machine learning จะช่วยอำนวยความสะดวกให้ผู้ใช้งาน BigQuery สามารถสร้างโมเดล regression ทั้งแบบ linear และ logistic ได้จากในตัวฐานข้อมูลโดยตรง ไม่ต้องย้ายข้อมูลไปมา รวมถึงใช้โมเดลเพื่อทำนายได้เพียงแค่เขียน SQL เพิ่มอีกเล็กน้อยเท่านั้น

Tags:
Node Thumbnail

Microsoft ประกาศปรับปรุง Azure SQL Data Warehouse ระบบฐานข้อมูลบนคลาวด์สำหรับงานประเภทบิ๊กดาต้า โดยเน้นที่การปรับปรุงความเร็วในการ query โดยการใช้เทคโนโลยี instant data movement แบบใหม่ ซึ่งทำให้การ query เร็วขึ้นได้ 2 เท่า

ปกติแล้วเมื่อเรากระทำการ query ในรูปแบบใดก็ตาม หากตารางที่ต้องการอยู่ต่างโหนดกันก็ต้องย้ายข้อมูลไปมา ซึ่งอาจจะต้องใช้ Data Movement Service (DMS) คัดลอกข้อมูลออกจาก SQL Server Engine จากนั้นทำการแฮชและส่งไปยัง DMS บนโหนดอื่น ๆ ซึ่ง DMS จะคัดลอกข้อมูลไปยังตารางชั่วคราวโดยใช้ SQL Server BulkCopy API ซึ่งการอ่านข้อมูลออกมาจาก SQL Server นั้นเป็นแบบเทรดเดียวและทำให้เกิดคอขวดได้ง่าย

Tags:
Node Thumbnail

Larry Ellison ซีทีโอของ Oracle เปิดเผยรายละเอียดของฐานข้อมูลใหม่เวอร์ชัน 18c โดยจะใช้ machine learning เรียนรู้จากข้อมูลบันทึกที่เก็บไว้ และสามารถทำงานด้านการป้องกันข้อมูลผู้ใช้ รวมถึงการจัดการฐานข้อมูลได้อัตโนมัติ มีจุดประสงค์หลักเพื่อลดงานของผู้ดูแลระบบฐานข้อมูล เพื่อให้ไปทำงานในด้านอื่นแทนอย่างเช่นการวางแผนและความปลอดภัย

การใช้ machine learning ในฐานข้อมูลนั้น เพื่อเป็นการช่วยปรับปรุงประสิทธิภาพของฐานข้อมูลในงานที่ใช้บ่อย ๆ ผ่านการ caching, indexing และเทคนิคอื่น ๆ และเพื่อเป็นการป้องกันไม่ให้ใครที่ขโมย credential ไปเข้าถึงข้อมูลธุรกิจได้ และยังสามารถลดหรือเพิ่มการคำนวณหรือปริมาณข้อมูลที่ใช้ได้อัตโนมัติ

Tags:
Node Thumbnail

ทิศทางที่มาแรงในโลกเซิร์ฟเวอร์ช่วงหลัง คือการเก็บ-ประมวลผลข้อมูลขนาดใหญ่ หรือที่เรียกกันว่า big data ซึ่งซอฟต์แวร์ยอดนิยมตัวหนึ่งก็คือ Apache Hadoop ที่เขียนขึ้นมาตามแนวทาง MapReduce ของกูเกิล ปัจจุบันมีบริษัทใหญ่ๆ จำนวนมากใช้งาน Hadoop ในสภาพแวดล้อมจริง (ตัวอย่างเช่น Facebook)

Tags:
Node Thumbnail

ช่วงหลังธุรกิจจำนวนมากเริ่มมีการเก็บข้อมูลเพื่อทำ data mining กันมากขึ้นเรื่อยๆ โดยเฉพาะในสหรัฐฯ ที่มีการทำ data mining เพื่อทำตลาดกันเป็นเรื่องปรกติในทุกๆ ธุรกิจ รวมไปถึงตลาดยาที่มีกฏหมายให้บริษัทยาต้องเก็บข้อมูลใบสั่งยาเอาไว้ แต่บริษัทยากลับนำข้อมูลเหล่านี้ไปขายให้กับบริษัทรับทำ Data Mining เพื่อนำไปประมวลผล แล้วนำผลที่ได้กลับมาขายบริษัทยาอีกครั้งเพื่อนำไปทำตลาด

แต่ในปี 2007 รัฐ Vermont ก็ผ่านกฏหมายการทำ data mining ห้ามไม่ให้บริษัทยาขายข้อมูลใบจ่ายยาเหล่านี้ เว้นแต่จะได้รับการยินยอมจากคนไข้ ทำให้บริษัทรับทำ data mining เหล่านี้ต้องหยุดทำธุรกิจในรัฐ Vermont ทั้งหมดเพราะหากขออนุญาตจากคนไข้ ย่อมยากที่จะได้รับการยินยอม

Tags:
Node Thumbnail

ไอบีเอ็มเข้าซื้อบริษัท Netezza ผู้ผลิตซอฟต์แวร์ด้านคลังข้อมูล (data warehouse) และการวิเคราะห์ข้อมูลธุรกิจ (business analytics) หลังจากประกาศการเข้าซื้อครั้งนี้ตั้งแต่เดือนกันยายนที่ผ่านมา วันนี้ก็การซื้อขายก็สิ้นสุดลง

Netezza เป็นบริษัทที่มีสินค้าทับซ้อนกับไอบีเอ็มค่อนข้างมาก โดยสินค้าหลักของบริษัทคือแอพพลิแลนซ์ (appliance) สำหรับการทำคลังข้อมูลที่มีราคาถูกกว่าคู่แข่งรายอื่นๆ ขณะที่มันรองรับการขยายตัวของระบบได้ดี

ไอบีเอ็มระบุว่าบริษัทยังไม่ได้ตัดสินใจว่าจะทำอย่างไรกับเทคโนโลยีที่ได้รับมานี้ โดยอาจจะเป็นไปได้ทั้งการออกแอพพลิแลนซ์รุ่นใหม่ภายใต้แบรนด์ไอบีเอ็มเอง หรือนำซอฟต์แวร์ออกมารวมกับชุดซอฟต์แวร์อื่นๆ ของไอบีเอ็มเอง