Data Warehouse | Blognone

AWS เผยวิสัยทัศน์ Zero ETL ข้อมูลจาก Aurora ไหลเข้า Redshift อัตโนมัติ, รันคิวรี่ Spark บน Redshift ได้เลย

By: BlackMiracle

on 30 November 2022 - 15:51 Tags:

Topics:

วันนี้ที่งาน AWS re:Invent 2022 Adam Selipsky ซีอีโอของ AWS ได้พูดถึงแนวทางการจัดการข้อมูลที่น่าสนใจ คือ “Zero ETL” เขาบอกว่าลูกค้าต่างมีข้อมูลที่กระจัดกระจาย เช่นแอพดึงข้อมูลจาก database และดึงข้อมูลอีกส่วนจาก data lake ซึ่งการนำข้อมูลมาใช้ปกติต้องผ่านกระบวนการที่เรียกว่า ETL (Extract, Transform, Load) เพื่อให้ข้อมูลพร้อมใช้งาน และการทำ ETL ก็ใช้เวลาเยอะ แถมยังยากอีกด้วย

Adam ระบุว่า AWS พยายามออกบริการต่างๆ มาให้ลูกค้าเพื่อให้การทำ ETL นั้นง่ายที่สุด แต่อย่างไรก็ยังเสียเวลาอยู่ดี AWS จึงเลือกทางเดินสู่ Zero ETL หรือไม่มีการทำ ETL เลย ในการนี้จึงประกาศว่า Amazon Aurora กับ Amazon Redshift จะทำงานร่วมกันได้โดยไม่ต้องทำ ETL

Amazon เปิดตัว Redshift Serverless บริการ Data Warehouse คิดตามจำนวนการใช้งาน

By: mk

on 6 December 2021 - 11:11 Tags:

Topics:

นับจากการเปิดตัว AWS Lambda ในปี 2014 เราก็เห็น AWS ทยอยปรับบริการเดิมของตัวเองจากการเช่าเครื่องตามระยะเวลา มาเป็นการจ่ายตามการใช้งานรายครั้ง (Serverless) มากขึ้นเรื่อยๆ (ตัวก่อนหน้านี้คือฐานข้อมูล Aurora Serverless)

ปี 2021 เป็นคิวของ Amazon Redshift บริการ data warehouse ที่ออกเวอร์ชัน Serverless แล้ว ใช้ชื่อตรงไปตรงมาว่า Amazon Redshift Serverless

บริษัทฐานข้อมูล Snowflake ยื่นเอกสารเตรียมขายหุ้น IPO แล้ว

By: mk

on 25 August 2020 - 10:09 Tags:

Topics:

Snowflake Inc. บริษัทซอฟต์แวร์ data warehouse ชื่อดัง ยื่นเอกสารต่อคณะกรรมการกำกับหลักทรัพย์สหรัฐ (SEC) เพื่อเตรียมขายหุ้น IPO ในตลาดหลักทรัพย์นิวยอร์ก (NYSE) โดยใช้ตัวย่อว่า SNOW

Snowflake ก่อตั้งในปี 2012 โดยเป็นซอฟต์แวร์ด้านคลังข้อมูล (data warehouse) ที่รันบนคลาวด์เท่านั้น ใช้โมเดลรายได้แบบ subscription

การยื่นเอกสารของ Snowflake ทำให้เราเห็นข้อมูลการเงินของบริษัท มีรายได้ 97 ล้านดอลลาร์ในปี 2019 และเพิ่มอย่างก้าวกระโดดเป็น 264.7 ล้านดอลลาร์ในปี 2020 แต่บริษัทยังขาดทุนอยู่ โดยขาดทุน 178 ล้านดอลลาร์ในปี 2019 และขาดทุนเพิ่มขึ้นเป็น 348.5 ล้านดอลลาร์ในปี 2020

กรณีศึกษาย้ายคลาวด์ข้ามค่าย Discord ย้ายจาก Amazon Redshift ไป Google BigQuery

By: mk

on 8 March 2020 - 10:47 Tags:

Topics:

ประเด็นหนึ่งที่บริการคลาวด์ถูกโจมตีมาตลอดคือเรื่อง vendor lock-in หรือการถูกบังคับโดยอ้อมให้ต้องอยู่กับผู้ให้บริการคลาวด์เจ้านั้นตลอดไป เพราะการย้ายออกมีต้นทุนแฝงสูงมาก โดยเฉพาะบริการเฉพาะทางของผู้ให้บริการแต่ละราย (เช่น AI หรือ data) ที่ไม่ใช่บริการสามัญ (เช่น compute หรือ storage)

กรณีศึกษาล่าสุดมาจาก Discord แอพแชทยอดนิยมของวงการเกมเมอร์ ที่ระบุว่าย้ายระบบคลังข้อมูล (data warehouse) จากเดิมที่ใช้ Amazon Redshift มาเป็นบริการเทียบเคียงกันคือ BigQuery ของกูเกิล

หมายเหตุ: บทความนี้มาจากบล็อกของกูเกิล (เขียนโดยทีมงาน Discord ในฐานะลูกค้า GCP) ย่อมเชียร์บริการฝั่งกูเกิล แต่นำมาให้อ่านเพื่อเป็นกรณีศึกษาเรื่องการย้ายคลาวด์ข้ามค่าย

บริษัทฐานข้อมูล Snowflake ระดมทุนครั้งใหญ่ มูลค่าทะลุ 3.9 แสนล้านบาท, Salesforce ลงทุนด้วย

By: mk

on 9 February 2020 - 17:00 Tags:

Topics:

Snowflake บริษัทซอฟต์แวร์ data warehouse บนคลาวด์ที่กำลังมาแรง ประกาศระดมทุนรอบใหม่ 479 ล้านดอลลาร์ (ประมาณ 15,000 ล้านบาท) ทำให้บริษัทมีมูลค่า 12.4 พันล้านดอลลาร์ (3.9 แสนล้านบาท) เรียบร้อยแล้ว ถือเป็นสตาร์ตอัพสายองค์กรที่มีมูลค่าสูงเป็นอันดับต้นๆ ของวงการ

Snowflake ก่อตั้งในปี 2012 โดยผู้เชี่ยวชาญด้าน data warehouse จำนวน 3 คน (สองคนเคยทำงานกับ Oracle) บริษัทเรียกผลิตภัณฑ์ของตัวเองว่า Cloud Data Platform ที่ทำงานบนคลาวด์หลายยี่ห้อ (ปัจจุบันรองรับทั้ง AWS, Azure, GCP) และมีโมเดลคิดเงินแบบ as a service คือมีเฉพาะเวอร์ชันคลาวด์เท่านั้น จ่ายเท่าที่ใช้งานจริง และลดภาระการดูแลเซิร์ฟเวอร์ลง

MongoDB เปิดตัวบริการ Atlas Data Lake คิวรีตรงจาก AWS S3 คู่แข่ง AWS Athena

By: lew

on 19 June 2019 - 00:21 Tags:

Topics:

MongoDB

Cloud

Data Warehouse

MongoDB เปิดตัวบริการคลาวด์ Atlas Data Lake เป็นบริการล่าสุดในตระกูลบริคลาวด์ Atlas ของบริษัท จุดสำคัญคือการคิวรีข้อมูลตรงจาก AWS S3 ด้วย MongoDB Query Language เหมือนมีฐานข้อมูลอยู่

บริการนี้รองรับไฟล์ฟอร์แมต JSON, BSON, CSV, TSV, Avro, และ Parquet โดยผู้ใช้ต้องให้สิทธิอ่านไฟล์กับใน bucket หรือ directory ของ S3 กับทาง MongoDB

ระบบภายในของ Data Lake จะสร้างเซิร์ฟเวอร์สำหรับประมวลผล (compute node) ใน region เดียวกับที่ข้อมูลวางอยู่เพื่อให้เกิดค่าใช้จ่ายต่ำสุด จากนั้นจะประมวลผลตามคำสั่งคิวรีที่ได้รับมาโดยอาจเปิดเซิร์ฟเวอร์ขึ้นมาหลายตัวเพื่อทำงานขนานกัน จากนั้นจะรวมเอาผลลัพธ์เข้าด้วยกัน

Google เปิดตัว BigQuery sandbox ทดลองใช้ BigQuery ฟรี ไม่ต้องใส่บัตรเครดิต

By: nutmos

on 9 February 2019 - 10:18 Tags:

Topics:

Google Cloud ประกาศเปิดตัวฟีเจอร์ BigQuery sandbox ระบบสำหรับทดสอบ BigQuery โดยไม่มีค่าใช้จ่าย และไม่ต้องใส่บัตรเครดิตด้วย เพื่อให้ผู้ใช้เรียนรู้ BigQuery ได้ง่ายขึ้นโดยไม่มีข้อจำกัดเรื่องค่าใช้จ่ายเข้ามา

แม้จะเปิดให้ใช้งานฟรี แต่ BigQuery sandbox ก็มีฟีเจอร์ทั่วไปเหมือนผู้ใช้จ่ายเงิน ไม่ว่าจะเป็นพลังในการประมวลผล, รันคำสั่ง query ด้วยภาษา SQL บน dataset ทั้งขนาดใหญ่และเล็ก, มี Data Studio ระบบ visualization ข้อมูลให้ใช้งาน และรองรับความสามารถใหม่ ๆ อย่างเช่น Machine Learning หรือ Geospatial Information Systems ด้วย

Google BigQuery รองรับข้อมูลแบบ geospatial, โมเดลใหม่บน BigQuery ML

By: nutmos

on 15 October 2018 - 09:40 Tags:

Topics:

Google Cloud

BigQuery

Data Warehouse

Google ประกาศเพิ่มฟีเจอร์ใหม่ให้ BigQuery ระบบ data warehouse บน Google Cloud Platform โดยมีฟีเจอร์ใหม่ที่สำคัญคือ รองรับข้อมูลสารสนเทศเชิงพื้นที่ (geospatial), โมเดลและฟังก์ชันใหม่บน BigQuery ML, การตั้งกำหนดเวลาการ query และอื่น ๆ

ฟีเจอร์แรกคือ BigQuery GIS เป็นการรองรับข้อมูลอิงตามลักษณะพื้นที่ (geospatial) โดยผู้ใช้สามารถวิเคราะห์ big data โดยใช้คำสั่ง SQL ปกติ โดยตัว BigQuery จะใช้ไลบรารีการคำนวณแบบเดียวกับที่ใช้ใน Earth Engine, Google Maps และ Google Earth จึงเหมาะกับการใช้งานกับข้อมูลปริมาณมาก

ตอนนี้ BigQuery GIS เปิดให้ใช้งานในแบบเบต้าแล้ว อ่านรายละเอียดเพิ่มเติมได้ที่ BigQuery GIS Documentation

Google เพิ่มฟีเจอร์ให้ฐานข้อมูล BigQuery เทรนโมเดลด้วย machine learning ได้ในตัว

By: nutmos

on 25 July 2018 - 23:44 Tags:

Topics:

Google ประกาศเพิ่มฟีเจอร์ใหม่ BigQuery ML โดยเป็นการนำฟีเจอร์ machine learning ใส่เข้าไปใน BigQuery ระบบฐานข้อมูลขนาดใหญ่ของ Google Cloud Platform และตอนนี้เริ่มเปิดให้ทดลองใช้งานแบบเบต้าแล้ว

การใส่ machine learning จะช่วยอำนวยความสะดวกให้ผู้ใช้งาน BigQuery สามารถสร้างโมเดล regression ทั้งแบบ linear และ logistic ได้จากในตัวฐานข้อมูลโดยตรง ไม่ต้องย้ายข้อมูลไปมา รวมถึงใช้โมเดลเพื่อทำนายได้เพียงแค่เขียน SQL เพิ่มอีกเล็กน้อยเท่านั้น

Microsoft ปรับปรุง Azure SQL Data Warehouse สามารถ query ได้เร็วขึ้น 2 เท่า

By: nutmos

on 13 July 2018 - 19:31 Tags:

Topics:

Microsoft ประกาศปรับปรุง Azure SQL Data Warehouse ระบบฐานข้อมูลบนคลาวด์สำหรับงานประเภทบิ๊กดาต้า โดยเน้นที่การปรับปรุงความเร็วในการ query โดยการใช้เทคโนโลยี instant data movement แบบใหม่ ซึ่งทำให้การ query เร็วขึ้นได้ 2 เท่า

ปกติแล้วเมื่อเรากระทำการ query ในรูปแบบใดก็ตาม หากตารางที่ต้องการอยู่ต่างโหนดกันก็ต้องย้ายข้อมูลไปมา ซึ่งอาจจะต้องใช้ Data Movement Service (DMS) คัดลอกข้อมูลออกจาก SQL Server Engine จากนั้นทำการแฮชและส่งไปยัง DMS บนโหนดอื่น ๆ ซึ่ง DMS จะคัดลอกข้อมูลไปยังตารางชั่วคราวโดยใช้ SQL Server BulkCopy API ซึ่งการอ่านข้อมูลออกมาจาก SQL Server นั้นเป็นแบบเทรดเดียวและทำให้เกิดคอขวดได้ง่าย

Oracle เปิดตัวระบบฐานข้อมูลเวอร์ชัน 18c ใช้ machine learning จัดการฐานข้อมูล

By: nutmos

on 2 October 2017 - 12:45 Tags:

Topics:

Larry Ellison ซีทีโอของ Oracle เปิดเผยรายละเอียดของฐานข้อมูลใหม่เวอร์ชัน 18c โดยจะใช้ machine learning เรียนรู้จากข้อมูลบันทึกที่เก็บไว้ และสามารถทำงานด้านการป้องกันข้อมูลผู้ใช้ รวมถึงการจัดการฐานข้อมูลได้อัตโนมัติ มีจุดประสงค์หลักเพื่อลดงานของผู้ดูแลระบบฐานข้อมูล เพื่อให้ไปทำงานในด้านอื่นแทนอย่างเช่นการวางแผนและความปลอดภัย

การใช้ machine learning ในฐานข้อมูลนั้น เพื่อเป็นการช่วยปรับปรุงประสิทธิภาพของฐานข้อมูลในงานที่ใช้บ่อย ๆ ผ่านการ caching, indexing และเทคนิคอื่น ๆ และเพื่อเป็นการป้องกันไม่ให้ใครที่ขโมย credential ไปเข้าถึงข้อมูลธุรกิจได้ และยังสามารถลดหรือเพิ่มการคำนวณหรือปริมาณข้อมูลที่ใช้ได้อัตโนมัติ

Hadoop มาแรง ไมโครซอฟท์เตรียมออกตัวเชื่อมกับ SQL Server

By: mk

on 13 August 2011 - 19:01 Tags:

Topics:

High Performance Computing

ทิศทางที่มาแรงในโลกเซิร์ฟเวอร์ช่วงหลัง คือการเก็บ-ประมวลผลข้อมูลขนาดใหญ่ หรือที่เรียกกันว่า big data ซึ่งซอฟต์แวร์ยอดนิยมตัวหนึ่งก็คือ Apache Hadoop ที่เขียนขึ้นมาตามแนวทาง MapReduce ของกูเกิล ปัจจุบันมีบริษัทใหญ่ๆ จำนวนมากใช้งาน Hadoop ในสภาพแวดล้อมจริง (ตัวอย่างเช่น Facebook)

ศาลสูงสุดสหรัฐฯ เริ่มพิจารณาคดีบริษัททำ Data Mining ข้อมูลการจ่ายยาฟ้องยกเลิกกฏหมายปกป้องข้อมูล

By: lew

on 27 April 2011 - 10:48 Tags:

Topics:

ช่วงหลังธุรกิจจำนวนมากเริ่มมีการเก็บข้อมูลเพื่อทำ data mining กันมากขึ้นเรื่อยๆ โดยเฉพาะในสหรัฐฯ ที่มีการทำ data mining เพื่อทำตลาดกันเป็นเรื่องปรกติในทุกๆ ธุรกิจ รวมไปถึงตลาดยาที่มีกฏหมายให้บริษัทยาต้องเก็บข้อมูลใบสั่งยาเอาไว้ แต่บริษัทยากลับนำข้อมูลเหล่านี้ไปขายให้กับบริษัทรับทำ Data Mining เพื่อนำไปประมวลผล แล้วนำผลที่ได้กลับมาขายบริษัทยาอีกครั้งเพื่อนำไปทำตลาด

แต่ในปี 2007 รัฐ Vermont ก็ผ่านกฏหมายการทำ data mining ห้ามไม่ให้บริษัทยาขายข้อมูลใบจ่ายยาเหล่านี้ เว้นแต่จะได้รับการยินยอมจากคนไข้ ทำให้บริษัทรับทำ data mining เหล่านี้ต้องหยุดทำธุรกิจในรัฐ Vermont ทั้งหมดเพราะหากขออนุญาตจากคนไข้ ย่อมยากที่จะได้รับการยินยอม

IBM เข้าซื้อ Netezza เตรียมรวมเทคโนโลยีเข้ากลุ่ม InfoSphere

By: lew

on 15 November 2010 - 12:59 Tags:

Topics:

IBM

Enterprise

Data Warehouse

ไอบีเอ็มเข้าซื้อบริษัท Netezza ผู้ผลิตซอฟต์แวร์ด้านคลังข้อมูล (data warehouse) และการวิเคราะห์ข้อมูลธุรกิจ (business analytics) หลังจากประกาศการเข้าซื้อครั้งนี้ตั้งแต่เดือนกันยายนที่ผ่านมา วันนี้ก็การซื้อขายก็สิ้นสุดลง

Netezza เป็นบริษัทที่มีสินค้าทับซ้อนกับไอบีเอ็มค่อนข้างมาก โดยสินค้าหลักของบริษัทคือแอพพลิแลนซ์ (appliance) สำหรับการทำคลังข้อมูลที่มีราคาถูกกว่าคู่แข่งรายอื่นๆ ขณะที่มันรองรับการขยายตัวของระบบได้ดี

ไอบีเอ็มระบุว่าบริษัทยังไม่ได้ตัดสินใจว่าจะทำอย่างไรกับเทคโนโลยีที่ได้รับมานี้ โดยอาจจะเป็นไปได้ทั้งการออกแอพพลิแลนซ์รุ่นใหม่ภายใต้แบรนด์ไอบีเอ็มเอง หรือนำซอฟต์แวร์ออกมารวมกับชุดซอฟต์แวร์อื่นๆ ของไอบีเอ็มเอง

Main menu

AWS เผยวิสัยทัศน์ Zero ETL ข้อมูลจาก Aurora ไหลเข้า Redshift อัตโนมัติ, รันคิวรี่ Spark บน Redshift ได้เลย

Amazon เปิดตัว Redshift Serverless บริการ Data Warehouse คิดตามจำนวนการใช้งาน

บริษัทฐานข้อมูล Snowflake ยื่นเอกสารเตรียมขายหุ้น IPO แล้ว

กรณีศึกษาย้ายคลาวด์ข้ามค่าย Discord ย้ายจาก Amazon Redshift ไป Google BigQuery

บริษัทฐานข้อมูล Snowflake ระดมทุนครั้งใหญ่ มูลค่าทะลุ 3.9 แสนล้านบาท, Salesforce ลงทุนด้วย

MongoDB เปิดตัวบริการ Atlas Data Lake คิวรีตรงจาก AWS S3 คู่แข่ง AWS Athena

Google เปิดตัว BigQuery sandbox ทดลองใช้ BigQuery ฟรี ไม่ต้องใส่บัตรเครดิต

Google BigQuery รองรับข้อมูลแบบ geospatial, โมเดลใหม่บน BigQuery ML

Google เพิ่มฟีเจอร์ให้ฐานข้อมูล BigQuery เทรนโมเดลด้วย machine learning ได้ในตัว

Microsoft ปรับปรุง Azure SQL Data Warehouse สามารถ query ได้เร็วขึ้น 2 เท่า

Oracle เปิดตัวระบบฐานข้อมูลเวอร์ชัน 18c ใช้ machine learning จัดการฐานข้อมูล

Hadoop มาแรง ไมโครซอฟท์เตรียมออกตัวเชื่อมกับ SQL Server

ศาลสูงสุดสหรัฐฯ เริ่มพิจารณาคดีบริษัททำ Data Mining ข้อมูลการจ่ายยาฟ้องยกเลิกกฏหมายปกป้องข้อมูล

IBM เข้าซื้อ Netezza เตรียมรวมเทคโนโลยีเข้ากลุ่ม InfoSphere

Blognone Jobs Premium

About Blognone

Other Version

Copyright Notice

Main menu

You are here

sign in

Blognone Jobs Premium

About Blognone

Other Version

Copyright Notice