ในช่วงปีที่ผ่านมามีการสร้างโมเดล deep learning แบบ generative adversarial network (GAN) เพื่อ "สร้าง" ภาพหรือข้อมูลใหม่ขึ้นมาเรื่อยๆ โครงการที่สำคัญๆ เช่น deepfakes, งานวิจัยของ NVIDIA ที่สามารถเปลี่ยนฤดูในวิดีโอได้ ตอนนี้งานวิจัยล่าสุดก็เริ่มศึกษาความเป็นไปได้ของการสร้างภาพระดับสายตา จากภาพถ่ายทางอากาศ โดยทีมวิจัยจาก University of California, Merced
ข้อมูลที่ใช้ฝึกเป็นแผนที่จากชุดข้อมูล LCM2015 และใช้ภาพระดับสายตาจาก Geograph API รวม 16,000 ภาพ
ทีมวิจัยจาก MIT สร้างโมเดล deep learning ที่ชื่อว่า PixelPlayer ที่สามารถแยกเสียงเครื่องดนตรีในเพลงออกมาทีละชิ้น เปิดทางให้เราสามารถปรับปรุงคุณภาพเพลงเก่าๆ ที่มิกซ์เสียงมาแล้วได้
NVIDIA สร้างโมเดล deep learning ที่สามารถเติมเฟรมให้กับวิดีโอจนกลายเป็นวิดีโอสโลโมชั่น เปิดทางการอัดวิดิโอธรรมดาแล้วมาสร้างเป็นวิดิโดสโลโมชั่นภายหลัง โดยไม่ต้องเสียพื้นที่จัดเก็บวิดีโอขนาดใหญ่
ข้อมูลเริ่มต้นใช้วิดีโอที่อัดมาที่ 240 เฟรมต่อวินาที จำนวน 11,000 ชุด มาฝึก
โมเดลของ NVIDIA มีจุดเด่นคือสามารถสร้างเฟรมแทรกกลางระหว่างเฟรมได้จำนวนมากๆ ทำให้สามารถทำให้วิดีโอช้าลง จาก 30 เฟรมต่อวินาทีกลายเป็นช้าลง 8 เท่าเป็น 240 เฟรมต่อวินาทีได้เลย
ที่มา - NVIDIA
ช่วงต้นเดือนพฤษภาคมที่ผ่านมา Google ได้โชว์ผลงานวิจัยพัฒนาหลายอย่างในงาน Google I/O 2018 ซึ่งหนึ่งในนั้นก็คืองานพัฒนาปัญญาประดิษฐ์โดยใช้ Deep Learning สร้างโมเดลเพื่อการทำนายว่าผู้ป่วยจะเสียชีวิตในเวลาใด โดยอาศัยข้อมูลต่างๆ ของร่างกายผู้ป่วยมาใช้ในการวิเคราะห์ ทั้งนี้จากการทดสอบในหลายโอกาสพบว่าการทำนายมีความแม่นยำสูงกว่า 90% ซึ่งตอนนี้ Google ก็ได้เปิดเผยเอกสารงานวิจัยผ่านทาง Nature ให้คนที่สนใจเข้าไปดูรายละเอียดเพิ่มเติมได้แล้ว
ในการทดลองนี้ได้ใช้ neural networks แบบ LSTM มาเรียนรู้แบบจำลองภาษาระดับอักขระจากวรรณคดีเรื่องพระอภัยมณีที่มีประมาณสองล้านตัวอักษร โดยเมื่อเรียนรู้แล้วแบบจำลองภาษาให้ค่า bit per character ในชุดข้อมูลทดสอบเท่ากับ 2.0631
เมื่อให้แบบจำลองนี้ทำการผลิตลำดับของตัวอักษรตามความน่าจะเป็นที่ได้จากการเรียนรู้มา พบว่าผลลัพธ์ที่ได้มีความละม้ายคล้ายคลึงกับบทกลอนที่อยู่ในวรรณคดีเรื่องพระอภัยมณีอยู่พอสมควร ในด้านฉันทลักษณ์มีการจัดวรรคตอนได้ถูกต้อง จำนวนพยางค์ในแต่ละวรรคตรงตามข้อกำหนด และมีสัมผัสใน
Facebook เผยแพร่งานวิจัย ของระบบในการแก้ไขภาพถ่าย ที่ผู้ถูกถ่ายภาพเผลอหลับตา โดยสามารถเติมดวงตาเข้าไปได้ด้วย AI อาศัยข้อมูลพื้นฐานจากภาพถ่ายอื่นประกอบ ซึ่งแตกต่างจากงานแก้ไขภาพแบบอื่น ที่มักอาศัยองค์ประกอบโดยรอบในภาพ แต่หากคนในภาพหลับตาแล้ว ก็จำเป็นต้องใช้ข้อมูลอดีตมาช่วย
วิธีการแก้ไขภาพนี้อาศัยเครือข่ายแบบ Generative Adversarial Networks (GAN) ทำให้เรียนรู้ได้ว่าดวงตาที่ควรนำไปใส่ในภาพที่ต้องการแก้ไข เป็นของใคร และควรปรับสี และรูปทรงให้เข้าภาพนั้นอย่างไร
Google Translate ประกาศอัพเดต โดยเพิ่มการแปลภาษาแบบออฟไลน์สำหรับแอปมือถือด้วย Neural Machine Translation ใน 59 ภาษา ที่ทำให้การแปลระดับประโยคถูกต้องมากขึ้น (จากที่แปลเป็นคำ) ซึ่งปัจจุบันวิธีการนี้มีใช้แล้วอยู่ในแบบออนไลน์ แต่ในระดับออฟไลน์ยังไม่มี
The Linux Foundation มูลนิธิผู้ดูแลเคอร์เนลลินุกซ์เปิดตัวโครงการย่อย LF Deep Learning Foundation สำหรับดูแลโครงการทางด้านปัญญาประดิษฐ์, คอมพิวเตอร์เรียนรู้ได้ (machine learning), และ deep learning
ช่วงหลังๆ Linux Foundation เปิดโครงการย่อยมาดูแลโครงการกลุ่มต่างๆ อยู่เรื่อยๆ เช่นโครงการ Hyperledger ที่ดูแลโครงการด้านบล็อคเชน, โครงการ Let's Encrypt หรือ Node.js ก็เป็นโครงการภายใต้มูลนิธิเช่นกัน
ตอนนี้ยังไม่มีโครงการใดเข้ามาอยู่ใต้ LF Deep Learning Foundation อย่างเป็นทางการ
ก่อนหน้านี้ ทีม DeepMind ของกูเกิลประกาศสร้าง AI ด้านวิดีโอเกม (ร่วมมือกับ Blizzard) ล่าสุดมีงานวิจัยชิ้นหนึ่งของ DeepMind เผยแพร่ออกมา แสดงให้เห็นแนวทางบางอย่างแล้ว
ช่วงหลังงานวิจัยด้าน Deep Learning เริ่มมาในทาง reinforcement learning หรือการให้ AI หัดเรียนรู้ด้วยตัวเอง (จากข่าว AlphaGo Zero ที่หัดเล่นโกะเองโดยไม่ต้องพึ่งพามนุษย์) รายละเอียดของเทคนิคนี้คือ ผู้สร้าง AI จะต้องสร้างระบบแรงจูงใจ (reward) เพื่อชักจูงให้ AI ให้ลองทำในสิ่งที่สอดคล้องกับกฎของเกม และ AI จะค่อยๆ ลองผิดลองถูกไปเรื่อยๆ จนเอาชนะเกมนั้นได้สำเร็จ
หัวข้อหนึ่งที่น่าสนใจในงาน Google I/O 2018 คือ TensorFlow Lite เอนจินสำหรับประมวลผล deep learning ในอุปกรณ์พกพา ที่ทำงานได้ทั้งบน Android, iOS และลินุกซ์
กูเกิลเปิดตัว TensorFlow Lite ตั้งแต่งาน I/O ปี 2017 แต่ตอนนั้นยังไม่ค่อยมีใครเห็นภาพมากนักว่ามันคืออะไร เป้าหมายมีไว้ทำไม แต่เมื่อเวลาผ่านมาอีก 1 ปี ความชัดเจนก็เริ่มตามมา
Waymo บริษัทลูกของ Alphabet ขึ้นนำเสนอในงาน Google I/O เป็นครั้งแรก โดยย้ำว่าจะเปิดบริการจริงภายในปี 2018 นี้
สิ่งที่น่าสนใจคือ Waymo เล่าว่าพัฒนาอัลกอริทึมของตัวเองได้อย่างรวดเร็ว เพราะได้หน่วยงานอื่นภายในกูเกิลช่วยสนับสนุน ตั้งแต่ได้ทีม Google Brain ร่วมพัฒนาระบบ AI ช่วยให้ตรวจจับคนข้ามถนนได้ดีขึ้นถึง 100 เท่าจากเดิม, ใช้หน่วยประมวลผล TPU ของกูเกิลช่วยให้ประมวลผลได้เร็วขึ้น 15 เท่า, สามารถรันซิมูเลชันจากข้อมูลของตัวเอง ได้ผลเทียบเท่ากับการใช้รถยนต์วิ่งจริง 25,000 คันต่อวัน
สถาบัน MIT เปิดเนื้อหาวิชา "6.S191: Introduction to Deep Learning" เรียนรู้การสร้างซอฟต์แวร์แบบ machine learning ด้วยเทคนิค deep learning เบื้องต้น ให้คนทั่วไปเข้าถึงได้ฟรี โดยเปิดเผยทั้งวิดีโอเลคเชอร์, สไลด์เนื้อหา และที่แล็บสำหรับฝึกการใช้งาน TensorFlow เบื้องต้น
กูเกิลเปิดตัว AutoML มาตั้งแต่งาน Google I/O ปีที่แล้ว และเปิดเป็นบริการ Cloud AutoML ในภายหลัง โดยที่ยังไม่มีใครรู้ถึงศักยภาพของมันนัก แต่ล่าสุดกูเกิลก็ยกตัวอย่างงานของ Kenji Doi นักวิทยาศาสตร์ข้อมูลจากบริษัท NTT ที่สร้างโมเดล deep learning สำหรับแยก "สาขา" ของร้าน Jiro Ramen ในญี่ปุ่นที่มีถึง 41 สาขาทั่วประเทศ
เขาดูดภาพจาก Twitter และ Instagram สร้างชุดข้อมูลชุดแรก 33,130 ภาพ โดย ไม่มีข้อมูลว่าเขาสร้างชุดข้อมูลที่เหลืออย่างไร
NVIDIA เปิดตัวเซิร์ฟเวอร์ DGX-2 สำหรับงาน deep learning โดยเฉพาะ โดยภายในเซิร์ฟเวอร์เป็นการ์ด Tesla V100 รุ่นแรม 32GB สูงสุด 16 ชุด เชื่อมต่อกันด้วย NVIDIA NVSwitch อัตราการส่งต่อข้อมูล 2.4TB/s
พลังประมวลผลรวมของ DGX-2 สูงกว่า 2 petaFLOPS (สำหรับงาน deep learning ที่ precision ต่ำ) แรมของชิปกราฟิกทั้ง 16 ชุดจะมองเป็น memory space เดียวกันรวม 512GB ตัวซีพียูหลักใช้ Xeon Platinum สองชุด หน่วยความจำหลัก 1.5TB และ NVMe SSD อีก 30TB
หน่วยความจำขนาดใหญ่เปิดทางให้สามารถฝึกโมเดลสำหรับภาพความละเอียดสูง เช่น ResNet-152 สำหรับภาพขนาดใหญ่ หรือโหลดโมเดล FAIRSeq lสำหรับการแปลภาษาขึ้นไปไว้บนหน่วยความจำทั้งหมด ทำให้ลดเวลาการฝึกโมเดลลงมาก โดยใช้เวลาเพียง 2 วัน จากเดิมใช้มากกว่านี้สิบเท่า
ปัญหาการโกงเกมทำให้เกมดีๆ หลายเกมกลายเป็นเกมน่าเบื่อเพราะไม่สามารถจัดการคนโกงได้ เกมที่มีผู้เล่นจำนวนมากอย่าง CS:GO ก็ติดปัญหานี้มายาวนาน แต่ทาง Valve ก็ออกมาเปิดเผยปัญญาประดิษฐ์ที่ใช้สำหรับการจัดการผู้เล่นโกงในช่วงหลัง ในชื่อว่า VACnet
VACnet เป็นเครือข่ายนิวรอนแบบ deep learning ที่จับพฤติกรรมการโกงเกม โดยจับพฤติกรรมเฉพาะบอตสำหรับช่วยเล็ง (aim bot) ทำให้สามารถจำกัดข้อมูลสำหรับป้อนให้ deep learning ได้
ข้อมูลที่ป้อนให้ VACnet คือความเคลื่อนไหวของการเล็ง 0.5 วินาทีก่อนยิง ว่ามีการเคลื่อนไหว x,y อย่างไรบ้าง และผลของการยิงว่าเป็นอย่างไร เข้าเป้า, พลาด, หรือยิงถูกหัว (headshot) ข้อมูลถูกรวมกันเป็นชุด 140 ชุด เพื่อจับว่าผู้เล่นคนหนึ่งเป็นคนโกงหรือไม่
IBM เปิดตัวบริการใหม่ Deep Learning as a Service หรือ DLaaS ภายใต้บริการ Watson Studio ซึ่งเป็นโซลูชั่นช่วยในการจัดการ workflow ของ machine learning และเทรนโมเดล
ไอเดียของ DLaaS ของ IBM คือการเน้นช่วยภาคธุรกิจในการทำเครื่องมือ machine learning ได้ง่ายขึ้น โดยมีเครื่องมือให้นักพัฒนาสามารถสร้างโมเดลจากโอเพ่นซอร์สเฟรมเวิร์ค deep learning ที่เคยใช้ (เช่น TensorFlow, PyTorch) โดยเครื่องมือเหล่านี้เป็นเซอร์วิสแบบ cloud-native รวมถึงนักพัฒนาสามารถใช้ Rest API มาตรฐานสำหรับการเทรนโมเดลได้ด้วยทรัพยากรที่ต้องการ รวมถึงอินเตอร์เฟสก็มีหลากหลายรูปแบบให้เลือกใช้งานตามความถนัด ซึ่งคนที่ไม่ถนัดการโค้ดสามารถใช้ Neural Network Modeler ลากวางได้เลย ระบบหลังบ้านจะจัดการโค้ดให้เอง
สวัสดีครับ ผมเป็นนักเรียน MBA อยู่ที่ University of Michigan พอดีได้มีโอกาสมาร่วมโครงการฝึกงานสั้นๆ ที่เมืองซีแอตเทิล เลยถือโอกาสแวะร้าน Amazon Go ร้านสะดวกซื้อไร้แคชเชียร์ที่เพิ่งเปิดตัวสู่สาธารณะเมื่อเดือนมกราคม 2018 และเก็บบรรยากาศมาให้ชมครับ
ตัวร้านตั้งอยู่ใจกลางเมืองซีแอตเทิล ใกล้กับอาคาร Amazon Day 1 และอาคาร The Spheres สามารถค้นหาใน Google Maps เดินทางและหาไม่ยาก
ปัญหา deep learning อย่างหนึ่งที่มีการพัฒนามายาวนานคือการแบ่งส่วนภาพระดับพิกเซล หรือปัญหา segmentation ที่ทำให้เราสามารถแยกภาพคนหรือวัตถุออกจากพื้นหลังได้โดยไม่ต้องอาศัยมือกราฟิกมาทำไดคัต ในกูเกิลเองก็มีพัฒนาโมเดล deep learning ที่ชื่อว่า DeepLab มาตั้งแต่ปี 2015 และตอนนี้ก็ปล่อยเวอร์ชั่น v3+ ที่พัฒนาความแม่นยำค่า IoU (intersection over union) เฉลี่ยไปถึงระดับ 89% เมื่อทดสอบด้วยชุดข้อมูล PASCAL VOC 2012 นับว่าดีที่สุดในตอนนี้
DeepLab-v3+ พัฒนาความแม่นยำเพิ่มจาก DeepLab-v3 ที่ออกมาเมื่อปีที่แล้วอย่างมีนัยสำคัญ (v3 ทำค่า mIoU ได้ 86.9%) ด้วยการเพิ่มโมดูล decoder ที่ไม่ซับซ้อนนัก แต่กลับสามารถทำให้ความแม่นยำรวมเพิ่มขึ้นได้มาก
หลังจากผู้ใช้ Reddit ที่ใช้ชื่อ deepfakes เริ่มเผยแพร่วิดีโอโป๊ปลอมที่เริ่มสมจริงจากการใช้ deep learning วางภาพใบหน้าดาราลงไปบนวิดีโอโป๊ จนกระทั่งมีคนทำแอปให้คนอื่นๆ ไปทำวิดีโอปลอมเองได้ แม้เว็บจำนวนมากทั้งเว็บโป๊และเว็บทั่วไปที่ยอมรับเนื้อหาสำหรับผู้ใหญ่จะออกมาประกาศแบนวิดีโอปลอมเหล่านี้ แต่การระบาดก็ดูจะหนักขึ้นเรื่อยๆ
เว็บ The Register ทดลองหาคำว่า "Deepfake" บน Pornhub ที่เคยประกาศแบนวิดีโอเหล่านี้แต่ก็พบว่ายังหาวิดีโอปลอมได้ทั่วไป เพราะกระบวนการของ Pornhub คือการรอคนรายงานก่อน เช่นเดียวกับกระบวนการลบเนื้อหาอื่นๆ
Pornhub เผยจะลบ deepfakes วิดีโอโป๊ที่สร้างขึ้นใหม่โดยใช้ Deep Learning สลับเอาใบหน้าคนอื่นมาตัดต่อ ด้วยเหตุผลละเมิดกฎของแพลตฟอร์มว่าด้วยเป็นเนื้อหาที่เกิดจากความไม่สมัครใจของทั้งสองฝ่าย (nonconsensual porn) ประกาศลั่นถ้าตรวจเจอจะลบออกจากแพลตฟอร์มทันที
เว็บไซต์ Motherboard คือผู้ที่เคยรายงานข่าว deepfakes มาก่อนหน้านี้ และดาราสาวที่ตกเป็นเหยื่อตัดต่อครั้งนั้นคือ Gal Gadot นางเอก Wonder Woman โดย Motherboard ระบุว่ายังสามารถค้นหาวิดีโอโป๊ที่ตัดต่อเอาใบหน้าคนอื่นมาใส่ใน Pornhub ได้ โดยค้นหาคำว่า deepfakes ก็จะเจอในจำนวนหนึ่ง ซึ่งแถลงการณ์จาก Pornhub ระบุว่าต้องรอให้ผู้ใช้เป็นคนแจ้งหรือรีพอร์ตเข้ามาถึงจะดำเนินการลบได้
เมื่อปลายปีที่ผ่านมาวิดีโอโป๊ปลอมที่มีคนนำหน้าของ Gal Gadot ไปแปะกับวิดีโอโป๊ทำให้โดยใช้ deep learning ทำให้เริ่มทำได้สมจริง ตอนนี้ผู้ใช้ Reddit ที่ชื่อ deepfakeapp ก็เปิดให้ดาวน์โหลดแอปพร้อมหน้าจอ GUI สำหรับการวางใบหน้าคนเป้าหมายลงบนวิดีโอใดๆ
deepfakeapp ระบุว่าโมเดล deeplearning ที่ใช้เป็นโมเดลเดียวกับที่ deepfakes ใช้สร้างวิดีโอ Gal Gadot เมื่อปีที่แล้ว
เมื่อปลายปีที่แล้วไมโครซอฟท์ออกอัพเดตให้กับ Microsoft Pix แอพถ่ายภาพบน iOS ที่ใช้พลัง AI ช่วยคำนวณ, คาดเดาและปรับแต่งให้ได้ภาพและวิดีโอที่ออกมาสวยโดยอัตโนมัติ โดยในครั้งนี้ได้เพิ่มลูกเล่นใหม่เข้ามาถึงสองอย่าง
อย่างแรกคือฟีเจอร์ถ่ายภาพพาโนรามาด้วยเทคนิค Photosynth (ซึ่งมาจากการหยิบยืมเทคโนโลยีจากแอพและเว็บ Photosynth เดิมที่หยุดให้บริการไปแล้วมาพัฒนาต่อ) ช่วยให้ได้ภาพในมุมที่กว้างกว่าเดิมทั้งในแนวตั้งและแนวนอน โดยในขณะถ่ายภาพผู้ใช้จะสามารถเอียงกล้องขึ้นบนลงล่าง, เอียงซ้ายเอียงขวา เพื่อขยายมุมมองของภาพได้อย่างอิสระ
เมื่อเดือน พ.ย. ปีที่แล้ว ซัมซุงเปิดตัว Exynos 9810 สำหรับ Galaxy S9 แต่ยังไม่เผยรายละเอียดทางเทคนิคมากนัก คราวนี้ในงาน CES 2018 ก็มีรายละเอียดเพิ่มเติมออกมาดังนี้
NVIDIA ปรับสัญญาอนุญาตของไดร์เวอร์การ์ดกราฟิกตระกูล GeForce อย่างเงียบๆ โดยเพิ่มเงื่อนไขห้ามใช้งานในศูนย์ข้อมูล ยกเว้นการประมวลผลบล็อคเชน
ผู้ที่ได้รับผลกระทบจากการปรับเช่นนี้คงเป็นผู้ที่ใช้การ์ดกราฟิกตระกูล GeForce มาประมวลผลสำหรับงานปัญญาประดิษฐ์ หรืองานจำลองระบบที่ต้องการการประมวลผลสูงๆ แต่ไม่ต้องการใช้การ์ดประมวลผลเฉพาะอย่าง Tesla
ปัญญาประดิษฐ์ในช่วงหลังๆ เริ่มมุ่งปัญหาใหม่ๆ ที่เครือข่ายแบบเดิมๆ แก้ไขไม่ได้ เช่น กระบวนการเพิ่มความละเอียดภาพ, สร้างภาพจากคำบอกเล่า, ไปจนถึงการเปลี่ยนฤดูกาลในภาพถ่าย แนวทางเช่นนี้ทำให้เครือข่ายประเภท Generative Adversarial Networks (GANs) ได้รับความนิยมขึ้นมา ตอนนี้กูเกิลก็เพิ่มไลบรารี TFGAN เพื่อการพัฒนาเครือข่าย GAN บน Tensorflow เข้ามาแล้ว
ไลบรารีมาพร้อมตัวอย่าง และ Python notebook สำหรับฝึกการสร้างภาพเลข 0-9 ตามลายมือคนจากชุดข้อมูล MNIST