กูเกิลสร้างปัญญาประดิษฐ์แปลงวิดีโอเป็นสามมิติด้วยคลิปไวรัลบน YouTube

By lew

on 28 May 2019 - 20:06 Tag: Artificial Intelligence, Google, Research

Artificial Intelligence

โลกเครือข่ายสังคมออนไลน์มักมีการทำอะไรตามๆ กันเป็นระยะ เช่น การเต้นโคฟเวอร์เพลง Gangnam Style, หรือการท้า Ice Bucket Challenge เป็นต้น งานวิจัยล่าสุดของกูเกิลสามารถสร้างชุดข้อมูลจากการท้ากันเช่นนี้ ทำให้ได้โมเดลแปลงวิดีโอเป็นวิดีโอสามมิติที่มีความแม่นยำสูง

ทีมวิจัยของกูเกิลอาศัยวิดีโอ Mannequin Challenge ที่กลุ่มคนพยายามรวมตัวกันจำลองว่าตัวเองเป็นหุ่น (mannequin) แล้วเคลื่อนกล้องไปเรื่อยๆ โดยทีมวิจัยพบว่าวิดีโอเหล่านี้สามารถแปลงเป็นภาพสามมิติได้โดยง่ายด้วยเทคนิค multi-view-stereo (MVS) ที่ใช้ภาพหลายภาพมาสร้างภาพสามมิติ ทีมงานพบวิดีโอกลุ่มนี้บน YouTube กว่าสองพันรายการ ทำให้ได้ภาพของคนทำท่าทางต่างๆ อย่างครบถ้วน

เมื่อต้องการสร้างวิดีโอสามมิติ ทีมวิจัยอาศัยการแยกฉากหลังออกจากคนในภาพ แล้วคำนวณภาพสามมิติจากความเคลื่อนไหวของกล้องโดยตรง ขณะที่ตัวโมเดลปัญญาประดิษฐ์นั้นใช้ทำนายความลึกของคนในภาพเพียงอย่างเดียว โดยคาดเดาจากขนาดตัวของมนุษย์ที่ประมาณได้อยู่แล้ว แล้วค่อยนำมารวมกันภายหลัง แนวทางนี้ทำให้ได้ภาพความลึก (depth value) ที่คุณภาพดี

งานวิจัยนี้ทำให้สามารถสร้างวิดีโอสามมิติจากวิดีโอที่ทั้งตัวแบบที่เป็นมนุษย์กำลังขยับตัวและกล้องก็ขยับไปพร้อมกัน

กูเกิลสร้างปัญญาประดิษฐ์แปลงวิดีโอเป็นสามมิติด้วยคลิปไวรัลบน YouTube

Hiring! บริษัทที่น่าสนใจ