ทีมวิจัยจากมหาวิทยาลัย Erlangen-Nuremberg ในเยอรมนีรายงานถึงงานวิจัย ADOP ระบบเรนเดอร์ภาพหลากหลายมุมมองทำให้กล้องสามารถเคลื่อนไปมารอบวัตถุได้อย่างสมจริง
ADOP อาศัยภาพเริ่มต้น, จุดสามมิติของภาพ (point cloud), รุ่นกล้องถ่ายภาพ, และตำแหน่งของกล้องเพื่อสร้างภาพ โดยโมเดลปัญญาประดิษฐ์รับอินพุตเป็นภาพจากกล้องวิดีโอของวัตถุแต่ละชิ้นที่กำลังสร้างภาพสามมิติ จำนวนประมาณ 300-350 ภาพ โดยเก็บภาพไว้ 5% สำหรับการทดสอบระบบ จากนั้นนำภาพไปสร้าง point cloud จำนวนประมาณ 8-12 ล้านจุด
โมเดลปัญญาประดิษฐ์จะให้ภาพแบบ HDR ออกมาก่อน จากนั้นระบบจะนำไปปรับสีด้วย tone mapper เพื่อให้ภาพสมจริงยิ่งขึ้น เนื่องจากภาพที่สร้างขึ้นเป็น HDR จึงสามารถนำไปสร้างภาพมุมมองเดียวกับภาพต้นฉบับแต่ปรับแต่งสีให้สวยกว่าภาพที่ใช้ฝึกเสียอีก
ทีมวิจัยระบุว่าจะเปิดซอร์สโค้ดของ ADOP ทั้งหมดเข้า GitHub หลังจากรายงานวิจัยนี้ได้รับตีพิมพ์แล้ว
ที่มา - ADOP: Approximate Differentiable One-Pixel Point Rendering
Comments
งานวิจัยนี้เอาไปทำประโยชน์ได้อีกเยอะเลยนะเนี่ย ถ้าสมบูรณ์โลกของ AR/VR ก็จะใกล้เคียงความจริงมากยิ่งขึ้นในเร็ววัน มันจะทำให้ consumer สามารถสร้างโลก AR/VR ได้ด้วยตัวเองแทนที่จะต้องรอบริษัทผู้ผลิต
300ภาพ น่าจะยังเยอะอยู่ สำหรับการถ่ายด้วยมือ
VDO ไงครับ แล้ว extract เอา frame ออกมาเป็นภาพ 300 ภาพผมว่าสบาย แค่ VDO ไฟล์เดียว ถ่ายรอบวัตถุ แล้วสร้างซอฟต์แวร์สำหรับเลือกมุมมองภาพ extract ออกมาเป็นภาพเข้า model เพื่อ train ต่อ
แต่เฟรมวีดีโอไม่มีเก็บข้อมูลพวกlatitude, longitude ทิศทางที่กล้องหัน ระยะจากวัตถุ นะครับ
ผมไม่เฉลยแล้วกันลองเอาไปคิดต่อ ว่าพื้นฐานของงาน VDO คืออะไร ? เราดึงเฟรมภาพระหว่างถ่ายทำได้ไหม? เรา run process คู่ขนานเพื่อหาข้อมูลที่คุณกล่าวมา และจับคู่กับภาพในช่วงเวลาเดียวกันได้หรือไม่ ? เราบันทึกลง metadata ของ shot ภาพที่ดึงลงมาได้ไหม ? อ่อ hw ปัจจุบันของอุปกรณ์พกพามีความสามารถทำงานที่กล่าวมาทั้งหมดได้หรือไม่ ? ถ้าคุณบอกว่าทำได้ทั้งหมด คุณก็กำลังก้าวคู่ไปข้างหน้ากับนักวิจัยต่างชาติได้ ผมว่ามีคนทำได้น่า
แต่300ภาพได้ผลลัพธ์ออกมาคุ้มค่ากับการถ่ายอยู่นะครับ กับวัตถุสิ่งก่อสร้างที่ใช้เครื่องสแกนไม่ได้
คล้าย Photosynth เลย
โหดมาก พัฒนาไปเรื่อย ๆ จริง ๆ เทคโนโลยีด้านนี้
เทคโนโลยีไม่ผิด คนใช้มันในทางที่ผิดนั่นแหละที่ผิด!?!