Tags:
Node Thumbnail

ทีมวิจัยจาก MIT สร้างโมเดล deep learning ที่ชื่อว่า PixelPlayer ที่สามารถแยกเสียงเครื่องดนตรีในเพลงออกมาทีละชิ้น เปิดทางให้เราสามารถปรับปรุงคุณภาพเพลงเก่าๆ ที่มิกซ์เสียงมาแล้วได้

PixelPlayer เป็นโมเดลที่ฝึกด้วยวิดีโอดนตรีนาน 60 ชั่วโมง ความพิเศษของโมเดลนี้คือมันดูภาพของเครื่อดนตรีไปด้วย และเมื่อมองพื้นที่ในภาพก็สามารถแยกเสียงที่เกี่ยวข้องในพื้นที่ตรงนั้นออกมาได้ ชุดข้อมูลที่ใช้ฝึกนั้นเรียกว่าชุดข้อมูล MUSIC (Multimodal Sources of Instrument Combinations) เป็นวิดีโอการโคฟเวอร์เพลง 714 รายการ โดยใช้เครื่องดนตรีชิ้นเดียวหรือคู่ (duet) ปรับอัตรา sampling เหลือ 11 kHz แล้วแปลงเป็นภาพ Time-Frequency ขนาด 256 x 256 เพื่อใช้ป้อนเข้าโมเดล deep learning ส่วนภาพวิดีโอปรับขนาดเหลือ 224 x 224 เพื่อป้อนเข้าโมเดลที่ดัดแปลงจาก ResNet-18

กระบวนการฝึกอาศัยการจับคู่วิดีโออย่างสุ่ม รวมถึงจับคู่วิดีโอกับความเงียบ (ใช้ภาพธรรมชาติแทนภาพวิดีโอ) ทำให้ได้วิดีโอที่มีเสียงเครื่องดนตรี 0-4 ชิ้น แล้วฝึกการแยกเสียงออกมาให้ตรงกับวิดีโอต้นฉบับ

แนวทางการเปิดให้โมเดล deep learning สามารถมองเห็นภาพเครื่องดนตรีเพื่อช่วยให้การแยกเสียงทำได้ดีขึ้นอาจเป็นแนวทางสำหรับการพัฒนาคอมพิวเตอร์เรียนรู้ได้ในอนาคต ที่คอมพิวเตอร์ไม่ต้องจำกัดตัวเองกับอินพุตเฉพาะทางเช่นเดิมอีกต่อไป แต่สามารถเรียนรู้และทำนายผลจากอินพุตที่หลากหลาย ในอนาคตคอมพิวเตอร์เมื่อเห็นวิดีโอก็อาจจะเข้าใจได้ทันทีว่าเสียงใดมาจากรถหรือสัตว์ตัวใดในภาพ

งานวิจัย The Sound of Pixels เตรียมนำเสนอในงาน European Conference on Computer Vision (ECCV) เดือนกันยายนนี้

ที่มา - MIT

No Description

Get latest news from Blognone

Comments

By: panurat2000
ContributorSymbianUbuntuIn Love
on 7 July 2018 - 19:27 #1059350
panurat2000's picture

มันดูภาพของเครื่อดนตรีไปด้วย

เครื่อดนตรี => เครื่องดนตรี

By: luna777
AndroidWindows
on 8 July 2018 - 20:26 #1059452

ถ้าเอามันมาฟังเมทัลคอร์ มันจะแยกเสียงได้ไหม

By: Greatpot
Windows PhoneWindows
on 9 July 2018 - 09:04 #1059510
Greatpot's picture

ถือเป็นจุดเริ่มต้นที่ดีครับ สุดยอดไปเลย :)