Tags:
Node Thumbnail

งานพัฒนาปัญญาประดิษฐ์ใหม่ของ Google เกี่ยวกับการวิเคราะห์เสียงก้าวล้ำไปอีกระดับ เมื่อมันสามารถแยกแยะเสียงพูดของคนได้ แม้ว่าคนผู้นั้นจะกำลังพูดพร้อมกับคนอื่นจนแม้แต่คนธรรมดายังฟังเนื้อหาจับใจความได้ยาก และแน่นอนว่าในบรรดา 2 คน เจ้าของ 2 เสียงที่พูดแข่งกันอยู่นั้น ปัญญาประดิษฐ์ของ Google สามารถแยกแยะเสียงพูดออกมาได้แบบรายคนอย่างชัดเจน

อันที่จริงงานวิจัยนี้ จำกัดว่าปัญญาประดิษฐ์จะต้องไม่เพียง "ได้ยินเสียง" แต่มันจะต้อง "มองเห็น" คนที่กำลังพูดด้วย เพราะมันใช้การวิเคราะห์ภาพควบคู่ไปกับการวิเคราะห์เสียง

วิธีนี้ก็เป็นแบบเดียวกันกับเวลาที่เราพยายามจะฟังว่าเพื่อนของเรากำลังพูดอะไรกลางงานแสดงดนตรีเสียงอึกทึก หรือริมถนนที่รถวิ่งไปมาส่งเสียงดัง เพราะเราจะพยายามมองปากว่าเพื่อนกำลังพูดอะไร ปัญญาประดิษฐ์ของ Google ก็ใช้การมองภาพของผู้พูดเช่นกัน เพื่อวิเคราะห์ว่าจากหลายเสียงที่ตีกันอีรุงตุงนังนั้น ใครเป็นเจ้าของเสียงไหน และกำลังพูดว่าอะไร

No Description

การเรียนรู้ว่าใครขยับปากแบบไหน น่าจะเป็นการเปล่งเสียงอย่างไร นำมาสู่ความสามารถในการแยกแยะเสียงพูดของคนหลายคนออกมาได้ แน่นอนว่าการใช้งานเพื่อตัดเสียงรบกวนออกจากวิดีโอที่บันทึกไว้ก็ย่อมทำได้เช่นกัน

ความสามารถในการตัดเสียงรบกวนนี้คล้ายคลึงกับระบบ noise cancelling ของหูฟังหรือโทรศัพท์หลายรุ่น หากแต่หลักการของมันนั้นแตกต่างกัน ระบบ noise cancelling โดยทั่วไป อาศัยการเก็บสัญญาณเสียงรบกวนด้วยไมโครโฟนที่ออกแบบแยกมาต่างหากตัวหนึ่ง และนำสัญญาณเสียงที่ได้มาผ่านกระบวนการสร้างคลื่นสัญญาณที่มีลักษณะหักล้างกันนำไปผสมกับสัญญาณเสียงที่ได้มาจากไมโครโฟนหลัก การหักล้างกันของคลื่นเสียงทำให้ผู้ใช้รู้สึกได้ว่าเสียงรบกวนนั้นหายไปได้ด้วยระบบ noise cancelling ทว่าปัญญาประดิษฐ์ของ Google นั้น ไม่มีสัญญาณเสียงชุดที่ 2 ที่บันทึกเสียงรบกวนมาไว้ใช้เพื่อการหักล้าง แต่อาศัยการเพียงการวิเคราะห์สัญญาณเสียงชุดเดียวที่มัน "ได้ยิน" คู่ไปกับภาพที่มัน "มองเห็น" เท่านั้นเอง

โอกาสในการประยุกต์ใช้งานที่น่าสนใจยิ่งสำหรับความสามารถของปัญญาประดิษฐ์นี้คือการใช้งานสำหรับระบบสนทนาด้วยวิดีโอแบบออนไลน์ ซึ่งแม้ Google จะไม่ได้บอกว่ามีแผนจะเพิ่มความสามารถนี้ให้กับโปรแกรมสนทนาของตนเองอย่าง Duo หรือ Hangouts เมื่อไหร่ แต่เชื่อว่าไม่ช้าก็เร็วมันคงจะมาแน่

ที่มา - Google Research Blog via Engadget

Get latest news from Blognone

Comments

By: FutureLifePlus
iPhoneAndroid
on 17 April 2018 - 23:04 #1044808

คนตรี >> ดนตรี

By: panurat2000
ContributorSymbianUbuntuIn Love
on 18 April 2018 - 09:29 #1044900 Reply to:1044808
panurat2000's picture

มีแผนจะเพิ่มความสามารถนี่้ให้กับโปรแกรมสนทนา

นี่้ => นี้

By: zyzzyva
Blackberry
on 17 April 2018 - 23:34 #1044813

ผมสนใจว่ามันจะสามารถทำ Karaoke/Instrumental/Off-Vocal ออกมาจากเพลงได้ดีมั้ย

By: Holy
ContributorAndroidWindowsIn Love
on 17 April 2018 - 23:35 #1044814
Holy's picture

นอกจาก Video Call แล้วน่าจะมีเป็นฟีเจอร์ใน Youtube ด้วยนะ พวก Vlog ตะลุยกินร้านดังที่ตัดต่อไม่ค่อยเก่ง อาจจะอัพวิดีโอขึ้นไปตรงๆ แล้วให้ AI ช่วยปรับเสียงให้อัตโนมัติก็ได้

By: alonerii
AndroidUbuntuWindows
on 18 April 2018 - 05:34 #1044855 Reply to:1044814

ผมว่าในอนาคตน่ามีจะให้เล่นล่ะมั้งครับ เพราะคิดว่า Google น่าจะเอาข้อมูลตรงนั้นไปช่วยเทรนให้มันเก่งขึ้นได้

By: foizy
AndroidUbuntuWindows
on 18 April 2018 - 10:21 #1044941 Reply to:1044855

ผมว่าแค่เอา close caption ของที่มีคนพิมพ์ไว้ + สิทธิ์ในการ process video นี่ก็ train ได้เยอะแล้วนะครับ

youtube video จัดว่าเป็น public ด้วย

By: A4
iPhoneAndroidRed HatSUSE
on 18 April 2018 - 21:48 #1045133
A4's picture

วิชาในตำนาน