งานพัฒนาปัญญาประดิษฐ์ใหม่ของ Google เกี่ยวกับการวิเคราะห์เสียงก้าวล้ำไปอีกระดับ เมื่อมันสามารถแยกแยะเสียงพูดของคนได้ แม้ว่าคนผู้นั้นจะกำลังพูดพร้อมกับคนอื่นจนแม้แต่คนธรรมดายังฟังเนื้อหาจับใจความได้ยาก และแน่นอนว่าในบรรดา 2 คน เจ้าของ 2 เสียงที่พูดแข่งกันอยู่นั้น ปัญญาประดิษฐ์ของ Google สามารถแยกแยะเสียงพูดออกมาได้แบบรายคนอย่างชัดเจน
อันที่จริงงานวิจัยนี้ จำกัดว่าปัญญาประดิษฐ์จะต้องไม่เพียง "ได้ยินเสียง" แต่มันจะต้อง "มองเห็น" คนที่กำลังพูดด้วย เพราะมันใช้การวิเคราะห์ภาพควบคู่ไปกับการวิเคราะห์เสียง
วิธีนี้ก็เป็นแบบเดียวกันกับเวลาที่เราพยายามจะฟังว่าเพื่อนของเรากำลังพูดอะไรกลางงานแสดงดนตรีเสียงอึกทึก หรือริมถนนที่รถวิ่งไปมาส่งเสียงดัง เพราะเราจะพยายามมองปากว่าเพื่อนกำลังพูดอะไร ปัญญาประดิษฐ์ของ Google ก็ใช้การมองภาพของผู้พูดเช่นกัน เพื่อวิเคราะห์ว่าจากหลายเสียงที่ตีกันอีรุงตุงนังนั้น ใครเป็นเจ้าของเสียงไหน และกำลังพูดว่าอะไร
การเรียนรู้ว่าใครขยับปากแบบไหน น่าจะเป็นการเปล่งเสียงอย่างไร นำมาสู่ความสามารถในการแยกแยะเสียงพูดของคนหลายคนออกมาได้ แน่นอนว่าการใช้งานเพื่อตัดเสียงรบกวนออกจากวิดีโอที่บันทึกไว้ก็ย่อมทำได้เช่นกัน
ความสามารถในการตัดเสียงรบกวนนี้คล้ายคลึงกับระบบ noise cancelling ของหูฟังหรือโทรศัพท์หลายรุ่น หากแต่หลักการของมันนั้นแตกต่างกัน ระบบ noise cancelling โดยทั่วไป อาศัยการเก็บสัญญาณเสียงรบกวนด้วยไมโครโฟนที่ออกแบบแยกมาต่างหากตัวหนึ่ง และนำสัญญาณเสียงที่ได้มาผ่านกระบวนการสร้างคลื่นสัญญาณที่มีลักษณะหักล้างกันนำไปผสมกับสัญญาณเสียงที่ได้มาจากไมโครโฟนหลัก การหักล้างกันของคลื่นเสียงทำให้ผู้ใช้รู้สึกได้ว่าเสียงรบกวนนั้นหายไปได้ด้วยระบบ noise cancelling ทว่าปัญญาประดิษฐ์ของ Google นั้น ไม่มีสัญญาณเสียงชุดที่ 2 ที่บันทึกเสียงรบกวนมาไว้ใช้เพื่อการหักล้าง แต่อาศัยการเพียงการวิเคราะห์สัญญาณเสียงชุดเดียวที่มัน "ได้ยิน" คู่ไปกับภาพที่มัน "มองเห็น" เท่านั้นเอง
โอกาสในการประยุกต์ใช้งานที่น่าสนใจยิ่งสำหรับความสามารถของปัญญาประดิษฐ์นี้คือการใช้งานสำหรับระบบสนทนาด้วยวิดีโอแบบออนไลน์ ซึ่งแม้ Google จะไม่ได้บอกว่ามีแผนจะเพิ่มความสามารถนี้ให้กับโปรแกรมสนทนาของตนเองอย่าง Duo หรือ Hangouts เมื่อไหร่ แต่เชื่อว่าไม่ช้าก็เร็วมันคงจะมาแน่
ที่มา - Google Research Blog via Engadget
Comments
คนตรี >> ดนตรี
นี่้ => นี้
ผมสนใจว่ามันจะสามารถทำ Karaoke/Instrumental/Off-Vocal ออกมาจากเพลงได้ดีมั้ย
นอกจาก Video Call แล้วน่าจะมีเป็นฟีเจอร์ใน Youtube ด้วยนะ พวก Vlog ตะลุยกินร้านดังที่ตัดต่อไม่ค่อยเก่ง อาจจะอัพวิดีโอขึ้นไปตรงๆ แล้วให้ AI ช่วยปรับเสียงให้อัตโนมัติก็ได้
ผมว่าในอนาคตน่ามีจะให้เล่นล่ะมั้งครับ เพราะคิดว่า Google น่าจะเอาข้อมูลตรงนั้นไปช่วยเทรนให้มันเก่งขึ้นได้
ผมว่าแค่เอา close caption ของที่มีคนพิมพ์ไว้ + สิทธิ์ในการ process video นี่ก็ train ได้เยอะแล้วนะครับ
youtube video จัดว่าเป็น public ด้วย
วิชาในตำนาน