Tags:
Node Thumbnail

ปัญญาประดิษฐ์สำหรับแปลงเสียงเป็นข้อความ (speech to text) มีความแม่นยำสูงขึ้นเรื่อยๆ แต่ส่วนมากแล้วงานวิจัยมักมีเป้าหมายพัฒนาความแแม่นยำอย่างเดียวโดยใช้ข้อมูลเสียงที่อัดไว้ล่วงหน้าเป็นอินพุต แต่งานอีกกลุ่มหนึ่งเช่นการแปลงเสียงบทสนทนานั้นมีเงื่อนไขของระยะเวลาหน่วง (latency) ว่าต้องไม่สูงเกินไป ตอนนี้เฟซบุ๊กก็เปิดซอร์สโครงการ wave2letter++ งานวิจัยแปลงเสียงเป็นข้อความโดยมีระยะเวลาหน่วงต่ำ

โครงการมาพร้อมกับโมเดลแปลงเสียงเป็นข้อความ 4 แบบ ตัวใหม่ที่สุดคือ Time-Depth Separable (TDS) convolutions and Connectionist Temporal Classification (CTC) หรือ TDS+CTC ที่เฟซบุ๊กเพิ่งเปิดเผยรายงานวิจัยเมื่อสัปดาห์ที่แล้ว

เฟซบุ๊กระบุว่า TDS+CTC มีอัตราความผิดพลาดต่ำกว่าโมเดลปัญญาประดิษฐ์อื่นที่มีเงื่อนไขระยะเวลาหน่วงต่ำเหมือนกัน ขณะที่ทรูพุตการแปลงเสียงเป็นข้อความสูงกว่าถึงสามเท่าตัว และระยะเวลาหน่วงจากเสียงจนถึงข้อความที่แสดงออกมานั้นอยู่ที่ 1.09 วินาทีเท่านั้น เมื่อวิเคราะห์เสียงทีละ 0.75 วินาที

ที่มา - Facebook AI Blog

No Description

Get latest news from Blognone

Comments

By: GodPapa
iPhoneWindows PhoneAndroidBlackberry
on 17 January 2020 - 11:36 #1144299
GodPapa's picture

ยังไงความถูกต้องก็ควรสำคัญเป็นอันดับหนึ่ง
เร็วแต่ผิดมันเอาไปใช้อะไรได้

By: panurat2000
ContributorSymbianUbuntuIn Love
on 17 January 2020 - 13:55 #1144325
panurat2000's picture

ปัญญาประดิษฐ์สำหรับแปลงเสียงเป็นข้อความ (text to speech) มีความแม่นยำสูงขึ้นเรื่อยๆ

แปลงเสียงเป็นข้อความ (text to speech) ?