Tags:
Node Thumbnail

Baidu Research รายงานความสำเร็จของโครงการ Deep Voice แปลงจากข้อความเป็นเสียง (text-to-speech - TTS) นอกจากความแม่นยำของเสียงที่ออกมาเป็นธรรมชาติแล้ว ระบบนี้ยังมีความเร็วสูงกว่าระบบก่อนๆ ทำให้ใช้เวลาไม่กี่วินาทีในการสังเคราะห์เสียง

Deep Voice ยังไม่ใช่ระบบแบบ end-to-end ที่ใช้เครือข่ายประสาทเทียมในการวิเคราะห์ทั้งหมด แต่ต้องการตัวแปลงข้อความเป็น phoneme เสียก่อน จากนั้นจึงฝึกสามระบบแยกจากกัน ได้แก่ ระบบสังเคราะห์เสียง (audio synthesis), ระบบทำนายระยะเวลาเสียง (duration prediction), และระบบทำนายความถี่พื้นฐาน (fundamental frequency prediction)

ตัวอย่างเสียงที่สังเคราะห์ได้มีให้ฟังในที่มา

ที่มา - Baidu

alt="upic.me"

Get latest news from Blognone

Comments

By: KuLiKo
ContributoriPhoneWindows PhoneAndroid
on 2 March 2017 - 11:30 #972975
KuLiKo's picture

อือ

By: TW
AndroidWindows
on 2 March 2017 - 14:50 #973007

ตอนนี้มีโปรแกรมแปลจากเสียง (แถวเอเชีย จีน เกาหลี ญี่ปุ่น) แล้วออกเป็น text แบบแม่นๆ มั้ยครับ?

ความต้องการกลับด้านกับในข่าว