Baidu Research รายงานความสำเร็จของโครงการ Deep Voice แปลงจากข้อความเป็นเสียง (text-to-speech - TTS) นอกจากความแม่นยำของเสียงที่ออกมาเป็นธรรมชาติแล้ว ระบบนี้ยังมีความเร็วสูงกว่าระบบก่อนๆ ทำให้ใช้เวลาไม่กี่วินาทีในการสังเคราะห์เสียง
Deep Voice ยังไม่ใช่ระบบแบบ end-to-end ที่ใช้เครือข่ายประสาทเทียมในการวิเคราะห์ทั้งหมด แต่ต้องการตัวแปลงข้อความเป็น phoneme เสียก่อน จากนั้นจึงฝึกสามระบบแยกจากกัน ได้แก่ ระบบสังเคราะห์เสียง (audio synthesis), ระบบทำนายระยะเวลาเสียง (duration prediction), และระบบทำนายความถี่พื้นฐาน (fundamental frequency prediction)
ตัวอย่างเสียงที่สังเคราะห์ได้มีให้ฟังในที่มา
ที่มา - Baidu
on

อือ
KuLiKo Thu, 02/03/2017 - 11:30
อือ
ตอนนี้มีโปรแกรมแปลจากเสียง
TW Thu, 02/03/2017 - 14:50
ตอนนี้มีโปรแกรมแปลจากเสียง (แถวเอเชีย จีน เกาหลี ญี่ปุ่น) แล้วออกเป็น text แบบแม่นๆ มั้ยครับ?
ความต้องการกลับด้านกับในข่าว