Baidu Research รายงานความสำเร็จของโครงการ Deep Voice แปลงจากข้อความเป็นเสียง (text-to-speech - TTS) นอกจากความแม่นยำของเสียงที่ออกมาเป็นธรรมชาติแล้ว ระบบนี้ยังมีความเร็วสูงกว่าระบบก่อนๆ ทำให้ใช้เวลาไม่กี่วินาทีในการสังเคราะห์เสียง
Deep Voice ยังไม่ใช่ระบบแบบ end-to-end ที่ใช้เครือข่ายประสาทเทียมในการวิเคราะห์ทั้งหมด แต่ต้องการตัวแปลงข้อความเป็น phoneme เสียก่อน จากนั้นจึงฝึกสามระบบแยกจากกัน ได้แก่ ระบบสังเคราะห์เสียง (audio synthesis), ระบบทำนายระยะเวลาเสียง (duration prediction), และระบบทำนายความถี่พื้นฐาน (fundamental frequency prediction)
ตัวอย่างเสียงที่สังเคราะห์ได้มีให้ฟังในที่มา
ที่มา - Baidu
Comments
อือ
ตอนนี้มีโปรแกรมแปลจากเสียง (แถวเอเชีย จีน เกาหลี ญี่ปุ่น) แล้วออกเป็น text แบบแม่นๆ มั้ยครับ?
ความต้องการกลับด้านกับในข่าว