งานเปิดตัวสินค้าของกูเกิลเมื่อวานนี้พระเอกของงานนอกจากจะเป็นฮาร์ดแวร์แล้ว ฝั่งซอฟต์แวร์ Google Assistant ก็ถูกหลอมรวมเข้าไว้แทบทุกผลิตภัณฑ์ สิ่งหนึ่งที่เปลี่ยนไปคือเทคโนโลยีการสังเคราะห์เสียง (text to speech - TTS) ที่ทีมงาน DeepMind ออกมารายงานว่าตอนนี้เป็น WaveNet เวอร์ชั่นใหม่
WaveNet เปิดตัวตั้งแต่เดือนกันยายนปีที่แล้ว จุดเด่นของมันคือสร้างเสียงจากโครงสร้างคำพูดก่อนหน้าทำให้เสียงมีความเป็นธรรมชาติมากขึ้น แต่การสร้างเสียงที่มีรายละเอียดสูงเช่นนี้กลับกินพลังประมวลผลอย่างหนักจนไม่สามารถใช้งานจริงได้
ปีที่ผ่านมาทีมงาน DeepMind จึงปรับปรุงประสิทธิภาพของ WaveNet จนทำงานได้เร็วขึ้นพันเท่า จากการปรับปรุงโมเดล และนำไปรันบน TPU Cloud ของกูเกิลเอง ทำให้ตอนนี้ เวลาประมวลผล 1 วินาทีสามารถสร้างเสียงได้ 20 วินาที ขณะที่ความละเอียดของไฟล์เสียงที่ออกมาก็เพิ่มจาก 8 บิตเป็น 16 บิต
ตอนนี้เอนจิน WaveNet ใช้งานกับภาษาอังกฤษและภาษาญี่ปุ่นเท่านั้น
ที่มา - DeepMind
Comments
Current best non-Wavenet ของภาษาญี่ปุ่นนี่อย่าบอกนะว่า Vocaloid?
vocaloid เป็น vocal synthesis มากกว่าจะเป็ฯ voice นะครับ
อีกอย่างผมว่ามันเป็น Sampler มากกว่า :P