Tags:
Node Thumbnail

งานเปิดตัวสินค้าของกูเกิลเมื่อวานนี้พระเอกของงานนอกจากจะเป็นฮาร์ดแวร์แล้ว ฝั่งซอฟต์แวร์ Google Assistant ก็ถูกหลอมรวมเข้าไว้แทบทุกผลิตภัณฑ์ สิ่งหนึ่งที่เปลี่ยนไปคือเทคโนโลยีการสังเคราะห์เสียง (text to speech - TTS) ที่ทีมงาน DeepMind ออกมารายงานว่าตอนนี้เป็น WaveNet เวอร์ชั่นใหม่

WaveNet เปิดตัวตั้งแต่เดือนกันยายนปีที่แล้ว จุดเด่นของมันคือสร้างเสียงจากโครงสร้างคำพูดก่อนหน้าทำให้เสียงมีความเป็นธรรมชาติมากขึ้น แต่การสร้างเสียงที่มีรายละเอียดสูงเช่นนี้กลับกินพลังประมวลผลอย่างหนักจนไม่สามารถใช้งานจริงได้

ปีที่ผ่านมาทีมงาน DeepMind จึงปรับปรุงประสิทธิภาพของ WaveNet จนทำงานได้เร็วขึ้นพันเท่า จากการปรับปรุงโมเดล และนำไปรันบน TPU Cloud ของกูเกิลเอง ทำให้ตอนนี้ เวลาประมวลผล 1 วินาทีสามารถสร้างเสียงได้ 20 วินาที ขณะที่ความละเอียดของไฟล์เสียงที่ออกมาก็เพิ่มจาก 8 บิตเป็น 16 บิต

ตอนนี้เอนจิน WaveNet ใช้งานกับภาษาอังกฤษและภาษาญี่ปุ่นเท่านั้น

ที่มา - DeepMind

No Description

Get latest news from Blognone

Comments

By: zyzzyva
Blackberry
on 5 October 2017 - 13:28 #1011663

Current best non-Wavenet ของภาษาญี่ปุ่นนี่อย่าบอกนะว่า Vocaloid?

By: mr_tawan
ContributoriPhoneAndroidWindows
on 5 October 2017 - 21:58 #1011751 Reply to:1011663
mr_tawan's picture

vocaloid เป็น vocal synthesis มากกว่าจะเป็ฯ voice นะครับ

อีกอย่างผมว่ามันเป็น Sampler มากกว่า :P


  • 9tawan.net บล็อกส่วนตัวฮับ