Tags:
Node Thumbnail

ทีมปัญญาประดิษฐ์ DeepMind ของกูเกิล (ผู้สร้าง AlphaGo) โชว์ผลงานใหม่ WaveNet โมเดลปัญญาประดิษฐ์ที่สร้างเสียงสังเคราะห์ได้จากรูปแบบคลื่นเสียงของมนุษย์ สามารถใช้สร้างได้ทั้งเสียงพูด (speech) และเสียงดนตรี (music) จากการเรียนรู้ผ่าน deep learning

เป้าหมายหลักของ WaveNet ต้องการนำมาสร้างเสียงพูดสังเคราะห์ (text-to-speech หรือ TTS) ซึ่งปัจจุบัน ระบบสังเคราะห์เสียงพูด TTS ส่วนใหญ่เก็บเสียงพูดเป็นคำสั้นๆ แล้วนำเสียงมาต่อกันเป็นประโยค (มีชื่อเรียกว่า concatenative TTS) ซึ่งมีข้อเสียคือดัดแปลงเสียงได้ยาก เพราะต้องอัดเสียงใหม่ทั้งหมด

ในแวดวงจึงพัฒนาระบบเสียงสังเคราะห์ที่เรียกว่า parametric TTS ที่เปลี่ยนคุณสมบัติของเสียง (เช่น เพศหรืออายุของคนพูด) ได้จากพารามีเตอร์ที่ป้อนให้ แต่ข้อจำกัดของโมเดลนี้คือเสียงที่สังเคราะห์ได้ยังไม่เป็นธรรมชาติ (เมื่อเทียบกับ concatenative TTS)

WaveNet นำแนวคิดเรื่องการสร้างคลื่นเสียง (raw waveform) จาก AI เข้ามาปรับปรุง parametric TTS ให้ได้เสียงที่เป็นธรรมชาติมากขึ้น วิธีการคือเทรน AI ให้รู้จักรูปแบบของคลื่นเสียงโดยตรง ลักษณะเดียวกับ AI ที่ใช้สร้างรูปภาพที่ซับซ้อนขึ้นมาได้ด้วยโมเดล convolution neural network แบบหลายเลเยอร์

No Description

ขั้นตอนการทำงานของ WaveNet คืออัดเสียงพูดของมนุษย์ แล้วเทรน AI ให้เรียนรู้คลื่นเสียงแต่ละแบบไปเรื่อยๆ หลังจากนั้น AI จะสามารถสร้างคลื่นเสียงลักษณะคล้ายๆ กัน (แต่อาจฟังไม่รู้เรื่องเป็นคำๆ) ขึ้นมาได้ ซึ่งทีมงาน DeepMind ต้องนำไปรวมกับข้อความ (text) เพื่อแปลงเป็นเสียงพูดที่ฟังแล้วมีความหมายจริงๆ (ทีมงาน WaveNet ลองเอาไปสร้างเสียงดนตรีได้ด้วย โดยเทรนเสียงเปียโนให้ ผลก็ออกมาใช้ได้ เพราะไม่ต้องมีตัว text มาประกอบ)

DeepMind ลองทดสอบ WaveNet (สีฟ้าในกราฟ) เทียบกับเสียงพูดจริงของมนุษย์ (สีเขียวในกราฟ) พบว่ามีความใกล้เคียงมากขึ้น เมื่อเทียบกับเสียงที่ได้จาก Google TTS ตัวที่ใช้ใน Android ปัจจุบัน (สีชมพูและสีแดง) ในภาพรวมแล้วประสิทธิภาพของ WaveNet ดีขึ้นกว่า Google TTS ถึง 50%

No Description

ใครสนใจลองฟังเสียงจาก WaveNet ก็เข้าไปทดสอบกันได้ตามลิงก์

ที่มา - DeepMind

Get latest news from Blognone

Comments

By: checkmate95
ContributorAndroid
on 11 September 2016 - 00:40 #939129
checkmate95's picture

สุดยอด !

By: mrBrightside
iPhoneWindows
on 11 September 2016 - 01:10 #939132

ใกล้เคียงกับเสียงคนมากครับ
มันไม่เหมือนเสียงสังเคราะห์อีกต่อไป แต่เหมือนออกมาจากปากเลย
รู้สึกได้ถึงการแตะลิ้น และขยับปาก คงเหลือก็แต่การพูดตามอารมณ์ต่างๆ

ต่อไปถ้ามันฉลาดขึ้น คงแย่งงานมนุษย์น่าดู

แต่คิดอีกทีก็ดีเหมือนกัน นึกภาพว่าโทรหา 911 แล้วมีคนรับสายแน่นอน
หรือโทรหาคอลเซ็นเตอร์ทั้งหลายแล้วไม่ต้องถือสายรอเป็นสิบๆนาที

By: Sephanov
iPhoneUbuntu
on 11 September 2016 - 01:19 #939136
Sephanov's picture

โหดดดดดด

By: Eddz on 11 September 2016 - 01:29 #939138
Eddz's picture

ถ้าสำเร็จงานภาคเสียงหนัง อนิเมะ คงเป็นอะไรที่สุดยอดไปเลย ต่อยอดด้วยการเรียบแบบน้ำเสียงจากภาษาต้นฉบับ แบบเสียงของคนแสดงต่างชาติแต่พูดไทยได้ จะรอวันนั้นนะถ้านายไม่ยึดโลกเราเสียก่อน

By: terap
Windows PhoneAndroidRed HatUbuntu
on 11 September 2016 - 02:36 #939145 Reply to:939138
terap's picture

ให้เลือกว่าใครพากย์ตัวละครไหนได้นี้ชอบเลย

By: max212
AndroidRed HatSUSEUbuntu
on 11 September 2016 - 11:27 #939212 Reply to:939138
max212's picture

ใช้ SUB กลายเป็นเสียงได้เลยจะสุดยอดมาก

By: zipper
ContributorAndroid
on 11 September 2016 - 12:12 #939224 Reply to:939138

ถ้าทำอย่างนี้ได้จะดีมากๆ เลย แต่คนพากย์คงจะตกงานกันหมดแน่

By: gab
Windows PhoneAndroidWindows
on 11 September 2016 - 14:27 #939250 Reply to:939138
gab's picture

+1

By: mr_tawan
ContributoriPhoneAndroidWindows
on 11 September 2016 - 01:49 #939141
mr_tawan's picture

เดี๋ยวคงมีคนโหลดเสียงมิกุใส่ไป


  • 9tawan.net บล็อกส่วนตัวฮับ
By: Polwath
ContributoriPhoneWindows PhoneAndroid
on 11 September 2016 - 01:52 #939142
Polwath's picture

ถ้าสมบูรณ์มากๆ อาจใช้ในหุ่นยนต์, Chat bot, ระบบ call center หรือใช้ในการก่ออาชญากรรมทางโทรศัพท์และทางการแชทอัตโนมัติจะทำได้ง่ายขึ้นด้วย พอเป็นแบบนี้ มันก็กลายเป็นดาบสองคมไปเลยในตัว


Get ready to work from now on.

By: menu_dot on 11 September 2016 - 02:11 #939143

Google มาแรงมาก

By: sapjunior
AndroidUbuntuWindows
on 11 September 2016 - 02:44 #939146

convolution neural network น่าจะเป็น convolutional neural network มากกว่านะครับ

By: Jirawat
Android
on 11 September 2016 - 04:58 #939150
Jirawat's picture

แจ่มแมว

By: aeksael
ContributoriPhoneWindows PhoneAndroid
on 11 September 2016 - 08:30 #939170
aeksael's picture

อิไต อ่า....คิมุจิ โอ้ววอ่า.... #ฝึกให้มันภาคหนังครับ


The Last Wizard Of Century.

By: Hadakung
iPhoneWindows PhoneAndroidWindows
on 11 September 2016 - 08:34 #939172

กรี๊ดๆๆ จะได้ฟังเสียงคาวาอี๊ คืออยากให้มาพากษ์ไทยอนิเมะมากๆ บอกเลยพากษ์ไทยนิทำหมดอารมณ์ดูไปดูญี่ปุ่นเลยดีกว่า...

By: gooGof
ContributorAndroidIn Love
on 11 September 2016 - 09:55 #939191

เสียงดนตรี ให้อารมณ์หัวร้อนมาก

By: rainhawk
AndroidWindows
on 11 September 2016 - 11:34 #939216
rainhawk's picture

เสียงเหมือนคนมาก

By: tstcnr1u
iPhoneWindows PhoneAndroidUbuntu
on 11 September 2016 - 13:22 #939239

เอามาตั้งรับโทรศัพท์เวลาพ่อบ้านหนีเที่ยวได้จะดีมาก

By: Hoo
AndroidWindows
on 11 September 2016 - 16:45 #939265

ต่อไปถ้ามีเทปลับออกมาก็น่าสงสัยไว้ก่อน

By: jaideejung007
ContributorWindows PhoneWindows
on 11 September 2016 - 18:45 #939281
jaideejung007's picture

ฟังแล้ว เสียงดูมีน้ำหนัก มีโทนเสียงต่ำสูง แบบที่ไม่ใช่เสียงโทนเดียวทื่อๆ ชอบๆ

By: lingjaidee
ContributoriPhoneAndroid
on 12 September 2016 - 00:11 #939333
lingjaidee's picture

ระบบความปลอดภัยที่ยืนยันด้วยคำสั่งเสียง ... สั่งยิงขีปนาวุธ -..-'


my blog

By: cill
Android
on 12 September 2016 - 12:57 #939465
cill's picture

สัญญาณของ AI apocalyse