Tags:
Node Thumbnail

โรคกล้ามเนื้ออ่อนแรง (amyotrophic lateral sclerosis - ALS) เป็นโรคที่ทำให้ผู้ป่วยค่อยๆ ไม่สามารถควบคุมออกแรงกล้ามเนื้อไปเรื่อยๆ จนกระทั่ง ไม่สามารถขยับร่างกาย, พูด, ทานอาหาร, หรือหายใจได้ บุคคลหนึ่งในวงการวิทยาศาสตร์ที่เป็นโรคนี้คือ Stephen Hawking ที่ยังคงทำงานอย่างต่อเนื่องรวมถึงการบรรยายตามโอกาสต่างๆ ผ่านคอมพิวเตอร์แปลงข้อความเป็นเสียง ล่าสุดกูเกิลนำเสนอโมเดลปัญญาประดิษฐ์ในโครงการ Euphonia ช่วยแปลงข้อความเป็นเสียงของ Steve Gleason อดีตนักกีฬาอเมริกันฟุตบอล และผู้รณรงค์ถึงโรค ALS

โมเดลที่กูเกิลนำเสนอคือ PnG NAT ที่รวมเอาสองโมเดลปัญญาประดิษฐ์ก่อนหน้านี้ คือ PnG BERT และ Non-Attentive Tacotron (NAT) เข้าเป็นโมเดลเดียวกัน

โมเดลแปลงข้อความเป็นเสียงมักฝึกโดยอาศัยเสียงพูดของเจ้าของเสียงเอง แต่ปัญหาสำคัญของผู้ป่วย ALS คือเสียงที่อัดไว้มักจะเป็นช่วงที่มีอาการของโรคแล้ว ทำให้ไม่สามารถฝึกปัญญาประดิษฐ์สร้างเสียงเดิมก่อนมีอาการได้ แต่ NAT มีตัวทำนายช่วงเวลาของเสียง (phoneme duration) เปิดทางให้สามารถฝึกระยะของเสียงในแต่ละคำได้อย่างละเอียด

กูเกิลสร้างเสียงพูดของ Steve Gleason โดยฝึก PnG BERT ด้วยเสียงของนักพูดมืออาชีพ 31 คน จากนั้นจูนโมเดลให้เป็นเสียง Gleason อีกครั้งด้วยเสียงของเขาเอง แต่เนื่องจากเสียงเป็นเสียงที่อัดไว้หลัง Gleason เริ่มมีอาการ ALS กูเกิลจึงฝึกโมเดลส่วน NAT ให้ใช้ช่วงเวลาของเสียงจากนักพูดมืออาชีพ เสียงสุดท้ายที่ได้จึงออกมาเป็นเสียง Gleason ที่แทบไม่แสดงอาการ ALS เลย

กูเกิลระบุว่าใช้เทคโนโลยี PnG NAT ในบริการ Google Cloud Custom Voice สำหรับสร้างเสียงเฉพาะสำหรับลูกค้าแต่ละรายด้วย

ที่มา - Google AI Blog

วิดีโอเสียง Steve Gleason ทวนคำปาฐกถา "ชายผู้โชคดีที่สุดในโลก" ของ Lou Gehrig ผู้ป่วย ALS เมื่อปี 1939

Get latest news from Blognone