Tags:
Node Thumbnail

ทีมวิจัยร่วมระหว่างไมโครซอฟท์และมหาวิทยาลัยเจ้อเจียง (Zhejiang University) รายงานความสำเร็จในการออกแบบปัญญาประดิษฐ์ที่สามารถแปลงข้อความเป็นเสียงพูด (text-to-speech - TTS) และแปลงเสียงพูดเป็นข้อความ (automatic speech recognition - ASR) โดยใช้ข้อมูลปริมาณน้อยมาก คิดเป็นเสียงพูดประมาณ 20 นาทีเท่านั้น แต่ยังความแม่นยำของการสร้างเสียงพูดที่ฟังออก (intelligible rate) สูงถึง 99.84%

ระบบนี้อาศัยการฝึกปัญญาประดิษฐ์เป็นคู่ทั้ง TTS และ ASR ไปพร้อมกัน และแม้จะบอกว่าใช้เสียงพูดพร้อมข้อความ (paired-data) เพียง 20 นาที แต่งานวิจัยนี้ใช้ข้อมูลเสียงพูด 14,000 ชุดยาว 24 ชั่วโมงจากชุดช้อมูล LJSpeech เพื่อฝึกแบบไม่มีคู่ข้อมูลเฉลย (unpaired data) ไปด้วย แม้ว่าการแปลงข้อความเป็นเสียงจะค่อนข้างดี แต่การแปลงเสียงเป็นข้อความกลับมีความผิดพลาดระดับพยางค์ถึง 11.7%

ทีมวิจัยกำลังพยายามพัฒนาระบบที่ใช้ข้อมูลฝึกพร้อมเฉลยในปริมาณน้อย แต่ใช้ข้อมูลที่ไม่มีเฉลย (เช่นการอัดเสียงพูดของผู้ใช้เปล่าๆ โดยไม่ต้องสร้างข้อความ) ร่วมกันการฝึกโมเดลไว้ล่วงหน้าแบบอื่นๆ

งานวิจัยกลุ่ม TTS/ASR ที่ใช้ข้อมูลฝึกน้อยเป็นกลุ่มที่ได้รับความสนใจ เพราะในอนาคตเราอาจสามารถสร้างปัญญาประดิษฐ์ที่เข้าใจเสียงพูดของแค่ละคนได้สูงมากโดยที่ผู้ใช้ต้องฝึกปัญญาประดิษฐ์ในช่วงเริ่มต้นเพียงเล็กน้อยเท่านั้น

ที่มา - Speech Research

No Description

Get latest news from Blognone