OpenAI ประกาศปล่อยโมเดลปัญญาประดิษฐ์ Whisper ที่สามารถแปลงเสียงเป็นข้อความ พร้อมๆ กับแปลข้อความเป็นภาษาอังกฤษ โมเดลที่ปล่อยออกมามี 4 ขนาด ตั้งแต่ 39 ล้านพารามิเตอร์ไปจนถึง 1,550 ล้านพารามิเตอร์
จุดเด่นของ Whisper คือรองรับภาษาจำนวนมาก แม้จะมีความแม่นยำต่างกันไป ภาษาที่มีความผิดพลาดต่ำสุด เช่น สเปน, อิตาลี, อังกฤษ, และโปรตุเกส (อัตราการผิดพลาด WER ต่ำกว่า 5.0) ขณะที่ภาษาไทยมี WER ที่ 13.2 และภาษาเกาหลีมี WER ที่ 15.2 ภาษาในอาเซียนอื่นๆ ยังมีอัตราการผิดพลาดค่อนข้างสูง เช่น ลาวอยู่ที่ 101.6, เมียนมาร์อยู่ที่ 124.5
ตัวโครงการปล่อยออกมาเป็น command line ให้ใช้งานแปลงไฟล์ MP3 เป็นข้อความ หรือจะใช้งานผ่าน Python ก็ได้
ที่มา - OpenAI

on
เมียนมาร์ เมียนมา
Mediumrare Thu, 22/09/2022 - 15:29
เมียนมา
เห็นชื่อ AI
Whisper Thu, 22/09/2022 - 16:01
เห็นชื่อ AI Whisper
ผมไม่มาแสดงตัวไม่ได้แล้ว 😘
Additionally, we put a space
tontan Thu, 22/09/2022 - 19:35
จาก paper ไม่แปลกใจเลยสำหรับภาษาไทย
แสดงว่านับ WER จริงๆ
lew Thu, 22/09/2022 - 20:01
In reply to Additionally, we put a space by tontan
แสดงว่านับ WER จริงๆ น่าจะสูงกว่านี้มาก?
แต่ลาวก็สูงกว่าไทยมากอยู่ดี
น่าจะครับ ของลาว
tontan Thu, 22/09/2022 - 23:40
In reply to แสดงว่านับ WER จริงๆ by lew
น่าจะครับ ของลาว ผมเข้าใจว่ามีแค่ชุดข้อมูล 2 อันที่ชั่วโมงไม่มากเท่าภาษาไทย และยังไม่มี CommonVoice ภาษาลาวด้วยครับ