Tags:
Node Thumbnail

OpenAI ประกาศปล่อยโมเดลปัญญาประดิษฐ์ Whisper ที่สามารถแปลงเสียงเป็นข้อความ พร้อมๆ กับแปลข้อความเป็นภาษาอังกฤษ โมเดลที่ปล่อยออกมามี 4 ขนาด ตั้งแต่ 39 ล้านพารามิเตอร์ไปจนถึง 1,550 ล้านพารามิเตอร์

จุดเด่นของ Whisper คือรองรับภาษาจำนวนมาก แม้จะมีความแม่นยำต่างกันไป ภาษาที่มีความผิดพลาดต่ำสุด เช่น สเปน, อิตาลี, อังกฤษ, และโปรตุเกส (อัตราการผิดพลาด WER ต่ำกว่า 5.0) ขณะที่ภาษาไทยมี WER ที่ 13.2 และภาษาเกาหลีมี WER ที่ 15.2 ภาษาในอาเซียนอื่นๆ ยังมีอัตราการผิดพลาดค่อนข้างสูง เช่น ลาวอยู่ที่ 101.6, เมียนมาร์อยู่ที่ 124.5

ตัวโครงการปล่อยออกมาเป็น command line ให้ใช้งานแปลงไฟล์ MP3 เป็นข้อความ หรือจะใช้งานผ่าน Python ก็ได้

ที่มา - OpenAI

No Description

Get latest news from Blognone

Comments

By: Mediumrare
AndroidWindows
on 22 September 2022 - 15:29 #1262789

เมียนมาร์

เมียนมา

By: Whisper
iPhoneWindows PhoneAndroidBlackberry
on 22 September 2022 - 16:01 #1262793

เห็นชื่อ AI Whisper
ผมไม่มาแสดงตัวไม่ได้แล้ว 😘

By: tontan
ContributorAndroidSymbianUbuntu
on 22 September 2022 - 19:35 #1262810
tontan's picture

Additionally, we put a space between every letter for the languages that do not use spaces to separate words, namely Chinese, Japanese, Thai, Lao, and Burmese, effectively measuring the character error rate instead

จาก paper ไม่แปลกใจเลยสำหรับภาษาไทย


บล็อก: wannaphong.com และ Python 3

By: lew
FounderJusci's WriterMEconomicsAndroid
on 22 September 2022 - 20:01 #1262813 Reply to:1262810
lew's picture

แสดงว่านับ WER จริงๆ น่าจะสูงกว่านี้มาก?

แต่ลาวก็สูงกว่าไทยมากอยู่ดี


lewcpe.com, @wasonliw

By: tontan
ContributorAndroidSymbianUbuntu
on 22 September 2022 - 23:40 #1262836 Reply to:1262813
tontan's picture

น่าจะครับ ของลาว ผมเข้าใจว่ามีแค่ชุดข้อมูล 2 อันที่ชั่วโมงไม่มากเท่าภาษาไทย และยังไม่มี CommonVoice ภาษาลาวด้วยครับ


บล็อก: wannaphong.com และ Python 3