Tags:
Node Thumbnail

Google Translate เพิ่มภาษาที่รองรับอีก 24 ภาษา โดยส่วนมากเป็นภาษาท้องถิ่นที่มีคนใช้เฉพาะในพื้นที่เท่านั้น แม้ว่าบางภาษาจะมีคนใช้งานถึง 50 ล้านคน โดยรวมแล้วภาษาอีก 24 ภาษาที่เพิ่มเข้ามา มีผู้ใช้งานรวมกว่า 300 ล้านคน ภาษาที่คนใช้งานน้อยที่สุดคือภาษาสันสกฤตที่มีคนใช้งานราว 20,000 คนเท่านั้น

ความยากของภาษาเหล่านี้คือกูเกิลไม่มีชุดข้อมูลเทียบสองภาษาให้ฝึกปัญญาประดิษฐ์ แต่มีเอกสารข้อความในภาษาเหล่านี้เดี่ยวๆ เท่านั้น (monolingual text) ทำให้ต้องใช้เทคนิค Zero-Shot Machine Translation

กระบวนการฝึกปัญญาประดิษฐ์เช่นนี้ อาศัยชุดข้อมูลภาษาเป้าหมายที่ไม่มีคำแปล แล้วฝึกปัญญาประดิษฐ์ด้วยงานเติมเต็มคำในช่องว่าง (Masked Sequence to Sequence - MASS) เพื่อให้ปัญญาประดิษฐ์เรียนรู้โครงสร้างภาษา โดยฝึกควบคู่ไปกับการฝึกแปลภาษาจากชุดข้อมูลที่มีคำแปลตัวอย่างจำนวนมาก โดยตัวปัญญาประดิษฐ์จะได้อินพุตเป็นคำสั่งว่าให้แปลข้อความเป็นภาษาใด โดยไม่ระบุว่าอินพุตเป็นภาษาอะไร อินพุตอาจจะเป็นคนละภาษากับคำสั่งที่ให้แปล หรือภาษาเดียวกันแต่เป็นแค่ประโยคที่ถูกลบบางคำออกก็ได้ เช่น ปัญญาประดิษฐ์ถูกสั่งให้แปลเป็นภาษาฝรั่งเศส โดยอินพุตอาจจะเป็นประโยคภาษาอังกฤษ หรืออาจจะเป็นภาษาฝรั่งเศสที่ไม่สมบูรณ์ให้ปัญญาประดิษฐ์เติมคำ

กูเกิลพบว่าแนวทางนี้ตัวปัญญาประดิษฐ์สามารถแปลภาษาที่ไม่มีข้อมูลคำแปลตัวอย่างเลยได้ดีอย่างน่าแปลกใจ แต่กูเกิลก็ปรับปรุงคุณภาพการแปลด้วยการฝึกให้แปลภาษาไปกลับ (round-trip translation) เพิ่มเติม ก่อนจะย่อโมเดลให้เล็กลงเพียงพอสำหรับการให้บริการ

แม้ว่าการวัดผลประสิทธิภาพการแปลข้อความจะดีจนน่าประหลาดใจแต่กูเกิลก็เตือนว่าเทคโนโลยียังจำกัดและต้องปรับปรุงให้ใกล้เคียงกับคู่ภาษาที่มีตัวอย่างจำนวนมากอีก

ที่มา - Google

No Description

Get latest news from Blognone

Comments

By: dsn10498
ContributorAndroidWindows
on 12 May 2022 - 09:13 #1248623

โดยส่วนมาเป็นภาษาท้องถิ่น > โดยส่วนมากเป็นภาษาท้องถิ่น


Nobody Perfect in the world