หลังจากที่ภาษาไทย เราได้ช่วยกันผลักดันให้โครงการ Common Voice ของ Mozilla เปิดรับบริจาคเสียงภาษาไทยได้เป็นที่สำเร็จเมื่อ 1 ปีก่อน มาวันนี้ขอเชิญชวนคนไทย/คนลาวที่อ่านหรือพิมพ์ภาษาลาวได้ มาช่วยกันผลักดันให้ Common Voice เปิดรับบริจาคเสียงภาษาลาวกัน
ชุดข้อมูล Common Voice เป็นชุดข้อมูลเสียงสำหรับระบบรู้จำเสียง โดยเสียงมาจากการบริจาคของอาสาสมัครหรือระบบ crowdsourcing และอยู่ภายใต้สัญญาอนุญาตสาธารณสมบัติ (CC-0) ทุก ๆ คนจากทั่วโลกสามารถใช้งานได้ฟรี ตัวอย่างเช่น โมเดล OpenAI Whisper ที่รองรับภาษาจากทั่วโลกและรองรับภาษาไทยด้วย เป็นต้น ดำเนินงานภายใต้ Mozilla องค์กรไม่แสวงหาผลกำไรระดับโลกที่ดูแล Firefox

ทำไมต้องภาษาลาว?
ภาษาลาวถือเป็นภาษาตระกูลขร้า-ไท ตระกูลเดียวกันกับภาษาไทย ปัจจุบัน ถือว่าเป็นหนึ่งในภาษาที่มีทรัพยากรทางภาษาต่ำ และไม่มีชุดข้อมูลเสียงสาธารณะมากเหมือนกับภาษาไทย หาก Common Voice ภาษาลาวเกิดขึ้นมาได้ จะทำให้ทรัพยากรภาษาแบบสาธารณะของภาษาลาวมีจำนวนมาก จะช่วยให้เทคโนโลยีรู้จำเสียงภาษาลาวจากทั่วโลก (ไม่จำกัดเฉพาะประเทศลาวหรือประเทศไทย) ทำงานกับภาษาลาวได้ดียิ่งขึ้น (เพราะข้อมูลที่นำไปเทรนโมเดลมีจำนวนมากขึ้น) รวมถึงซอฟต์แวร์รู้จำเสียงภาษาลาวแบบโอเพ่นซอร์ส (Open Source) เกิดขึ้นตามมาด้วยในอนาคต และยังมีประโยชน์ในการศึกษาทางภาษาศาสตร์ จะช่วยให้นักภาษาศาสตร์จากทั่วโลกสามารถหาตัวอย่างและศึกษาภาษาลาว รวมถึงภาษาตระกูลขร้า-ไท ได้ง่ายยิ่งขึ้น
วิธีการผลักดันภาษาลาวเข้า Common Voice
การผลักดันภาษาลาวเข้า Common Voice ต้องอาศัยการทำงาน 3 ส่วนดังนี้
-
บริจาคประโยคภาษาลาวเข้า Common Voice Sentence Collector
-
ตรวจทานประโยคภาษาลาวใน Common Voice Sentence Collector ว่าเหมาะสมกับการนำไปให้คนอ่านในการบริจาคหรือไม่
-
แปลหน้าเว็บ Common Voice ให้ครบ 80% ขึ้นไป
เรามาลงลึกทีละขั้นตอนกัน
- บริจาคประโยคภาษาลาวเข้า Common Voice Sentence Collector
เข้าไปที่ https://commonvoice.mozilla.org/sentence-collector/#/en แล้วทำการ login จากนั้นไปที่ Profile เลือก Lao ใต้ Add a language you want to contribute to แล้วกด Add Language

จากนั้นกลับไปที่หน้าหลัก Home แล้วกด Collect sentences จากนั้นพิมพ์/ก๊อปประโยคภาษาลาวใส่เข้าไปบรรทัดละประโยค
จากนั้นพิมพ์ที่มาของประโยคแล้ว ติ๊กถูกเพื่อยืนยันว่าเป็นประโยคสาธารณะ จากนั้น Submit ได้เลย

สำหรับเกณฑ์ประโยคของภาษาลาว ปัจจุบันยังไม่มี แต่ผมขอเสนอดังนี้
- ไม่มีการย่อคำ ตัวอย่างเช่น สส เป็นต้น
- ไม่มีอิโมจิ
- ไม่มีตัวเลข
- ไม่มีคำศัพท์ต่างภาษาปนเข้าไป เช่น ภาษาไทย ภาษาอังกฤษ และภาษาอื่น ๆ เป็นต้น ต้องเป็นภาษาลาวทั้งหมด
- ไม่มีเครื่องหมายพิเศษ ตัวอย่างเช่น “ ) ( เป็นต้น
- ตรวจทานประโยคภาษาลาวใน Common Voice Sentence Collector
ตรวจทานประโยคที่มีคนเข้ามาในระบบว่าเหมาะสมกับอ่านเพื่อบริจาคเสียงภาษาลาวหรือไม่ ตามคำแนะนำเกณฑ์ที่ผมเสนอ และประโยคต้องไม่ยาวเกินไป อ่านจบไม่เกิน 10 วินาที (เวลาสูงสุดในการรับบริจาคเสียงแต่ละเสียงของ Common Voice)
เข้าไปที่ Review sentences จากหน้าหลัก Home ของ Common Voice Sentence Collector แล้วกด Approve ถ้าประโยคนั้นผ่าน กด Reject ถ้าประโยคนั้นไม่ผ่าน และกด Skip ถ้าไม่ต้องการตรวจทานประโยคนั้น

- แปลหน้าเว็บ Common Voice ให้ครบ 80% ขึ้นไป
สำหรับขั้นตอนนี้ต้องอาศัยระบบแปลหน้าเว็บ ชื่อ Pontoon ของ Mozilla ในการแปลภาษา โดยเข้าไปที่ https://pontoon.mozilla.org/lo/common-voice/ แล้ว Login จากนั้นลงมือแปลพิมพ์คำแปลภาษาลาวเข้าไปได้เลย

รายละเอียดเพิ่มเติม สามารถอ่านได้ที่ Community Playbook
สำหรับจำนวนประโยคที่ต้องการขั้นต่ำสำหรับภาษาลาว ณ เวลานี้คือ จำนวน 5,000 ประโยค (แต่อาจมีการเปลี่ยนแปลงจำนวนนี้ได้ในอนาคต) เมื่อตรวจครบ 5,000 ประโยคและแปลครบ 80% แล้ว ระบบ Common Voice ถึงจะเปิดรับบริจาคเสียงภาษาลาว
มาช่วยกันผลักดันให้ภาษาลาวเข้าไปอยู่ในชุดข้อมูล Common Voice กัน!
on
ผมอยากเข้าไปช่วยนะ
big50000 Mon, 21/11/2022 - 23:15
ผมอยากเข้าไปช่วยนะ (มีทักษะภาษาลาว) แต่ผมไม่เคยพูดสำเนียงของบ้านเขาเลย
ถ้าสะดวกสามารถเข้าไปช่วยได้คร
tontan Mon, 21/11/2022 - 23:19
In reply to ผมอยากเข้าไปช่วยนะ by big50000
ถ้าสะดวกสามารถเข้าไปช่วยได้ครับ ตอนนี้ยังคงเป็นส่วนที่ยังไม่ได้เปิดรับบริจาคเสียงครับ เน้นพิมพ์ แปล ตรวจอย่างเดียวครับ
ในบรรดาเพื่อนบ้าน(ประเทศ)
runnary Tue, 22/11/2022 - 12:42
ในบรรดาเพื่อนบ้าน(ประเทศ) ส่วนตัวรู้สึกสนิทแนบชิดกับคนลาว ทั้งที่ผมก็คนใต้ บ้านติดกันแต่แทบไม่ค่อยทะเลาะกันเหมือนเพื่อนบ้านท่านอื่น
คนนครศรีกับคนหลวงพระบางผมว่าบ
veer Tue, 22/11/2022 - 19:19
In reply to ในบรรดาเพื่อนบ้าน(ประเทศ) by runnary
คนนครศรีกับคนหลวงพระบางผมว่าบางคำสำเนียงคล้าย ๆ กัน
ตอนนี้มียอดตรวจสอยประโยคจำนวน
tontan Tue, 22/11/2022 - 15:36
ตอนนี้มียอดตรวจสอยประโยคจำนวน 74 ประโยคแล้วครับ โดยดูยอดจาก https://commonvoice.mozilla.org/sentence-collector/#/en/stats ครับ
อัปเดต ตอนนี้แปลหน้าเว็บครบ
tontan Wed, 23/11/2022 - 22:03
อัปเดต ตอนนี้แปลหน้าเว็บครบ 80% แล้วครับ ต่อไปเหลือตรวจสอบประโยค ตอนนี้ยังมียอดเพียง 226 ประโยค จาก 5000 ประโยคครับ
ตอนนี้ปัญหาอย่างเดียวของผมกับ
big50000 Thu, 24/11/2022 - 00:17
ตอนนี้ปัญหาอย่างเดียวของผมกับภาษาลาวคือบน Firefox Linux สระซ้อนทับกัน อ่านยากมากในบางคำ โดยเฉพาะอย่างยิ่งพวกสระที่เป็นไม้เอกกับสระอี บางทีจะเหมือนกับสระอือมาก
ปัญหาบน GNU/Linux
veer Thu, 24/11/2022 - 15:19
In reply to ตอนนี้ปัญหาอย่างเดียวของผมกับ by big50000
ปัญหาบน GNU/Linux ลองมาคุยกันต่อยาว ๆ ที่กลุ่ม Telegram ได้นะครับ