Tags:
Node Thumbnail

วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) และทีม PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Automatic Speech Recognition) ที่มีความแม่นยำทัดเทียมกับกูเกิล และบริษัทชั้นนำอื่น ๆ

โมเดลดังกล่าวฝึกฝนบนชุดข้อมูล Mozilla Common Voice 7.0 ที่ได้รับการบริจาคเสียงภาษาไทย จำนวน 133 ชั่วโมง ผู้พูด 7,212 คน (อ่านเพิ่มเติม ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice) โดยฝึกกับโมเดล XLSR-Wav2Vec2 ของ Facebook

ทางสถาบันวิจัยได้ปล่อยโมเดลมาในรูปแบบลิขสิทธิ์ CC-BY-SA 4.0 และได้อัปโหลดขึ้น Hugging Face โดยสามารถใช้งานได้ผ่านไลบรารี transformers ในภาษาไพธอนได้

Tags:
Node Thumbnail

วันที่ 31 มีนาคม พ.ศ.2564 ไลบรารีภาษาไพธอนสำหรับประมวลผลภาษาไทย PyThaiNLP ได้ปล่อยเวอร์ชัน 2.3 โดยสรุปความเปลี่ยนแปลงได้ดังนี้

  • เพิ่มโมเดลใหม่สำหรับงานด้านการระบุหน้าที่ของคําในประโยค (Part-of-speech), งานด้านการระบุคําที่เป็นนิพจน์ระบุนาม (Name Entity Tagging) จากชุดข้อมูล LST20
  • เพิ่มโมเดลด้านการแปลภาษาและโมเดล wangchanberta ของสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทยเข้ามาเป็นส่วนหนึ่งของไลบรารี
  • เพิ่มโมเดลสำหรับการระบุคําที่เป็นนิพจน์ระบุนาม (chunk parsing)

ข้อมูลเปิดเผย: ผู้เขียนเป็นสมาชิกในทีมพัฒนา PyThaiNLP

Tags:
Node Thumbnail

วันที่ 24 มิถุนายน พ.ศ.2563 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.2 โดยเน้นปรับปรุงประสิทธิภาพการทำงานของไลบรารี โดยสรุปความเปลี่ยนแปลงได้ดังนี้

Tags:
Node Thumbnail

วันที่ 10 ธันวาคม พ.ศ.2562 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.1 โดยสรุปความสามารถใหม่ดังนี้