Tags:
Node Thumbnail

วันนี้ 10 กุมภาพันธ์ พ.ศ.2567 ทาง PyThaiNLP ชุดคำสั่งเครื่องมือประมวลข้อความภาษาไทยสำหรับงานวิเคราะห์ข้อมูล ภาษาศาสตร์ งานปัญญาประดิษฐ์ แบบโอเพ่นซอร์ส ได้ปล่อย PyThaiNLP รุ่น 5.0 หลังจากที่ปล่อย PyThaiNLP 4.0 ไปเมื่อปีก่อน โดย PyThaiNLP 5.0 มีการเปลี่ยนแปลงสรุปได้ดังนี้

Tags:
Node Thumbnail

วันนี้ทาง PyThaiNLP กับสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย AIReserach.in.th ได้เปิดตัวโมเดล WangChanGLM (วังช้างแอลเอ็ม) โมเดลแชทแบบ ChatGPT รองรับทั้งภาษาไทย, ภาษาอังกฤษ, ภาษาญี่ปุ่น, ภาษาเวียดนาม, และภาษาอื่น ๆ ออกสู่สาธารณะ โดยเปิดซอร์สโค้ดทั้งหมด ชุดข้อมูล และโมเดล ให้สามารถนำไปใช้งานต่อได้แบบฟรี ๆ รวมถึงเทรนต่อได้ โดยโค้ดเป็น Apache License 2.0 ส่วนโมเดลใช้ CC BY-SA 4.0

Tags:
Node Thumbnail

วันนี้ทาง PyThaiNLP ได้ปล่อย PyThaiNLP รุ่น 4.0 (Real) เป็นที่เรียบร้อย โดย PyThaiNLP เป็นชุดคำสั่งสำหรับงานประมวลผลภาษาไทย เพื่อใช้งานในการวิเคราะห์ข้อมูลภาษาไทย

สำหรับรุ่น 4.0 นี้เน้นไปเรื่องการปรับปรุงประสิทธิภาพเป็นหลัก ปรับปรุงการตัดคำ แก้ไขปัญหาด้านโมเดล

Tags:
Node Thumbnail

หลังจากที่กระแส ChatGPT ได้สร้างปรากฏการณ์ในวงการคอมพิวเตอร์จำนวนมาก ทั้ง Bing นำมาเป็นส่วนหนึ่งของระบบค้นหา, Google เปิดตัว Bard ที่ใช้ LaMBDA มาเพื่อแข่งกับ Bing และอื่น ๆ แต่ผู้ใช้งาน ChatGPT คงเจอปัญหาเวลาใช้งาน ChatGPT กับภาษาไทยแล้วทำงานช้ามาก เพราะ ChatGPT ไม่ได้ฝึกฝนด้วยชุดข้อมูลภาษาไทย นอกจากนั้น ChatGPT ยังเป็นซอฟต์แวร์ที่เป็นกรรมสิทธิ์ของ OpenAI และไม่ได้เป็น Open Source (ไม่เปิดเผยชุดข้อมูลที่ใช้ฝึกสอน-ไม่เปิดเผย Source Code)

Tags:
Node Thumbnail

วันนี้ 24 กันยายน ค.ศ.2022 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาไทย PyThaiNLP รุ่น 3.1 บนภาษาไพธอนอย่างเป็นทางการ

สำหรับ PyThaiNLP 3.1 สรุปการเปลี่ยนแปลงได้ดังนี้
- เพิ่ม Dependency Parsing สำหรับวิเคราะห์โครงสร้างทางภาษาไทย
- เพิ่มการทับศัพท์ภาษาจีน ภาษาญี่ปุ่น และอื่น ๆ ให้กลายเป็นภาษาไทย ผ่านแพ็กเกจ wunsen
- เพิ่มแบบจำลองการสรุปข้อความ mt5 สำหรับภาษาไทยตัวใหม่
- เพิ่ม Thai-NNER (Thai Nested Named Entity Recognition) หรือตัววิเคราะห์นิพจน์หลายชั้น โดยสามารถวิเคราะห์ข้อความภาษาไทยได้ละเอียดกว่า Named Entity Recognition ตรงที่สามารถวิเคราะห์นิพจน์ย่อยได้

Tags:
Node Thumbnail

วันนี้ 30 มกราคม พ.ศ.2565 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาธรรมชาติ PyThaiNLP รุ่น 3.0 หลังจากที่ปล่อย PyThaiNLP 2.3 ไปเมื่อปีก่อน

PyThaiNLP 3.0 มีความเปลี่ยนแปลงสรุปได้ดังนี้

Tags:
Node Thumbnail

วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) และทีม PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Automatic Speech Recognition) ที่มีความแม่นยำทัดเทียมกับกูเกิล และบริษัทชั้นนำอื่น ๆ

โมเดลดังกล่าวฝึกฝนบนชุดข้อมูล Mozilla Common Voice 7.0 ที่ได้รับการบริจาคเสียงภาษาไทย จำนวน 133 ชั่วโมง ผู้พูด 7,212 คน (อ่านเพิ่มเติม ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice) โดยฝึกกับโมเดล XLSR-Wav2Vec2 ของ Facebook

ทางสถาบันวิจัยได้ปล่อยโมเดลมาในรูปแบบลิขสิทธิ์ CC-BY-SA 4.0 และได้อัปโหลดขึ้น Hugging Face โดยสามารถใช้งานได้ผ่านไลบรารี transformers ในภาษาไพธอนได้

Tags:
Node Thumbnail

วันที่ 31 มีนาคม พ.ศ.2564 ไลบรารีภาษาไพธอนสำหรับประมวลผลภาษาไทย PyThaiNLP ได้ปล่อยเวอร์ชัน 2.3 โดยสรุปความเปลี่ยนแปลงได้ดังนี้

  • เพิ่มโมเดลใหม่สำหรับงานด้านการระบุหน้าที่ของคําในประโยค (Part-of-speech), งานด้านการระบุคําที่เป็นนิพจน์ระบุนาม (Name Entity Tagging) จากชุดข้อมูล LST20
  • เพิ่มโมเดลด้านการแปลภาษาและโมเดล wangchanberta ของสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทยเข้ามาเป็นส่วนหนึ่งของไลบรารี
  • เพิ่มโมเดลสำหรับการระบุคําที่เป็นนิพจน์ระบุนาม (chunk parsing)

ข้อมูลเปิดเผย: ผู้เขียนเป็นสมาชิกในทีมพัฒนา PyThaiNLP

Tags:
Node Thumbnail

วันที่ 24 มิถุนายน พ.ศ.2563 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.2 โดยเน้นปรับปรุงประสิทธิภาพการทำงานของไลบรารี โดยสรุปความเปลี่ยนแปลงได้ดังนี้

Tags:
Node Thumbnail

วันที่ 10 ธันวาคม พ.ศ.2562 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.1 โดยสรุปความสามารถใหม่ดังนี้