Tags:
Node Thumbnail

วันที่ 24 มิถุนายน พ.ศ.2563 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.2 โดยเน้นปรับปรุงประสิทธิภาพการทำงานของไลบรารี โดยสรุปความเปลี่ยนแปลงได้ดังนี้

  • เพิ่มตัวตัดประโยค CRFCut
  • เพิ่มการถอดเสียงภาษาไทยเป็น IPA ด้วย Deep learning
  • เพิ่มเติมความสามารถให้กับฟังก์ชัน normalize หรือฟังก์ชันปรับปรุงข้อความ เช่น ลบช่องว่างซ้ำกัน, ลบวรรณยุกต์ซ้ำในข้อความ เป็นต้น
  • ปรับปรุงโค้ด: ย้ายโค้ดออกจากไฟล์ __init__.py เป็นต้น
  • ลดความต้องการไลบรารีภายนอก: Unigram POS tagger สามารถทำงานได้โดยไม่ต้องการ NLTK
    สามารถอ่านรายละเอียดได้ที่ GitHub

ที่มา : PyThaiNLP 2.2 : PyThaiNLP GitHub

Get latest news from Blognone