วันนี้ 24 กันยายน ค.ศ.2022 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาไทย PyThaiNLP รุ่น 3.1 บนภาษาไพธอนอย่างเป็นทางการ
สำหรับ PyThaiNLP 3.1 สรุปการเปลี่ยนแปลงได้ดังนี้
- เพิ่ม Dependency Parsing สำหรับวิเคราะห์โครงสร้างทางภาษาไทย
- เพิ่มการทับศัพท์ภาษาจีน ภาษาญี่ปุ่น และอื่น ๆ ให้กลายเป็นภาษาไทย ผ่านแพ็กเกจ wunsen
- เพิ่มแบบจำลองการสรุปข้อความ mt5 สำหรับภาษาไทยตัวใหม่
- เพิ่ม Thai-NNER (Thai Nested Named Entity Recognition) หรือตัววิเคราะห์นิพจน์หลายชั้น โดยสามารถวิเคราะห์ข้อความภาษาไทยได้ละเอียดกว่า Named Entity Recognition ตรงที่สามารถวิเคราะห์นิพจน์ย่อยได้

ข้อมูลเปิดเผย: ผู้เขียนเป็นหนึ่งในทีมนักพัฒนา PyThaiNLP
on
ผมกำลังเริ่มเรียน python
amba5555 Sun, 25/09/2022 - 11:22
ผมกำลังเริ่มเรียน python แบบนิวบี้เลย
มีโปรเจคแนะนำไหมครีบ
ว่าจะเอาแพคเกจนี้ไปใช้ประโยชน์อะไรได้บ้าง
ยอดเยี่ยม เป็นกำลังใจให้ครับ
gamoman Sun, 25/09/2022 - 11:22
ยอดเยี่ยม เป็นกำลังใจให้ครับ
ผม
mr_tawan Sun, 25/09/2022 - 17:16
1 ผม
2 เป็น
3 คนดี
4 เป็น
5 คนดี
6 แล้ว
7 มัน
8 ไม่มี
9 ใคร
เห็นเดโมแล้วอดไม่ได้จริง ๆ ครับ
10 อยาก
NoppawanConan Sun, 25/09/2022 - 17:28
In reply to ผม by mr_tawan
10 อยาก
11 จะ
12 เลว
13 อยาก
14 เลว
15 ให้
16 มัน
17 รู้
18 ไป
19 เผื่อ
jaideejung007 Mon, 26/09/2022 - 07:20
In reply to 10 อยาก by NoppawanConan
19 เผื่อ
20 ใจ
21 ของ
22 เธอ
23 จะ
24 มี
25 เรา
26 บ้าง
ซ้อมไปคอนเสิร์ตป๋ากันเหรอครับ
itpcc Mon, 26/09/2022 - 11:16
In reply to 19 เผื่อ by jaideejung007
ซ้อมไปคอนเสิร์ตป๋ากันเหรอครับ?
เยี่ยมเลยครับ
btoy Sun, 25/09/2022 - 20:26
เยี่ยมเลยครับ
สงสัยว่า พวก data processing
rattananen Mon, 26/09/2022 - 12:01
สงสัยว่า พวก data processing ที่ต้องการความเร็ว process เยอะๆ
ไม่ใช้ compile language ที่ประมวลเร็วกว่า (behind the scene น้อยกว่า) อย่าง C/C++, GO
ดันมาใช้ script language ช้าๆ แบบนี้ 🤔
NLTK เขียนบน Python ซึ่ง NLTK
Ford AntiTrust Mon, 26/09/2022 - 18:00
In reply to สงสัยว่า พวก data processing by rattananen
NLTK เขียนบน Python ซึ่ง NLTK พัฒนามายาวนานกว่า 20 กว่าปีแล้วครับ อายุมากกว่า Go อีก
และเอาจริงๆ NLTK ที่เริ่มต้นด้วย Python ผมเข้าใจว่าในช่วงนั้นเป็นภาษาที่กำลังมาแรง เขียนง่าย และดูแลไม่ยาก
PageRank ของ Google ก็เขียนด้วย Python (ก่อนจะขยับไปใช้ Go ซึ่งออกแบบโดย Google)
เอาจริง ๆ เคยฟัง Bjarne
mr_tawan Mon, 26/09/2022 - 16:44
In reply to สงสัยว่า พวก data processing by rattananen
เอาจริง ๆ เคยฟัง Bjarne พูดไว้เหมือนกัน
เคยมีนักวิจัยเขียนโค๊ด processing อะไรสักอย่าง (ผมลืมละ) กว่าจะรันเสร็จรอบนึงใช้เวลาเกือบอาทิตย์
แกเขียนใหม่ด้วย C++ รันเสร็จภายในครึ่งชั่วโมง
แน่นอนว่าแกเป็นคนสร้าง C++ ก็อาจจะโม้นิดนึง แต่ผมว่ามีความเป็นไปได้ครับ
จะว่าไป ถึงแม้ว่าตัว script จะเป็น Python แต่ตัว Library ด้านใต้บางตัว (อย่างเช่น PyTorch) ก็เป็น C++ ครับ ไม่งั้นคงทำ performance ไม่ได้ และจะไปต่อกับ Cuda หรือ OpenCV ก็อาจจะลำบากหน่อย
ปล.ไม่ได้เชี่ยวด้านนี้ครับ อย่าเพิ่งเชื่อผม 555
เอาจริง ๆ
mr_tawan Mon, 26/09/2022 - 16:53
In reply to สงสัยว่า พวก data processing by rattananen
เอาจริง ๆ ก็ต้องเข้าใจเขานิดนึงครับ researcher บางคน ไม่ได้เชี่ยวเรื่องการเขียนโค๊ดขนาดนั้น (แต่อาจจะเก่ง algorithm) บางทีก็ใช้ภาษาที่คนที่ไม่ได้เก่งมากก็อ่านรู้เรื่องได้ครับ
แต่ C++23 นี่คือพัฒนามาไกลมาก ไม่ได้เหมือน C++ เมื่อ 20 ปีที่แล้ว อันนี้หลายคนก็ตกข่าวเหมือนกัน โค๊ดเดี๋ยวนี้จะว่าอ่านง่ายขึ้นก็ได้นะ (หรืออ่านยากขึ้นก็ได้เหมือนกัน ฮา)
มันก็มี modern feature อย่าง
rattananen Tue, 27/09/2022 - 10:33
In reply to เอาจริง ๆ by mr_tawan
มันก็มี modern feature อย่าง coroutine, promise แล้วครับ ถ้าจะเขียนแบบ asynchronous ก็ใช้ได้ดี
แต่ยังไม่มี standard network lib (มีแค่ interface)
มี template + concept ที่คล้ายๆ generic type ใน typescript ก็มีแต่จุดประสงค์หลักคือเอาไว้ใช้ gen opcode ตอน compile และใช้แทน class polymorphism ถ้าไม่ได้ใช้เขียน library ก็ไม่ควรใช้เท่าไร เพราะมันต้องคิดถึงเวลา compile ด้วย