เป็นที่ทราบกันว่าการประมวลผลภาษาไทยเป็นเทคโนโลยีพื้นฐานที่จะนำไปสู่ระบบประยุกต์ที่มีคุณค่ามหาศาลได้
อาทิ การแปลภาษาอัตโนมัติ การรู้จำและสังเคราะห์เสียงพูด การย่อความอัตโนมัติ
การสืบค้นข้อมูลข่าวสาร ตลอดจนการพัฒนาหุ่นยนต์ที่ชาญฉลาดในอนาคต
ภาษาไทยถือเป็นภาษาหนึ่งในโลกที่ประมวลผลได้ยากมาก
อันเนื่องมาจากปัญหาหลักคือ ไม่มีการเขียนแบ่งพยางค์ คำ หรือประโยค
ไม่มีหลักเกณฑ์ตายตัวในการใช้ช่องว่างในภาษาเขียน การสะกดคำมีรูปแบบซับซ้อน
และมีคำยืมจำนวนมาก ทำให้การแบ่งคำมีความกำกวมสูง
ลองพิจารณาตัวอย่างต่อไปนี้แล้วทดลองแบ่งคำดูครับ
- ภาพนกกรกนกบนพรมตรงถนนหน้าพระพรหมณ์
- ปลามีตากลมถูกตากลมในที่ร่ม
การสร้างระบบแบ่งคำอัตโนมัติที่มีความถูกต้องสูงถือเป็นองค์ประกอบสำคัญอันดับแรกของการประมวลผลภาษาไทยซึ่งต้องอาศัยฐานข้อมูลขนาดใหญ่ที่ผ่านการแบ่งคำด้วยหลักทางภาษาศาสตร์
ในหลายปีที่ผ่านมาถึงแม้จะมีบทความที่นำเสนออัลกอริธึมในการแบ่งคำแล้วจำนวนมาก
แต่เราก็ไม่สามารถทราบได้ว่าวิธีใดที่เหมาะสมที่สุดสำหรับระบบประยุกต์ที่แตกต่างกัน
สาเหตุหลักเนื่องจากเราไม่มีฐานข้อมูลกลางขนาดใหญ่สำหรับวัดเปรียบเทียบคณะทำงานฯ
ตระหนักถึงปัญหาดังกล่าว จึงได้ร่วมมือกับหลายหน่วยงานวิจัย
ช่วยกันกำหนดหลักเกณฑ์การแบ่งคำโดยใช้เวลาหลายเดือนในการร่าง
และได้พัฒนาฐานข้อมูลขนาดใหญ่ที่แบ่งคำด้วยหลักเกณฑ์ดังกล่าว โดยใช้คนมากกว่า
30 คน และเวลามากกว่า 1 ปี ได้เป็นฐานข้อมูลขนาดประมาณ 5 ล้านคำ
พร้อมเปิดให้นักวิจัยและพัฒนาที่สนใจ นำไปใช้ได้โดยไม่มีค่าใช้จ่าย
ตามเงื่อนไขเพื่อการศึกษาวิจัยที่ไม่มีวัตถุประสงค์ในเชิงพาณิชย์
และขอประชาสัมพันธ์ เชิญชวนอาจารย์สถาบันการศึกษา นิสิต
นักศึกษาที่กำลังมองหาหัวข้อวิจัยที่เหมาะสม
ตลอดจนนักวิจัยและพัฒนาจากภาคเอกชน บุคคลทั่วไปที่สนใจ
เข้าร่วมการแข่งขันวัดเปรียบเทียบสมรรถนะของการแบ่งคำภาษาไทย ซึ่งเราจัดเป็นหัวข้อแข่งขันพิเศษในการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทย
ครั้งที่ 11 หรือ NSC 2009 (http://www.nsc.in.th)
ผู้ที่สนใจ ขอเชิญแวะไปเยี่ยมชมเราได้ที่ http://www.hlt.nectec.or.th/best
เปลี่ยนไป
HyBRiD Fri, 25/07/2008 - 15:58
เปลี่ยนไปใช้ภาษาอังกฤษกัน !
NERD GOD
อ่านว่า
KavkaZ Fri, 25/07/2008 - 16:54
อ่านว่า ภาพ นก-กร-กนก หรือว่า ภาพ-นก-กรก-นก ครับ
555
pawinpawin Fri, 25/07/2008 - 17:10
In reply to อ่านว่า by KavkaZ
555 ขนาดคนยังแบ่งไม่เป็นเลย
เคยเขียนโ
kohsija Fri, 25/07/2008 - 18:57
เคยเขียนโปรแกรมตัดคำไทยส่งอาจารย์ตอนมหาวิทยาลัย
แต่ทำงานช้ามาก ส่งไปก็อายเขา -_-"
[Kohsija](http://kohsija.exteen.com "จุ๊กกรู...")
เขียนยังไ
jiramot Fri, 25/07/2008 - 20:10
In reply to เคยเขียนโ by kohsija
เขียนยังไงหรอคับ ส่งๆไปเหอะผมว่า ผมเองยังคิดไม่ออกเลย
เท่าที่คิดได้ คือ
เก็บคำลง database ให้หมด ซึ่งยากมากมาย
แล้วก็ อ่านที่ละ char เอา char 1 ตัวไปหาในดาต้าเบส เช่นว่า 'ก' ดูว่าในดาต้าเบส มีคำที่ขึ้นว่า 'ก' กี่ตัว แล้วก็เอาไปเทียบ ตัวที่ 2 ต่อไปเรื่อยๆ
คิดเล่นๆ ได้แค่นี้อ่ะคับ แต่คิดว่า มัน - -* น่าจะนานกว่าของคุณอีกน่ะ
คงต้อง optimize loop กับ การคิวรี ดาต้าเบส ดีๆ ถ้าจะใช้ วิธีนี้
^^
เว็บที่รั
Jonix Fri, 25/07/2008 - 19:00
เว็บที่รับสมัครยังไม่เปิดหรือครับ www.nsc.in.th
whois nsc.in.th -h whois.thnic.net
Whois Server Version 1.5
% No entries found for the selected source(s).
ผมว่ายังไ
noyzilla Mon, 28/07/2008 - 05:47
In reply to เว็บที่รั by Jonix
ผมว่ายังไม่จดโดเมนมากกว่า
Noyzi!!a's Blog
nectec.or.th/nsc
willwill Tue, 29/07/2008 - 12:02
In reply to ผมว่ายังไ by noyzilla
nectec.or.th/nsc
สงสัยว่าจ
DuRiAn Fri, 25/07/2008 - 19:06
สงสัยว่าจะใช้อัลกอริทั่มอะไรในการคิด
เพราะแม้แต่คนยังแยกไม่ถูกเลย...เหอๆ
ที่คนคิดแ
lawender Fri, 25/07/2008 - 19:56
In reply to สงสัยว่าจ by DuRiAn
ที่คนคิดแล้วแยกไม่ถูกก็เำพราะคนคนนั้นมีความรู้ (knowledge) จำกัดครับ
ที่เรามีความรู้จำกัดก็เหมือนว่าข้อมูลของคำที่เรารู้จักในสมอง (database) มีไม่พอ
แต่หากเรารู้จักคำมากพอแล้ว สิ่งที่จะบอกว่าตัดคำถูกได้อย่างไรก็คืออัลกอริทึ่มในการตัดนั่นล่ะครับ
ถ้าเทียบเป็นคนก็คือความฉลาดนั่นล่ะครับ
อย่างผมเองก็ตัดคำในตัวอย่างแรกไม่ถูกหรอกครับ เพราะผมไม่รู้จักคำที่ให้มา แต่ "ปลา ตา กลม" เอามา "ตาก ลม" นั้น เราตัดคำได้ถูกเพราะเรารู้จักทั้ง 2 คำคือ ตา กลม และ ตาก ลม แุถมเรารู้บริบทของคำคำนั้นในประโยค
ครับผม
อืมม
jiramot Fri, 25/07/2008 - 20:15
In reply to ที่คนคิดแ by lawender
อืมม พึ่งอ่าน reply นี้
งั้นวิธีผม ก็ท่าจะไม่ ได้ซะแล้ว
เพราะถ้าใน ดาต้าเบส มีทั้งคำว่า ตา, ตาก, กลม, ลม เนี่ย ก็จะเจอทั้งหมด
ต้องมี priority อีก แต่ทำไงว่ะเนี่ยยยย
ใครมีไอเดียร์ไรดีๆ แนะนำบ้างคับ
ต้องมีชนิ
sugree Fri, 25/07/2008 - 20:52
In reply to อืมม by jiramot
ต้องมีชนิดคำ ต้องรู้จักรูปประโยค
ยากสุดก็ต
fake-or-dead Sat, 26/07/2008 - 02:14
In reply to ต้องมีชนิ by sugree
ยากสุดก็ตรงนี้ละครับ
ตอนนั้นเค
p-joy Fri, 25/07/2008 - 21:55
In reply to อืมม by jiramot
ตอนนั้นเคยเขียน โดยใช้หลักคำสมบูรณ์ที่ยาวที่สุดมาก่อน กล่าวคือในฐานข้อมูล
จะต้องมีทั้งคำว่า ตา, ตาก, กลม, ลม, ตากลม เก็บไว้ในฐานข้อมูลถ้าเจอคำยาวกว่า
ก็คงคำยาวนั้นไว้ (ให้คะแนนสูงสุด และให้รูปแบบที่อื่น ๆ มีคะแนนลดหลั่นลงไป)
เก็บคำที่เป็นไปได้ไว้ในดีเบต 3 plus และใช้้ bisection ในการค้นหาคำ แต่นั้นมัน
สิบห้าปีที่แล้ว
ตามรูปประ
latesleeper Sat, 26/07/2008 - 01:25
In reply to อืมม by jiramot
ตามรูปประโยคที่ให้มายังง่าย มี "มี" และ "ถูก" มาช่วยแยกประเภทถ้างั้น อัลกอริทึมของผมอาจจะวิ่งกลับไปเช็คคำที่เกี่ยวข้องด้านหน้า (และ/หรือหลัง)มาพอช่วยแบ่ง ตา และ ตาก ออกจากกันได้
แต่...ถ้าทอนประโยคให้สั้นลงอีกหน่อยล่ะ กลายเป็นปลาตากลมตากลมในที่ร่ม...
งานนี้ก็ตัวใครตัวมันละคับพี่น้องงง
-____-“”
นายขโมย Sat, 26/07/2008 - 02:43
In reply to ตามรูปประ by latesleeper
-____-""
ไม่ว่าจะอ
crucifier Sun, 27/07/2008 - 01:14
In reply to ตามรูปประ by latesleeper
ไม่ว่าจะอ่านยังไงก็มีความหมายที่ถูกต้องด้วยกันทั้งคู่
ขออนุญาตแ
joecole Sat, 26/07/2008 - 03:33
ขออนุญาตแสดงความเห็น
ผมว่าตัวอย่างที่ยกมามัน extreme เกินไป
หมายความว่า ในภาษาที่เราใช้สื่อสารกันอยู่
จะตกในกรณีอย่างนี้น้อยมาก (หมายถึงการแยกคำได้ 2 แบบโดยที่ยังมี "ความหมาย" ทั้งสองแบบ)
เท่าที่ผมนึกออก ก็มีแค่
"ตา" "กลม" & "ตาก" "ลม"
แล้วก็
"แบ" "บน" "อก" & "แบบ" "นอก"
ดังนั้น ถ้าจะออกแบบ algorithm สำหรับ case แบบนี้โดยเฉพาะ
ผมว่ามันขี่ช้างจับตั๊กแตนเกินไปครับ
(หรือถ้าใครจะทำ ช่วยเอาคำนี้ไปพิจารณาด้วย
"รรรรรร" - อ่านได้ว่า ระ-รัน-รอน หรือ รอน-ระ-รัน หรือ ฯลฯ ... เห็นบอกเป็นชื่อคน)
เพราะมันย
mk Sat, 26/07/2008 - 03:39
In reply to ขออนุญาตแ by joecole
เพราะมันยากเค้าถึงจัดแข่งไงครับ
กรณีธรรมด
lew Sat, 26/07/2008 - 09:08
In reply to ขออนุญาตแ by joecole
กรณีธรรมดาก็มี Algorithm ใช้งานกันอยู่แล้วนี่ครับ ก็ไม่น่าแปลกอะไรถ้าตอนนี้จะพยายามหากรณีพิเศษเพื่อให้มันดีขึ้นเรื่อยๆ
LewCPE
กรณี extreme
thep Mon, 28/07/2008 - 10:06
In reply to ขออนุญาตแ by joecole
กรณี extreme แบบนี้ ไม่พบบ่อยในชีวิตประจำวันก็จริง แต่พอพบแล้ว ผู้ใช้จะสะดุดทันที.. คือในส่วนที่ตัดถูกนั้น ผู้ใช้ไม่มานั่งชื่นชมว่าตัดเก่งจัง จนกระทั่งเจอจุดที่ตัดบรรทัดผิดนั่นแหละ ถึงเริ่มรู้สึกถึงการมีอยู่ของรูทีนตัดคำ
คนอ่านหนังสือพิมพ์บ่อยจะเจอหลายตัวอย่างครับ ผมเคยจดไว้ได้เป็นหน้า ตอนนี้นึกออกไม่กี่ตัวอย่าง เช่น "ผู้ที่หนุ่มสาวกว่า" (ผู้ที่หนุ่มสาวก-ว่า), "การกลับมา" (การก-ลับมา), "ยานอกแพง ๆ" (ยาน-อกแพง ๆ)
อีกกรณีหนึ่งคือเวลาเจอคำทับศัพท์ใหม่ ๆ หรือชื่อคน/ชื่อเมืองต่างประเทศ โปรแกรมจะงง เพราะไม่มีในพจนานุกรม เช่น "ไอพอดกลับมาฮิต" (ไอ-พอ-ดก-ลับ-มา-ฮิต), "สตานิสลาฟ คันนิซซาโร" (ชื่อนักวิทยาศาสตร์ชาวอิตาลี) หรือแม้กระทั่งคำไทยเองที่เกิดใหม่ เช่น "อมาตยาธิปไตย" ซึ่งกรณีนี้ การปรับข้อมูลพจนานุกรมให้ทันสมัยอยู่เสมอก็พอช่วยได้ แต่การสะกดชื่อเฉพาะที่ไม่ค่อยเหมือนกัน เช่น "ริชาร์ด ไฟยน์แมน" หรือ "ริชาร์ด เฟย์นแมน", "อัลเบิร์ต" หรือ "แอลเบิร์ต" ฯลฯ หรือชื่อที่พบไม่บ่อย ก็ทำให้ยุ่งยากเพิ่มขึ้น
แล้วก็ ปัญหาที่เกิดใหม่ล่าสุด คือภาษาวัยรุ่นในอินเทอร์เน็ต อันนี้ตัดยากมากครับ
อันหลังสุ
ch-a-m-p Wed, 30/07/2008 - 01:33
In reply to กรณี extreme by thep
อันหลังสุดนี่ ตัดทิ้ง ไปเลย?
โืทดคับ opera
czynet Sat, 26/07/2008 - 09:52
โืทดคับ opera ค้าง
ภาษาไทยผู
czynet Sat, 26/07/2008 - 10:29
ภาษาไทยผูกเข้ากับ ความคิด วัฒนธรรม สถานการณ์ เจตนา ฯลฯ
มันไม่ได้มีแค่เหตุผล ซึ่งถ้าเราจะตัดคำโดยใช้ algorithm (ซึ่งมีแต่ตรรกะ)
ผมก็ว่ายังไงก็ยากอยู่ดี
ตราบใดที่ ปัจจัยอื่นๆ ยังไม่มีกฏเกณฑ์ตายตัว
อีกทั้งภาษาก็ยังไม่ตาย
(ถ้าตัดปัจจัยอื่น ๆ แล้วเหลือแต่การใ้ช้เหตุผล)
มันก็พอจะง่ายละครับ
อีกประเด็นคือ (คนที่เขียนได้ เนี้ยะ ต้องเชียวชาญภาษาไทยมากๆ)
คนส่วนใหญ่ใช้ภาษาไทยเพราะความเคยชินจนลืมหลักภาษาไปหมด
โปรแกรมเมอร์ไม่ได้สอนภาษาไทย และคนสอนภาษาไทยก็ไม่ได้เป็นโปรแกรมเมอร์
เพราะถ้าเราแบ่งแยก ประเภทคำ และหน้าที่ของคำต่าง ๆได้แล้ว
เราก็พอจะรู้ว่า คำนี้ควรเป็นนามหรือกิริยาได้บ้าง (มันก็คงจะดูดีขึ้น)
อย่างน้อยก็รู้หละว่า เป็นคำขยายคำนาม ถ้าหลังนี้ไม่มีกิริยาตาม ก็ให้เป็นกิริยาซะ
ประมาณนั้น.. (หรือเปล่า)
ลองเล่นๆ นะครับ
จากคำว่า "ปลาตากลมตากลมในที่ร่ม"
ถ้าเราจับคำได้หมดแล้วจะเปงไปได้...
นาม + กริยา + กริยา + ขยาย F
นาม + ขยายนาม + ขยายนาม + ขยาย F
นาม + กริยา + ขยายนาม + ขยาย T/F
นาม + ขยายนาม + กริยา + ขยาย T
คำไทยมีเยอะมาก
สรรพนาม คำคุณศัพท์ ฯลฯ ไรไม่รู้ ผมเชื่อว่าถ้าคนแยกได้ ผมว่ามันน่าจะ work นาา..
ลองคิดดูเล่นๆ นะครับ
ถ้าใครเขียนก็ลองคิดดูครับ ส่วนผมไม่มีเวลา = =
งานที่มีอยู่จะแย่เอา = =
ปล. ทางที่ดีชวนคุณครูภาษาไทยมานั่งเขียนคงจะดีนะครับ
ลองถามแกว่า ถ้าใช้หลักภาษาแล้วจะตัดคำได้มั้ย ?
คงจะไม่ได
0xffeeddaa Sat, 26/07/2008 - 14:47
In reply to ภาษาไทยผู by czynet
คงจะไม่ได้ครับ ผมติด 0 ยังไม่ได้แก้เลย =='
ภาษาไทยไม
mk Sat, 26/07/2008 - 15:18
In reply to ภาษาไทยผู by czynet
ภาษาไทยไม่ได้ใช้ตรรกะอย่างเดียว แต่เราใช้ภาษาไทยบนคอมพิวเตอร์ที่มีแต่ตรรกะเท่านั้น
ภาษาไทยอยู่ในตระกูล complex language มีภาษาอื่นที่ยากกว่าภาษาไทยอีกมากมาย เค้ายังทำกันได้เลยครับ
ส่วนใหญ่เ
sugree Sat, 26/07/2008 - 22:25
In reply to ภาษาไทยผู by czynet
ส่วนใหญ่เค้าก็ทำแบบที่ว่านะ มีอาจารย์ภาษาไทยมาคิด แล้วให้โปรแกรมเมอร์ไปเขียน
ผมว่า
jiramot Mon, 28/07/2008 - 11:31
In reply to ภาษาไทยผู by czynet
ผมว่า ต้องใช้พวก context ของคำเข้าไปด้วย
ถ้าจำไม่ผิด จะแนวตามคอนเซ็ปของเวป 3.0 ป่าวคับ (ถ้าผิิดก็ขอโทษด้วย) ที่จะมีคำ หรือ อะไรที่เอาไว้อธิบาย ความหมายของ สิ่งต่างๆ ที่เขียนด้วย เพื่อ ไม่ให้เกิด การเอา คำมั่วๆๆๆ มาทำเป็น tag ให้ google search เจอ (ผมเคยเจอเวป ที่เป็นพวกโฆษณาสินค้า ที่แบบมีแต่ tag เป็นล้านอัน อยู่ใต้หน้า page)
น่าจะพอช่วยขยายความ ทำให้การอ่าน ใกล้เคียงกับคนขึ้น
เช่น เดินไปทะเลตากลม <-- ก็จะอ่านได้ ว่า ตาก ลม เพราะประมาณว่า ทะเล กับ ตากลม มันมี อะไรเชื่อมกันอยู่
แต่ว่าทางเทคนิคนี้ผมก็ไม่ทราบเหมือนกันคับ
เด๋วจะลองไปหาบทความที่เคยอ่าน มาให้ ไม่แน่ใจว่ามีการทำ reference implementation กันจิงๆแล้วหรือยังคับ (^^ ถ้าผิดพลาดยังไงก็ขอโทษด้วยคับ หรือว่าใครทราบรายละเอียด ก็ลองหามาหน่อยน่ะคับ)
::Jiramot::
word breaking
deaw Sat, 26/07/2008 - 17:45
word breaking ต่างจาก Word Segmentation ยังไง
ให้เดานะ Wor
anu Sun, 27/07/2008 - 18:34
In reply to word breaking by deaw
ให้เดานะ
Word Segmentation การแบ่ง(หรือแยก)คำ มีในภาษาที่เขียนคำติดกัน ไม่มีเว้นวรรคระหว่างคำในประโยค
Word Breaking การตัดคำ น่าจะใช้สำหรับการขึ้นบรรทัดใหม่ หรือการขีดคั่น (-) ระหว่างคำในการขึ้นบรรทัดใหม่ในภาษาอังกฤษ ความซับซ้อนน่าจะน้อยกว่าอันบน
มั้ง...
อยากไป
Sand Sat, 26/07/2008 - 18:32
อยากไป
น่าจะใช้ช
anu Sun, 27/07/2008 - 18:35
น่าจะใช้ชื่อโครงการเป็น "ตากลมๆ"
เอาให้ งวยงงงงงวย กันไปเลย
ผมกำลังสง
HyBRiD Mon, 28/07/2008 - 00:15
ผมกำลังสงสัยว่าภาษาไทยที่เราใช้กันทุกวันนี้มันมีประโยคด้วยหรอ
แล้วถ้าเจอภาษาวิบัติเข้าไป จะใช้ algorithm ไหนล่ะเนี่ย
NERD GOD
เปลี่ยน
noyzilla Mon, 28/07/2008 - 05:44
เปลี่ยน วิธี เขียน ภาษาไทย แบบ นี้ ดี หรือ ป่าว
ภาพ นก (กรกนก <- แยกไม่ถูกครับ :( ) บน พรม ตรง ถนน หน้า พระ พรหมณ์
Noyzi!!a's Blog
สงสัยว่าเ
sdh Mon, 28/07/2008 - 08:58
สงสัยว่าเขาตัดคำกันก่อน แล้วค่อยตรวจการสะกดคำ เมื่อยังตัดคำที่ต้นประโยคไม่ได้ ตัว spelling checker ก็ยังไม่ทำงาน
"พระพรหม"
ใช้ Tools
oakyman Tue, 29/07/2008 - 16:14
ใช้ Tools ได้ไหมครับ? อย่าง Swath หรือ Tools ที่ใช้ 2-gram, 3-gram
พวกนี้ ผมว่าก็ถือว่าพอใช้ได้เหมือนกัน
ภาษาไทย คงต้องอิงหลักสถิติด้วย
มี Corpus ใหญ่ๆ ก็ดี
Oakyman.com
เคราะวรรค
fatro Wed, 30/07/2008 - 03:27
เคราะวรรคถี่ขึ้น!
ใช้ Tools
onenoi Wed, 30/07/2008 - 12:28
ใช้ Tools ช่วยได้ค่ะ มีให้ดาวน์โหลดที่ http://www.hlt.nectec.or.th/best/
หรือนอกเหนือจากนี้ก็ได้ถ้าเจ้าของอนุญาติให้ใช้ได้
เอาเข้าแข
khajochi Fri, 01/08/2008 - 12:11
เอาเข้าแข่งใน google code jam ข้อคะแนนยากสุดได้เลยนะเนี่ย (ฮา)
---
Khajochi Blog : It's not a Bug ... It's a Feature