<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
  <title>nong_oos's blog</title>
  <link rel="alternate" type="text/html" href="http://www.blognone.com/blog/410"/>
  <link rel="self" type="application/atom+xml" href="http://www.blognone.com/blog/410/atom/feed"/>
  <id>http://www.blognone.com/blog/410/atom/feed</id>
  <updated>2008-11-06T17:06:24+07:00</updated>
  <entry>
    <title>ขอเชิญร่วมแข่ง BEST 2009: การแข่งขันสุดยอดซอฟต์แวร์แบ่งคำภาษาไทย</title>
    <link rel="alternate" type="text/html" href="http://www.blognone.com/node/8446" />
    <id>http://www.blognone.com/node/8446</id>
    <published>2008-07-25T09:42:34+07:00</published>
    <updated>2008-11-06T17:06:24+07:00</updated>
    <author>
      <name>nong_oos</name>
    </author>
    <category term="Announcement" />
    <category term="NECTEC" />
    <category term="Thailand" />
    <summary type="html"><![CDATA[<p>เป็นที่ทราบกันว่าการประมวลผลภาษาไทยเป็นเทคโนโลยีพื้นฐานที่จะนำไปสู่ระบบประยุกต์ที่มีคุณค่ามหาศาลได้
อาทิ การแปลภาษาอัตโนมัติ การรู้จำและสังเคราะห์เสียงพูด การย่อความอัตโนมัติ
การสืบค้นข้อมูลข่าวสาร ตลอดจนการพัฒนาหุ่นยนต์ที่ชาญฉลาดในอนาคต
ภาษาไทยถือเป็นภาษาหนึ่งในโลกที่ประมวลผลได้ยากมาก
อันเนื่องมาจากปัญหาหลักคือ ไม่มีการเขียนแบ่งพยางค์ คำ หรือประโยค
ไม่มีหลักเกณฑ์ตายตัวในการใช้ช่องว่างในภาษาเขียน การสะกดคำมีรูปแบบซับซ้อน
และมีคำยืมจำนวนมาก ทำให้การแบ่งคำมีความกำกวมสูง
ลองพิจารณาตัวอย่างต่อไปนี้แล้วทดลองแบ่งคำดูครับ</p>

<ul>
<li>ภาพนกกรกนกบนพรมตรงถนนหน้าพระพรหมณ์</li>
<li>ปลามีตากลมถูกตากลมในที่ร่ม</li>
</ul>
    ]]></summary>
    <content type="html"><![CDATA[<p>เป็นที่ทราบกันว่าการประมวลผลภาษาไทยเป็นเทคโนโลยีพื้นฐานที่จะนำไปสู่ระบบประยุกต์ที่มีคุณค่ามหาศาลได้
อาทิ การแปลภาษาอัตโนมัติ การรู้จำและสังเคราะห์เสียงพูด การย่อความอัตโนมัติ
การสืบค้นข้อมูลข่าวสาร ตลอดจนการพัฒนาหุ่นยนต์ที่ชาญฉลาดในอนาคต
ภาษาไทยถือเป็นภาษาหนึ่งในโลกที่ประมวลผลได้ยากมาก
อันเนื่องมาจากปัญหาหลักคือ ไม่มีการเขียนแบ่งพยางค์ คำ หรือประโยค
ไม่มีหลักเกณฑ์ตายตัวในการใช้ช่องว่างในภาษาเขียน การสะกดคำมีรูปแบบซับซ้อน
และมีคำยืมจำนวนมาก ทำให้การแบ่งคำมีความกำกวมสูง
ลองพิจารณาตัวอย่างต่อไปนี้แล้วทดลองแบ่งคำดูครับ</p>

<ul>
<li>ภาพนกกรกนกบนพรมตรงถนนหน้าพระพรหมณ์</li>
<li>ปลามีตากลมถูกตากลมในที่ร่ม
<!--break-->
การสร้างระบบแบ่งคำอัตโนมัติที่มีความถูกต้องสูงถือเป็นองค์ประกอบสำคัญอันดับแรกของการประมวลผลภาษาไทยซึ่งต้องอาศัยฐานข้อมูลขนาดใหญ่ที่ผ่านการแบ่งคำด้วยหลักทางภาษาศาสตร์
ในหลายปีที่ผ่านมาถึงแม้จะมีบทความที่นำเสนออัลกอริธึมในการแบ่งคำแล้วจำนวนมาก
แต่เราก็ไม่สามารถทราบได้ว่าวิธีใดที่เหมาะสมที่สุดสำหรับระบบประยุกต์ที่แตกต่างกัน
สาเหตุหลักเนื่องจากเราไม่มีฐานข้อมูลกลางขนาดใหญ่สำหรับวัดเปรียบเทียบคณะทำงานฯ
ตระหนักถึงปัญหาดังกล่าว จึงได้ร่วมมือกับหลายหน่วยงานวิจัย
ช่วยกันกำหนดหลักเกณฑ์การแบ่งคำโดยใช้เวลาหลายเดือนในการร่าง
และได้พัฒนาฐานข้อมูลขนาดใหญ่ที่แบ่งคำด้วยหลักเกณฑ์ดังกล่าว โดยใช้คนมากกว่า
30 คน และเวลามากกว่า 1 ปี ได้เป็นฐานข้อมูลขนาดประมาณ 5 ล้านคำ
พร้อมเปิดให้นักวิจัยและพัฒนาที่สนใจ นำไปใช้ได้โดยไม่มีค่าใช้จ่าย
ตามเงื่อนไขเพื่อการศึกษาวิจัยที่ไม่มีวัตถุประสงค์ในเชิงพาณิชย์
และขอประชาสัมพันธ์ เชิญชวนอาจารย์สถาบันการศึกษา นิสิต
นักศึกษาที่กำลังมองหาหัวข้อวิจัยที่เหมาะสม
ตลอดจนนักวิจัยและพัฒนาจากภาคเอกชน บุคคลทั่วไปที่สนใจ
เข้าร่วมการแข่งขันวัดเปรียบเทียบสมรรถนะของการแบ่งคำภาษาไทย ซึ่งเราจัดเป็นหัวข้อแข่งขันพิเศษในการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทย
ครั้งที่ 11 หรือ NSC 2009 (<a href="http://www.nsc.in.th">http://www.nsc.in.th</a>)</li>
</ul>

<p>ผู้ที่สนใจ ขอเชิญแวะไปเยี่ยมชมเราได้ที่ <a href="http://www.hlt.nectec.or.th/best">http://www.hlt.nectec.or.th/best</a></p>
    ]]></content>
  </entry>
</feed>
