เป็นที่ทราบกันว่าการประมวลผลภาษาไทยเป็นเทคโนโลยีพื้นฐานที่จะนำไปสู่ระบบประยุกต์ที่มีคุณค่ามหาศาลได้ อาทิ การแปลภาษาอัตโนมัติ การรู้จำและสังเคราะห์เสียงพูด การย่อความอัตโนมัติ การสืบค้นข้อมูลข่าวสาร ตลอดจนการพัฒนาหุ่นยนต์ที่ชาญฉลาดในอนาคต ภาษาไทยถือเป็นภาษาหนึ่งในโลกที่ประมวลผลได้ยากมาก อันเนื่องมาจากปัญหาหลักคือ ไม่มีการเขียนแบ่งพยางค์ คำ หรือประโยค ไม่มีหลักเกณฑ์ตายตัวในการใช้ช่องว่างในภาษาเขียน การสะกดคำมีรูปแบบซับซ้อน และมีคำยืมจำนวนมาก ทำให้การแบ่งคำมีความกำกวมสูง ลองพิจารณาตัวอย่างต่อไปนี้แล้วทดลองแบ่งคำดูครับ
- ภาพนกกรกนกบนพรมตรงถนนหน้าพระพรหมณ์
- ปลามีตากลมถูกตากลมในที่ร่ม