เมื่อปีที่แล้ว กูเกิลเพิ่มฟีเจอร์ OCR แปลงข้อความจาก PDF และรูปภาพลง Google Docs
ล่าสุดกูเกิลประกาศว่าฟีเจอร์ OCR รองรับภาษาเพิ่มเติมอีก 29 ภาษา ผมลองเช็คดูแล้วก็มีภาษาไทยด้วย แต่เท่าที่ลองทดสอบแล้วยังไม่สมบูรณ์ขนาดใช้งานจริงได้ ถ้าใครทดสอบแล้วได้ผลที่ดีกว่านี้ก็แจ้งมาได้ครับ
ที่มา - Google Docs Blog
ภาษาไทยมีให้เลือกตอนอัพโหลดไฟล์ภาพหรือ PDF แล้วสั่งให้แปลงเป็นข้อความ

ผมลองอัพไฟล์ภาพทดสอบ 2 ไฟล์ ดูผลกันเอาเองตามลิงก์
on
ปวดตรั่บกว่า translate อีก=
iStyle Tue, 01/03/2011 - 09:36
ปวดตรั่บกว่า translate อีก= ='
ใช้กุเกิ้ลค้นหาแล้วมันแปลหน้า
joomla Tue, 01/03/2011 - 09:43
In reply to ปวดตรั่บกว่า translate อีก= by iStyle
ใช้กุเกิ้ลค้นหาแล้วมันแปลหน้าเวบให้ ทีแรกอ่านงงๆ ว่าใครเขียนบทความฟร่ะ อ่านเข้าใจยากฉิบ อ่านไปอ่านมาเริ่มเอะใจ มันแปลจากภาษาอังกฤษเป็นไทยนี่เอง อ่านแล้วมึนมากๆ
แปลงออกมาแล้ว นึกว่าภาษาเขมร
AMp Tue, 01/03/2011 - 09:59
แปลงออกมาแล้ว นึกว่าภาษาเขมร - -*
เท่าที่ดู
wichate Tue, 01/03/2011 - 10:06
เท่าที่ดู มันแยกภาษาอังกฤษกับภาษาไทย ที่อยู่ในหน้าเดียวกันไม่ได้แฮะ
อย่างน้อยก็ถือเป็นการเริ่มต้น
Eka-X Tue, 01/03/2011 - 10:48
อย่างน้อยก็ถือเป็นการเริ่มต้นแหละครับ เผื่ออนาคตจะได้มี OCR ไทยที่ใช้งานได้จริงๆ
ของ NECTEC ก็ต้องให้กำลังใจกันต่อไป
เป็นนิมิตหมายที่ดี ปล
Ekae Tue, 01/03/2011 - 11:16
เป็นนิมิตหมายที่ดี
ปล ภาษาไทยมันยากจริงๆนะเนี้ย
ดีดี
paween_a Tue, 01/03/2011 - 11:17
ดีดี
รอให้สมบูรณ์จะแจ่มมาก
ko01 Tue, 01/03/2011 - 11:43
รอให้สมบูรณ์จะแจ่มมาก
ขอตัดคำไทยใน docs
nolykk Tue, 01/03/2011 - 12:40
ขอตัดคำไทยใน docs ก่อนได้ไหมครับ = =
ของ NECTEC มีสองตัว ArnThai
hisoft Tue, 01/03/2011 - 13:28
ของ NECTEC มีสองตัว ArnThai (อ่านไทย) กับ ThaiOCR ผมว่า ArnThai นี่แปลงได้ดูดีสุดแล้วมั้งครับแต่หยุดพัฒนาไปแล้ว รันบน XP ยังไม่ได้เลย ต้อง 98 ส่วน ThaiOCR นี่ก็พอๆ กับ Google เลย แต่ผมว่าเริ่มมีมันก็น่าจะพัฒนาต่อไปเรื่อยๆ นะ
ปัญหาของ software
paijc Tue, 01/03/2011 - 17:52
In reply to ของ NECTEC มีสองตัว ArnThai by hisoft
ปัญหาของ software ไทยคือความต่อเนื่องในการพัฒนาเนี่ยแหละ
เคยใช้ ThaiOCR
kohsija Tue, 01/03/2011 - 22:12
In reply to ของ NECTEC มีสองตัว ArnThai by hisoft
เคยใช้ ThaiOCR ช่วยทำงานส่งอาจารย์ด้วย ตอนเรียน สนุกจะตาย... แก้ manual เองเกือบหมด LOL
ถ้าทำภาษาไทยได้ดีๆแบบตัวโรมัน
modeller Tue, 01/03/2011 - 15:49
ถ้าทำภาษาไทยได้ดีๆแบบตัวโรมันนะ มันจะทุ่นแรงได้เยอะมาก
abbyy finereader
b98se Tue, 01/03/2011 - 16:04
abbyy finereader
ผมลองเล่นดู พยายามปรับ
pittaya Tue, 01/03/2011 - 17:45
ผมลองเล่นดู พยายามปรับ threshold ของตัวหนังสือให้เหลือขาวกับดำแล้วก็ยังไม่ค่อยเวิร์คแฮะ https://skitch.com/pittaya/r1mb9/history.png-google-docs
ArnThai กับ ThaiOCR
saknarak Tue, 01/03/2011 - 19:53
ArnThai กับ ThaiOCR ไม่พัฒนาต่อ
ก็น่าจะประกาศเป็น public domain ไป หรือเป็น GPL ก็ได้
จะเกิดประโยชน์ต่อสาธารณะมากกว่า
ใช้ screen reader
Virusfowl Thu, 10/03/2011 - 04:23
ใช้ screen reader เข้าไปอ่านไฟล์ตัวอย่าง ฟังแล้วปวดตับ T_T
ราวกับภาษาเขมร ตามที่ ref บนว่าไว้นั่นล่ะ
ไฟล์สแกนบทความจากมติชนสุดสัปด
lastall Sat, 28/04/2012 - 15:33
ไฟล์สแกนบทความจากมติชนสุดสัปดาห์ อัพเดต 28 เม.ย. 2555 OCR ถูกปรับปรุงขึ้นมา ผมคิดว่าควรเพิ่มระบบคำที่ถูกต้องลงไปตรวจสอบด้วย เช่น ตอนทื เป็นคำไม่ถูกต้อง จะถูกแทนที่ ด้วยคำที่ใช้สื่อสารในปัจจุบัน ตอนที่ แทน
ocr
phoneee Thu, 12/07/2012 - 05:13
ocr ภาษาไทยที่รู้มาก็พัฒนาใช้กันเองในบริษัทใหญ่โตเป็นการภายใน
ผมว่าทำไมเราไม่ร่างจดหมายเปิดผนึก ขอให้ nectec เปิดซอร์ส arnthai เลยล่ะครับ เงินภาษีประชาชนแท้ๆ
ถ้าทำก็น่าจะทำให้เป็นข่าว และคนจะสนใจกันเยอะขึ้น ประชาชนเข้าถึงคอมพิวเตอร์และเครื่องสแกนกันมากแล้ว ต้องให้การสนับสนุนแน่นอน
ผมว่าน่าจะทำได้นะ เอามาพัฒนาเพิ่มกับ neural network ด้วยนี่น่าจะเยี่ยมเลย