Tags:
Node Thumbnail

เมื่อปีที่แล้ว กูเกิลเพิ่มฟีเจอร์ OCR แปลงข้อความจาก PDF และรูปภาพลง Google Docs

ล่าสุดกูเกิลประกาศว่าฟีเจอร์ OCR รองรับภาษาเพิ่มเติมอีก 29 ภาษา ผมลองเช็คดูแล้วก็มีภาษาไทยด้วย แต่เท่าที่ลองทดสอบแล้วยังไม่สมบูรณ์ขนาดใช้งานจริงได้ ถ้าใครทดสอบแล้วได้ผลที่ดีกว่านี้ก็แจ้งมาได้ครับ

ที่มา - Google Docs Blog

ภาษาไทยมีให้เลือกตอนอัพโหลดไฟล์ภาพหรือ PDF แล้วสั่งให้แปลงเป็นข้อความ

No Description

ผมลองอัพไฟล์ภาพทดสอบ 2 ไฟล์ ดูผลกันเอาเองตามลิงก์

Get latest news from Blognone

Comments

By: iStyle
ContributoriPhoneAndroidSymbian
on 1 March 2011 - 09:36 #264423
iStyle's picture

ปวดตรั่บกว่า translate อีก= ='


May the Force Close be with you. || @nuttyi

By: joomla
iPhoneUbuntu
on 1 March 2011 - 09:43 #264425 Reply to:264423
joomla's picture

ใช้กุเกิ้ลค้นหาแล้วมันแปลหน้าเวบให้ ทีแรกอ่านงงๆ ว่าใครเขียนบทความฟร่ะ อ่านเข้าใจยากฉิบ อ่านไปอ่านมาเริ่มเอะใจ มันแปลจากภาษาอังกฤษเป็นไทยนี่เอง อ่านแล้วมึนมากๆ

By: AMp
In Love
on 1 March 2011 - 09:59 #264433

แปลงออกมาแล้ว นึกว่าภาษาเขมร - -*

By: wichate
Android
on 1 March 2011 - 10:06 #264437

เท่าที่ดู มันแยกภาษาอังกฤษกับภาษาไทย ที่อยู่ในหน้าเดียวกันไม่ได้แฮะ

By: Eka-X
ContributoriPhoneAndroidIn Love
on 1 March 2011 - 10:48 #264448

อย่างน้อยก็ถือเป็นการเริ่มต้นแหละครับ เผื่ออนาคตจะได้มี OCR ไทยที่ใช้งานได้จริงๆ
ของ NECTEC ก็ต้องให้กำลังใจกันต่อไป

By: Ekae
AndroidUbuntuWindows
on 1 March 2011 - 11:16 #264456
Ekae's picture

เป็นนิมิตหมายที่ดี

ปล ภาษาไทยมันยากจริงๆนะเนี้ย

By: paween_a
Android
on 1 March 2011 - 11:17 #264457
paween_a's picture

ดีดี

By: ko01
Android
on 1 March 2011 - 11:43 #264466

รอให้สมบูรณ์จะแจ่มมาก

By: nolykk
ContributoriPhoneAndroidUbuntu
on 1 March 2011 - 12:40 #264477
nolykk's picture

ขอตัดคำไทยใน docs ก่อนได้ไหมครับ = =


twitter.com/djnoly

By: hisoft
ContributorWindows PhoneWindows
on 1 March 2011 - 13:28 #264486
hisoft's picture

ของ NECTEC มีสองตัว ArnThai (อ่านไทย) กับ ThaiOCR ผมว่า ArnThai นี่แปลงได้ดูดีสุดแล้วมั้งครับแต่หยุดพัฒนาไปแล้ว รันบน XP ยังไม่ได้เลย ต้อง 98 ส่วน ThaiOCR นี่ก็พอๆ กับ Google เลย แต่ผมว่าเริ่มมีมันก็น่าจะพัฒนาต่อไปเรื่อยๆ นะ

By: paijc
ContributorWindows PhoneAndroidUbuntu
on 1 March 2011 - 17:52 #264523 Reply to:264486

ปัญหาของ software ไทยคือความต่อเนื่องในการพัฒนาเนี่ยแหละ

By: kohsija
AndroidUbuntuWindowsIn Love
on 1 March 2011 - 22:12 #264612 Reply to:264486
kohsija's picture

เคยใช้ ThaiOCR ช่วยทำงานส่งอาจารย์ด้วย ตอนเรียน สนุกจะตาย... แก้ manual เองเกือบหมด LOL

By: modeller
iPhoneAndroid
on 1 March 2011 - 15:49 #264511
modeller's picture

ถ้าทำภาษาไทยได้ดีๆแบบตัวโรมันนะ มันจะทุ่นแรงได้เยอะมาก

By: b98se
AndroidWindowsIn Love
on 1 March 2011 - 16:04 #264514
b98se's picture

abbyy finereader

By: pittaya
WriterAndroidUbuntuIn Love
on 1 March 2011 - 17:45 #264522
pittaya's picture

ผมลองเล่นดู พยายามปรับ threshold ของตัวหนังสือให้เหลือขาวกับดำแล้วก็ยังไม่ค่อยเวิร์คแฮะ https://skitch.com/pittaya/r1mb9/history.png-google-docs


pittaya.com

By: saknarak
Android
on 1 March 2011 - 19:53 #264536
saknarak's picture

ArnThai กับ ThaiOCR ไม่พัฒนาต่อ
ก็น่าจะประกาศเป็น public domain ไป หรือเป็น GPL ก็ได้
จะเกิดประโยชน์ต่อสาธารณะมากกว่า

By: Virusfowl
ContributorAndroidSymbianWindows
on 10 March 2011 - 04:23 #267441

ใช้ screen reader เข้าไปอ่านไฟล์ตัวอย่าง ฟังแล้วปวดตับ T_T

ราวกับภาษาเขมร ตามที่ ref บนว่าไว้นั่นล่ะ


@ Virusfowl

I'm not a dev. not yet a user.

By: lastall
ContributorAndroidSymbianUbuntu
on 28 April 2012 - 15:33 #413687

ไฟล์สแกนบทความจากมติชนสุดสัปดาห์ อัพเดต 28 เม.ย. 2555 OCR ถูกปรับปรุงขึ้นมา ผมคิดว่าควรเพิ่มระบบคำที่ถูกต้องลงไปตรวจสอบด้วย เช่น ตอนทื เป็นคำไม่ถูกต้อง จะถูกแทนที่ ด้วยคำที่ใช้สื่อสารในปัจจุบัน ตอนที่ แทน

By: phoneee on 12 July 2012 - 05:13 #443980

ocr ภาษาไทยที่รู้มาก็พัฒนาใช้กันเองในบริษัทใหญ่โตเป็นการภายใน
ผมว่าทำไมเราไม่ร่างจดหมายเปิดผนึก ขอให้ nectec เปิดซอร์ส arnthai เลยล่ะครับ เงินภาษีประชาชนแท้ๆ
ถ้าทำก็น่าจะทำให้เป็นข่าว และคนจะสนใจกันเยอะขึ้น ประชาชนเข้าถึงคอมพิวเตอร์และเครื่องสแกนกันมากแล้ว ต้องให้การสนับสนุนแน่นอน

ผมว่าน่าจะทำได้นะ เอามาพัฒนาเพิ่มกับ neural network ด้วยนี่น่าจะเยี่ยมเลย