Tags:
Node Thumbnail

Kalev Leetaru นักวิจัยจากมหาวิทยาลัย Georgetown สกัดรูปภาพจาก "หนังสือเก่า" ที่โครงการ Internet Archive เคยสแกนเอาไว้กว่า 600 ล้านหน้า แล้วอัพโหลดรูปภาพหายากเหล่านี้ขึ้น Flickr ให้เป็นสมบัติสาธารณะ

รูปภาพทั้งหมดดูได้จาก Internet Archive Book Images ปัจจุบันมีรูปถูกอัพโหลดขึ้นไปแล้ว 2.6 ล้านรูป ที่สำคัญคือรูปเหล่านี้มาพร้อมกับ metadata แบบละเอียดมากๆ ทั้งชื่อหนังสือ เลขหน้า และข้อความที่รายล้อมรูปนั้นๆ เพื่อให้รู้บริบทว่ารูปเกี่ยวข้องกับอะไรอีกด้วย

รูปเก่าเหล่านี้มีอายุตั้งแต่ปี 1500 มาจนถึงปี 1922 ที่อายุลิขสิทธิ์ภาพหมดแล้ว ใครสนใจภาพเก่าจากหนังสือเมื่อ 500 ปีก่อนลองดูในหมวด หนังสือปี 1500 ได้ครับ

ตัวอย่างภาพเก่าจากหนังสือปี 1557

ตัวอย่างภาพแผนที่โลกในปี 1672

ตัวอย่างภาพเก่าจากหนังสือปี 1912

กระบวนการทำงานของ Leetaru คือเขียนซอฟต์แวร์สกัดรูปภาพมาจากไฟล์ PDF ที่มีคนสแกนหนังสือเอาไว้แล้ว และใช้ซอฟต์แวร์ OCR ช่วยแปลงข้อความในหนังสือหน้านั้นๆ เป็น text เพื่อให้ค้นข้อมูลได้ง่าย

ที่มา - BBC, Flickr Blog, Internet Archive

Get latest news from Blognone

Comments

By: itpcc
ContributoriPhoneRed HatUbuntu
on 31 August 2014 - 20:51 #736697
itpcc's picture

กระบวนการจาก PDF มาไฟล์รูปนี่ไม่ค่อยยาก มายากตรง OCR นี่สิ -.-


บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P

By: hostingdigg
Windows Phone
on 31 August 2014 - 21:59 #736710 Reply to:736697

Comment โดนใจ : ดูเหมือน OCR เป็นอะไรที่ยังไม่สำเร็จในบ้านเราเลยครับ แม้เห็นหลายเจ้าพยายาม แม้แต่ Nectec เองที่ถือเป็นยอดฝีมือ ทำแล้วก็ยังไม่สมบูรณ์ ดังนั้นการสแกนแล้วใช้ OCR ภาษาไทยกำกับ font เพื่อให้เปิด pdf ภาษาไทย หรือทำ full text จากการสแกน ยังไม่สมบูรณ์เหมือนภาษาอังกฤษ อยากให้พัฒนาต่อครับ

By: iPongHD
iPhoneAndroidUbuntuIn Love
on 31 August 2014 - 22:08 #736712 Reply to:736697
iPongHD's picture

Google Drive ผมว่าทำได้ดีเลยทีเดียว

By: thanathornboss
ContributorWindows PhoneAndroidUbuntu
on 1 September 2014 - 08:15 #736770 Reply to:736697
thanathornboss's picture

ArnThai ผมว่าทำได้ดีทีเดียว


I am Cortana.
Nice to meet you.

By: HudchewMan
ContributorAndroidWindowsIn Love
on 31 August 2014 - 21:22 #736705
HudchewMan's picture

เป็นโครงการที่ดีมากๆ เลยครับ

อยากเอาหนังสือข้อมูลที่ตัวเองมีอยู่มาทำเป็นดิจิทัลเหมือนกัน จะได้ค้นคืนข้อมูลได้ง่ายๆ แต่หมดปัญญาทำ (_ _")


~ HudchewMan's Station & @HudchewMan~

By: hostingdigg
Windows Phone
on 31 August 2014 - 22:06 #736711

เคยพบว่า การสแกนหนังสือเก่า ของ Internet Archive ใช้ความละเอียดเริ่มต้นที่ 1200dpi ขณะที่คนทั่วไปใช้ 300dpi หรือ 600dpi ก็คิดว่าดีแล้ว หลายหน่วยงานในไทย สแกนหนังสือเก่าก่อนจำหน่าย (ไม่รู้จริงๆ ว่าคำนี้หมายถึงอะไร ทิ้งหรือขาย) ออกจากห้องสมุด ด้วย resolution 300dpi

By: tekkasit
ContributorAndroidWindowsIn Love
on 31 August 2014 - 22:35 #736716 Reply to:736711
tekkasit's picture

คำว่า 'จำหน่าย' ในระเบียบพัสดุทางราชการว่าด้วยการจำหน่ายพัสดุจะครอบคลุมทั้ง ขายทอดตลาด, แลกเปลี่ยนระหว่างหน่วยงาน, โอนให้หน่วยงานอื่น และ แปรสภาพหรือทำลายครับ

ผมว่าถ้าเป็นหนังสือที่ไม่มีราคาค่างวดอะไร ดีไม่ดีอาจจะชั่งโลขายก็ได้มั้งครับ

By: nottoscale
Windows Phone
on 31 August 2014 - 23:32 #736726

หนังสือเก่า โดยเฉพาะตำราเก่า ๆ บ้านเราขายยากมากเลยครับ ไม่ใช่ว่าหลักสูตรมันเก่านะมันยังใช้ได้แต่บ้านเราไม่ค่อยอ่านหนังสือหรือเปล่านะ พวกร้านรับแต่นิยาย การ์ตูน ขายคล่อง

By: freeriod on 1 September 2014 - 00:49 #736743
freeriod's picture

ไทยน่าจะส่งไปให้เค้าสแกนบ้าง

By: inote
iPhone
on 1 September 2014 - 10:12 #736785

ปี1500นี่มันยุคไหนอ่ะ

By: Jaddngow
AndroidUbuntuWindows
on 1 September 2014 - 15:54 #736868
Jaddngow's picture

1557 สุดยอดมาก รู้สึกได้ถึงประวัติศาสตร์