Kalev Leetaru นักวิจัยจากมหาวิทยาลัย Georgetown สกัดรูปภาพจาก "หนังสือเก่า" ที่โครงการ Internet Archive เคยสแกนเอาไว้กว่า 600 ล้านหน้า แล้วอัพโหลดรูปภาพหายากเหล่านี้ขึ้น Flickr ให้เป็นสมบัติสาธารณะ
รูปภาพทั้งหมดดูได้จาก Internet Archive Book Images ปัจจุบันมีรูปถูกอัพโหลดขึ้นไปแล้ว 2.6 ล้านรูป ที่สำคัญคือรูปเหล่านี้มาพร้อมกับ metadata แบบละเอียดมากๆ ทั้งชื่อหนังสือ เลขหน้า และข้อความที่รายล้อมรูปนั้นๆ เพื่อให้รู้บริบทว่ารูปเกี่ยวข้องกับอะไรอีกด้วย
รูปเก่าเหล่านี้มีอายุตั้งแต่ปี 1500 มาจนถึงปี 1922 ที่อายุลิขสิทธิ์ภาพหมดแล้ว ใครสนใจภาพเก่าจากหนังสือเมื่อ 500 ปีก่อนลองดูในหมวด หนังสือปี 1500 ได้ครับ
ตัวอย่างภาพเก่าจากหนังสือปี 1557
ตัวอย่างภาพแผนที่โลกในปี 1672
ตัวอย่างภาพเก่าจากหนังสือปี 1912
กระบวนการทำงานของ Leetaru คือเขียนซอฟต์แวร์สกัดรูปภาพมาจากไฟล์ PDF ที่มีคนสแกนหนังสือเอาไว้แล้ว และใช้ซอฟต์แวร์ OCR ช่วยแปลงข้อความในหนังสือหน้านั้นๆ เป็น text เพื่อให้ค้นข้อมูลได้ง่าย
ที่มา - BBC, Flickr Blog, Internet Archive
on
กระบวนการจาก PDF
itpcc Sun, 31/08/2014 - 20:51
กระบวนการจาก PDF มาไฟล์รูปนี่ไม่ค่อยยาก มายากตรง OCR นี่สิ -.-
Comment โดนใจ : ดูเหมือน OCR
hostingdigg Sun, 31/08/2014 - 21:59
In reply to กระบวนการจาก PDF by itpcc
Comment โดนใจ : ดูเหมือน OCR เป็นอะไรที่ยังไม่สำเร็จในบ้านเราเลยครับ แม้เห็นหลายเจ้าพยายาม แม้แต่ Nectec เองที่ถือเป็นยอดฝีมือ ทำแล้วก็ยังไม่สมบูรณ์ ดังนั้นการสแกนแล้วใช้ OCR ภาษาไทยกำกับ font เพื่อให้เปิด pdf ภาษาไทย หรือทำ full text จากการสแกน ยังไม่สมบูรณ์เหมือนภาษาอังกฤษ อยากให้พัฒนาต่อครับ
Google Drive
iPongHD Sun, 31/08/2014 - 22:08
In reply to กระบวนการจาก PDF by itpcc
Google Drive ผมว่าทำได้ดีเลยทีเดียว
ArnThai ผมว่าทำได้ดีทีเดียว
thanathornboss Mon, 01/09/2014 - 08:15
In reply to กระบวนการจาก PDF by itpcc
ArnThai ผมว่าทำได้ดีทีเดียว
เป็นโครงการที่ดีมากๆ
HudchewMan Sun, 31/08/2014 - 21:22
เป็นโครงการที่ดีมากๆ เลยครับ
อยากเอาหนังสือข้อมูลที่ตัวเองมีอยู่มาทำเป็นดิจิทัลเหมือนกัน จะได้ค้นคืนข้อมูลได้ง่ายๆ แต่หมดปัญญาทำ (_ _")
เคยพบว่า การสแกนหนังสือเก่า
hostingdigg Sun, 31/08/2014 - 22:06
เคยพบว่า การสแกนหนังสือเก่า ของ Internet Archive ใช้ความละเอียดเริ่มต้นที่ 1200dpi ขณะที่คนทั่วไปใช้ 300dpi หรือ 600dpi ก็คิดว่าดีแล้ว หลายหน่วยงานในไทย สแกนหนังสือเก่าก่อนจำหน่าย (ไม่รู้จริงๆ ว่าคำนี้หมายถึงอะไร ทิ้งหรือขาย) ออกจากห้องสมุด ด้วย resolution 300dpi
คำว่า 'จำหน่าย'
tekkasit Sun, 31/08/2014 - 22:35
In reply to เคยพบว่า การสแกนหนังสือเก่า by hostingdigg
คำว่า 'จำหน่าย' ในระเบียบพัสดุทางราชการว่าด้วยการจำหน่ายพัสดุจะครอบคลุมทั้ง ขายทอดตลาด, แลกเปลี่ยนระหว่างหน่วยงาน, โอนให้หน่วยงานอื่น และ แปรสภาพหรือทำลายครับ
ผมว่าถ้าเป็นหนังสือที่ไม่มีราคาค่างวดอะไร ดีไม่ดีอาจจะชั่งโลขายก็ได้มั้งครับ
หนังสือเก่า โดยเฉพาะตำราเก่า
nottoscale Sun, 31/08/2014 - 23:32
หนังสือเก่า โดยเฉพาะตำราเก่า ๆ บ้านเราขายยากมากเลยครับ ไม่ใช่ว่าหลักสูตรมันเก่านะมันยังใช้ได้แต่บ้านเราไม่ค่อยอ่านหนังสือหรือเปล่านะ พวกร้านรับแต่นิยาย การ์ตูน ขายคล่อง
ไทยน่าจะส่งไปให้เค้าสแกนบ้าง
freeriod Mon, 01/09/2014 - 00:49
ไทยน่าจะส่งไปให้เค้าสแกนบ้าง
ปี1500นี่มันยุคไหนอ่ะ
inote Mon, 01/09/2014 - 10:12
ปี1500นี่มันยุคไหนอ่ะ
1557 สุดยอดมาก
Jaddngow Mon, 01/09/2014 - 15:54
1557 สุดยอดมาก รู้สึกได้ถึงประวัติศาสตร์