Tags:
Forums: 

คือพอดีมี project เข้ามาให้ทำครับ อยากทราบว่าถ้าจะเขียน web spider ต้องเริ่มอย่างไรดีครับ พอดีผมมือใหม่ด้าน python มากๆ เลยครับ รบกวนด้วยนะครับ

Get latest news from Blognone
By: ABZee on 28 April 2009 - 06:28 #98527

มีคนเขียนโค้ดให้ใช้ไว้ที่ Link 1
อีกบทความที่น่าสนใจคือ Link 2

LongSpine.com

By: crucifier
iPhoneAndroidUbuntu
on 28 April 2009 - 07:03 #98528 Reply to:98527

อันนี้ใช้ได้เยี่ยมมากๆ ครับ แต่ไม่ฟรีนะ

By: kaiaukung on 28 April 2009 - 12:34 #98545

ขอบคุณมากนะครับ ที่เว็บของ ibm code รันแล้วเกิด error ครับ

By: kittipat
ContributorAndroidUbuntu
on 7 May 2009 - 08:02 #100213

ลองเข้าไป download lecture notes จาก Text Technologies ดูนะครับ (เป็นวิชาเรียนผมเอง) หรือถ้าอยากได้หนังสือผมแนะนำ "Search Engines: Information Retrieval in Practice"

จริงๆผมมี python web crawler เขียนเองอยู่นะ (การบ้านวิชาที่เรียนนั่นแหละ) แต่ในเมื่อเป็น project ก็ลองทำดูเองก่อนแล้วกันนะครับ

กระบวนการทำงานคร่าวๆของ crawler

  1. ใส่ url เริ่มต้น (ศัพท์เฉพาะเรียกว่า seed) เข้าไปใน frontier queue (ยังนึกคำแปลเพราะๆไม่ออก)
  2. ดึง url ขึ้นมาจาก frontier queue
  3. อ่าน robots.txt ของ host ของ url นั้น
  4. เข้าไปดึง web page มา เก็บ
  5. แกะ link ใน web page ออกมา แล้วก็เช็คกับ robots.txt ว่าเข้าไปอ่านได้หรือเปล่า ถ้าเข้าได้ก็ยัดลงไปใน frontier queue
  6. กลับไปเริ่มที่ 2.

โดยในระหว่างกระบวนการจริงๆแล้วควรมีการเช็คเนื้อหาซ้ำกันด้วย วิธีเช็คเข้าไปอ่านได้ตามเว็บข้างบนนะครับ นอกจากนั้นยังควรจะหน่วงเวลาระหว่างการดึงข้อมูลจากเว็บเดียวกันไว้ด้วย หรือถ้าให้ดีก็สลับเปลี่ยน host ไปเรื่อยๆ แล้วจริงๆข้อ 5. นี่ก็แยกเป็นอีก thread นึงไปก็ได้ครับ

แต่ถ้าไม่ lock spec ว่าต้อง python แนะนำให้ลองดู Lucene ครับ

By: peacedev
AndroidUbuntuWindows
on 9 December 2015 - 16:32 #867184

ศึกษา regex ครับ

By: crucifier
iPhoneAndroidUbuntu
on 11 December 2015 - 22:09 #867642 Reply to:867184

ไม่ทันกินหรอกครับ มันไม่ใช่แค่การจัดการข้อมูลที่โหลดมาได้ แต่ต้องจัดการพวก session/cookie และ จัดการข้อมูลที่โยนไปมาเสมือนเป็น browser ตัวหนึ่งด้วย หา library ที่ทำหน้าที่พวกนี้โดยเฉพาะมาใช้เอาสะดวกกว่าครับ

By: peacedev
AndroidUbuntuWindows
on 12 December 2015 - 12:50 #867720 Reply to:867642

แต่ผมว่ามันไม่ยากนะ
แค่ Python เองก็มี build-in lib ที่ต้องการอยู่ครบละ
แค่ต้องศึกษาวิธีใช้หน่อย

แค่ตัว build-in ของ Python ก็ทำ Back-End ของ Web-Browser ได้เลย

By: MayArts on 29 August 2017 - 18:08 #1004679 Reply to:867720

Back-end

By: MayArts on 30 August 2017 - 19:30 #1004678

PythonAAA

By: MayArts on 3 September 2017 - 20:10 #1005392

test

By: MayArts on 3 September 2017 - 20:13 #1005393 Reply to:1005392

thanks

By: fezop on 27 August 2021 - 22:49 #1221250

ไม่ใช่แค่เกี่ยวกับการจัดการข้อมูลที่โหลดเท่านั้น Roblox Guides get-mobdrovip.com