OpenAI เริ่มทำ web crawler สำหรับดูดเว็บของตัวเอง แม้ในเว็บจะไม่ได้ระบุว่าจะดูดเว็บไปทำอะไรแต่ก็ระบุว่าข้อมูลที่ดูดไปอาจจะใช้สำหรับโมเดลปัญญาประดิษฐ์ในอนาคต
ตัว crawler จะใช้ User-Agent ว่า GPTBot สามารถกำหนดห้ามเข้าส่วนต่างๆ ของเว็บได้ทางไฟล์ robots.txt และทาง OpenAI ยังประกาศหมายเลขไอพีขาออก เพื่อให้เว็บไซต์บล็อคหรือตรวจสอบได้ว่าเป็น crawler ของ OpenAI จริง
ที่ผ่านมา OpenAI ไม่ได้เปิดเผยว่าตัว GPT ตัวหลังๆ ฝึกจากชุดข้อมูลใดบ้าง และแม้ว่าจะมีระบบปลั๊กอินให้ดูดเว็บได้ แต่ก็เป็นการอ่านเนื้อหาในเว็บเข้าไปให้ ChatGPT สรุปมาอีกทีเท่านั้น ไม่ใช่การฝึกโมเดลโดยตรง
ที่มา - OpenAI

on
ดูดเว็บไปฝึก นี้น่าจะไม่ work
rattananen Tue, 08/08/2023 - 11:03
ดูดเว็บไปฝึก นี้น่าจะไม่ work สำหรับ AI นะครับผมว่า
ข้อมูลในเว็บมันมีที่ผิดๆ ค่อนข้างเยอะ
จาก AI ที่ให้คำตอบผิดบ่อยอยู่แล้ว จะกลายเป็นผิดมากกว่าเดิม
AI ของ bing ก็คือกัน ผมถามอะไร มันก็เอา link เว็บอื่นมาให้
ใช้ search engine ธรรมดา จะประหยัดไฟรักโลกมากกว่าไหม
+1
Fzo Tue, 08/08/2023 - 12:06
In reply to ดูดเว็บไปฝึก นี้น่าจะไม่ work by rattananen
+1
ตอบมาให้แค่ 2-3 บรรทัด แล้วแปะลิงค์มาให้ ...
ไม่ได้ช่วยอะไรเลย
แต่ยิ่งข้อมูลเยอะขึ้น
Jirawat Tue, 08/08/2023 - 12:22
In reply to ดูดเว็บไปฝึก นี้น่าจะไม่ work by rattananen
แต่ยิ่งข้อมูลเยอะขึ้น มันจะฉลาดกว่าเดิมแน่ๆ ส่วน ผลลัพผิดหรือถูกขนาดไหน มนุษต้องลองใช้เอง ส่วนการเอา ดาต้าไปใช้จะผิดกฎหมายอะไรรึป่าว ตามที่อีลอนมัส บอก ยิ่งกฏหมาย ai ยังไม่มีด้วย แต่ก็เป็นธรรมชาติ คือปัญหา มันจะมาก่อนกฏหมายเสมอ
ข้อมูลที่ใช้ฝึกเดิมก็ดูดมานะค
lew Tue, 08/08/2023 - 13:41
In reply to ดูดเว็บไปฝึก นี้น่าจะไม่ work by rattananen
ข้อมูลที่ใช้ฝึกเดิมก็ดูดมานะครับ
ผมคิดข้อมูลชุดแรกๆ น่าจะมีการ
rattananen Tue, 08/08/2023 - 14:25
In reply to ข้อมูลที่ใช้ฝึกเดิมก็ดูดมานะค by lew
ผมคิดว่าข้อมูลชุดแรกๆ น่าจะมีการ clean น่ะครับ
แต่ถ้าไป crawling auto แบบนี้อาจจะไม่กรองอะไรเลย
คิดว่าก็น่าจะใช้ AI
Kazu Tue, 08/08/2023 - 17:26
In reply to ผมคิดข้อมูลชุดแรกๆ น่าจะมีการ by rattananen
คิดว่าก็น่าจะใช้ AI นั้นแหล่ะทำการกลองข้อมูล
ตอนแรกที่่เอาคนกลองข้อมูลชุดแรกๆ น่าจะมีข้อมูลการขัดกลองมากพอจะเอามาเทรนAIเพื่อกลองข้อมูลได้แล้วแหล่ะ
if useragent eq "GPTBot" ....
moonoiz Tue, 08/08/2023 - 16:06
In reply to ดูดเว็บไปฝึก นี้น่าจะไม่ work by rattananen
if useragent eq "GPTBot" .... fake data ....
ถ้ามีกฎหมายออกมาให้เดต้าเซ็ทต
Alysium Tue, 08/08/2023 - 19:26
ถ้ามีกฎหมายออกมาให้เดต้าเซ็ทต้องมีlicenseถูกต้องนี่คือ เจ๊งได้เลยบริษัทนี้
ยังดีที่มี User-Agent บอก
luffa Wed, 09/08/2023 - 08:55
ยังดีที่มี User-Agent บอก