Tags:
Topics: 
Node Thumbnail

OpenAI เริ่มทำ web crawler สำหรับดูดเว็บของตัวเอง แม้ในเว็บจะไม่ได้ระบุว่าจะดูดเว็บไปทำอะไรแต่ก็ระบุว่าข้อมูลที่ดูดไปอาจจะใช้สำหรับโมเดลปัญญาประดิษฐ์ในอนาคต

ตัว crawler จะใช้ User-Agent ว่า GPTBot สามารถกำหนดห้ามเข้าส่วนต่างๆ ของเว็บได้ทางไฟล์ robots.txt และทาง OpenAI ยังประกาศหมายเลขไอพีขาออก เพื่อให้เว็บไซต์บล็อคหรือตรวจสอบได้ว่าเป็น crawler ของ OpenAI จริง

ที่ผ่านมา OpenAI ไม่ได้เปิดเผยว่าตัว GPT ตัวหลังๆ ฝึกจากชุดข้อมูลใดบ้าง และแม้ว่าจะมีระบบปลั๊กอินให้ดูดเว็บได้ แต่ก็เป็นการอ่านเนื้อหาในเว็บเข้าไปให้ ChatGPT สรุปมาอีกทีเท่านั้น ไม่ใช่การฝึกโมเดลโดยตรง

ที่มา - OpenAI

Get latest news from Blognone

Comments

By: rattananen
AndroidWindows
on 8 August 2023 - 11:03 #1291237

ดูดเว็บไปฝึก นี้น่าจะไม่ work สำหรับ AI นะครับผมว่า
ข้อมูลในเว็บมันมีที่ผิดๆ ค่อนข้างเยอะ
จาก AI ที่ให้คำตอบผิดบ่อยอยู่แล้ว จะกลายเป็นผิดมากกว่าเดิม

AI ของ bing ก็คือกัน ผมถามอะไร มันก็เอา link เว็บอื่นมาให้
ใช้ search engine ธรรมดา จะประหยัดไฟรักโลกมากกว่าไหม

By: Fzo
ContributorAndroid
on 8 August 2023 - 12:06 #1291243 Reply to:1291237
Fzo's picture

+1
ตอบมาให้แค่ 2-3 บรรทัด แล้วแปะลิงค์มาให้ ...
ไม่ได้ช่วยอะไรเลย


WE ARE THE 99%

By: Jirawat
Android
on 8 August 2023 - 12:22 #1291248 Reply to:1291237
Jirawat's picture

แต่ยิ่งข้อมูลเยอะขึ้น มันจะฉลาดกว่าเดิมแน่ๆ ส่วน ผลลัพผิดหรือถูกขนาดไหน มนุษต้องลองใช้เอง ส่วนการเอา ดาต้าไปใช้จะผิดกฎหมายอะไรรึป่าว ตามที่อีลอนมัส บอก ยิ่งกฏหมาย ai ยังไม่มีด้วย แต่ก็เป็นธรรมชาติ คือปัญหา มันจะมาก่อนกฏหมายเสมอ

By: lew
FounderJusci's WriterMEconomicsAndroid
on 8 August 2023 - 13:41 #1291258 Reply to:1291237
lew's picture

ข้อมูลที่ใช้ฝึกเดิมก็ดูดมานะครับ


lewcpe.com, @wasonliw

By: rattananen
AndroidWindows
on 8 August 2023 - 14:25 #1291269 Reply to:1291258

ผมคิดว่าข้อมูลชุดแรกๆ น่าจะมีการ clean น่ะครับ

แต่ถ้าไป crawling auto แบบนี้อาจจะไม่กรองอะไรเลย

By: Kazu
iPhoneWindows PhoneAndroidUbuntu
on 8 August 2023 - 17:26 #1291287 Reply to:1291269

คิดว่าก็น่าจะใช้ AI นั้นแหล่ะทำการกลองข้อมูล
ตอนแรกที่่เอาคนกลองข้อมูลชุดแรกๆ น่าจะมีข้อมูลการขัดกลองมากพอจะเอามาเทรนAIเพื่อกลองข้อมูลได้แล้วแหล่ะ

By: moonoiz on 8 August 2023 - 16:06 #1291285 Reply to:1291237

if useragent eq "GPTBot" .... fake data ....

By: Alysium on 8 August 2023 - 19:26 #1291292

ถ้ามีกฎหมายออกมาให้เดต้าเซ็ทต้องมีlicenseถูกต้องนี่คือ เจ๊งได้เลยบริษัทนี้

By: luffa
AndroidRed HatSUSEUbuntu
on 9 August 2023 - 08:55 #1291312

ยังดีที่มี User-Agent บอก