Tags:
Topics: 
Node Thumbnail

OpenAI เปิดตัวชุดทดสอบ SWE-Lancer เป็นชุดทดสอบที่ได้จากงานเขียนโปรแกรม 1,488 งานบนแพลตฟอร์ม Upwork ปัญหาแต่ละข้อมีค่าจ้างระหว่าง 50-32,000 ดอลลาร์ รวมชุดทดสอบมีค่าจ้าง 1 ล้านดอลลาร์ เมื่อ AI แก้ปัญหาได้ จะได้คะแนนเป็นค่าจ้างของแต่ละข้อไป

จากปัญหารวมที่ให้มา 1 ล้านดอลลาร์ ทำค่าจ้างเฉพาะชุดทดสอบย่อย IC SWE ที่เน้นงานเขียนโปรแกรม คะแนนเต็ม 236,000 ดอลลาร์ ตอนนี้โมเดลที่ทำคะแนนได้สูงสุดคือ o3-high ที่เปิดตัวมาวันนี้ ได้ 65,250 ดอลลาร์ ขณะที่ o4-mini-high ทำค่าจ้างได้ 56,375 ดอลลาร์ สูงกว่า o1-high สองเท่าตัว โดยชุดทดสอบนี้ปัญญาประดิษฐ์ยังทำได้ห่างจากคะแนนเต็มมาก จึงเป็นชุดทดสอบที่น่าจะแสดงให้เห็นพัฒนาการของ AI ต่อไปในอนาคต เทียบกับ SWE-Bench Verified ที่ตอนนี้ o3 ทำคะแนนได้ 69.1% แล้ว น่าสนใจคือผลทดสอบของ Claude 3.5 ได้คะแนนถึง 58,000 ดอลลาร์ สูงกว่า o4-mini-high เสียอีก เมื่อแยกส่วนต่างๆ ยังแสดงให้เห็นว่าปัญญาประดิษฐ์ทุกตัวทำงาน backend ได้ดีมาก แต่คะแนนด้าน UX/UI กล้บแย่มาก

ชุดทดสอบอยู่ใน GitHub ตอนนี้ข้อจำกัดคือยังไม่รองรับ multimodal ทำให้ยังไม่เห็นภาพประกอบ

ที่มา - ArXiV

No Description

Get latest news from Blognone

Comments

By: tontan
ContributorAndroidSymbianUbuntu
on 17 April 2025 - 00:51 #1338323
tontan's picture

จริง ๆ น่าจะอีก(นาน?)สักพักกว่าจะแทนที่อาชีพหนึ่งได้สมบูรณ์ ชุดทดสอบอาจยังมีคนทำแบบ Pretraining on the Test Set Is All You Need อยู่และอาจไม่ได้สะท้อนโลกแห่งความเป็นจริง พอวัดไปเจอข้อจำกัดเดี๋ยวก็มีตัวใหม่ออกมาแทนที่ แต่พอนำไปใช้งานจริงยังไงต้องวัดบน task ของตัวเองอยู่ดีเพื่อความชัวร์ สิ่งที่น่ากังวลคือ Dead Internet theory น่าจะเริ่มเข้าใกล้ความเป็นจริงมากยิ่งขึ้น ต้องรีบหาทางป้องกัน อีกกรณีการนำโค้ดที่เปิดบน GitHub ไปใช้ทั้งไม่ได้ทำตาม oss license ที่ประกาศไว้และอะไรต่ออะไรอีก


บล็อก: wannaphong.com และ Python 3

By: PandaBaka
iPhoneAndroidWindows
on 17 April 2025 - 02:42 #1338325
PandaBaka's picture

ใช้จริง มันจะตกม้าตายตรงโมเดลพยายามเนียนประหยัดพลังงาน แบบสั่ง 10 ตอบ 5 อยู่น่ะสิ

By: lew
FounderJusci's WriterMEconomicsAndroid
on 17 April 2025 - 11:12 #1338339 Reply to:1338325
lew's picture

ถ้าแบบนั้นก็คือไม่ผ่านชุดทดสอบนี่ครับ (ซึ่งก็ไม่ผ่านเยอะจริงๆ คะแนนตอนนี้ยังอยู่แถวๆ 25% เอง) แต่ก็เป็นหลักชัยให้การพัฒนาในอนาคต

ถ้ามันผ่านไปถึง 70-80% ในอีกสักปีสองปีนี่โดยรวมก็มีปัญหากันเยอะแล้ว


lewcpe.com, @wasonliw

By: Pinery
ContributoriPhoneAndroidIn Love
on 17 April 2025 - 17:14 #1338372

อยากเห็นผล Claude 3.7 ด้วยเลย 🤣

By: panurat2000
ContributorSymbianUbuntuIn Love
on 17 April 2025 - 17:15 #1338373
panurat2000's picture

ยังแสดงให้เหฌ็นว่าปัญญาประดิษฐ์ทุกตัวทำงาน backend ได้ดีมาก

แสดงให้เหฌ็น => แสดงให้เห็น