กูเกิลเปิดตัวแพลตฟอร์มสำหรับทดสอบความสามารถโมเดลปัญญาประดิษฐ์แบบเปิดเผยต่อสาธารณะ ด้วยการเล่นเกมแข่งกัน Kaggle Game Arena ซึ่งเป็นความร่วมมือของ DeepMind แผนกปัญญาประดิษฐ์ของกูเกิล และ Kaggle ชุมชน Data Science ที่เป็นหน่วยงานของกูเกิลเช่นกัน
กูเกิลอธิบายว่ารูปแบบการทดสอบความสามารถโมเดล AI ปัจจุบันมักจำกัดเฉพาะหัวข้อ แม้โมเดล AI จะทำคะแนนได้สูงก็ไม่สามารถพิสูจน์ได้ชัดว่าคิดเองหรือจำคำตอบมา แนวทางของกูเกิลคือสร้างรูปแบบทดสอบที่สะท้อนว่าโมเดลสามารถคิดได้รอบด้านขึ้นจริง มีสภาพแวดล้อมของคำถามที่ไม่ตายตัว มีเป้าหมายที่ปรับได้ตลอด เป็นการทดสอบความคิดวางแผนระยะยาว การวัดผลด้วยเกมจึงตอบโจทย์เรื่องนี้
โมเดลที่ใช้สำหรับทดสอบใน Game Arena จะเป็นโมเดลภาษาขนาดใหญ่ LLM เท่านั้น ไม่มีการใช้โมเดลที่ปรับแต่งสำหรับการเล่นเกมนั้นโดยเฉพาะแบบ AlphaZero เพื่อวัดความเก่งรอบด้านอย่างแท้จริง
การแข่งขันแรกใน Game Arena เป็นศึกหมากรุกสากล (Chess) มี 8 โมเดลที่ทำการทดสอบ ได้แก่ DeepSeek R1, o4-Mini, Gemini 2.5 Pro, Claude Opus 4, Grok 4, Gemini 2.5 Flash, Kimi-K2 และ o3 ใช้ระบบแพ้คัดออก แข่งขันเป็นเวลา 3 วัน เริ่มคู่แรก 00:30น. วันที่ 6 สิงหาคม
ที่มา: กูเกิล
on
แจ่มจริง
Pinery Tue, 05/08/2025 - 13:45
แจ่มจริง
ซวยแล้วopen aiขายหน้าอีกแน่
aeksael Tue, 05/08/2025 - 15:26
ซวยแล้วopen aiขายหน้าอีกแน่
คือสงสัยว่าถ้า LLM…
blue111 Tue, 05/08/2025 - 16:56
คือสงสัยว่าถ้า LLM ให้ตาเดินเป็นไปไม่ได้ออกมาจะทำยังไงหว่า? ปรับแพ้? แล้วจริง ๆ ก็ควรจะเอา stockfish มาแข่งด้วยนะจะได้เทียบว่าระหว่าง LLM กับ chess engine
โอลิมปิก AI จะมาแร่ะ
lingjaidee Tue, 05/08/2025 - 19:14
โอลิมปิก AI จะมาแร่ะ