Anthropic เปิดตัว Claude Opus 4.7 ที่ผลทดสอบจำนวนมากฉีกออกจาก Opus เวอร์ชั่นก่อนหน้านี้หลายตัว ทำคะแนนได้กึ่งกลางระหว่าง Opus 4.6 และ Mythos ที่ยังไม่เปิดให้บริการกับคนทั่วไป
คะแนนทดสอบดีขึ้นหลายจุด แต่ Anthropic ยกจุดสำคัญในอัพเดตครั้งนี้ ได้แก่
- การทำตามคำสั่งได้แม่นยำขึ้น ตีความคำสั่งตรงตัวมากขึ้น และลดการข้ามคำสั่งบางส่วน ทาง Anthropic เตือนว่าแนวทางนี้อาจจะทำให้พรอมต์เดิมมีพฤติกรรมเปลี่ยนไป ควรทดสอบก่อนใช้งาน
- รองรับภาพ 3.75 ล้านพิกเซล สามารถอ่านแผนภาพความละเอียดสูง สั่งคำสั่งหน้าจอได้อย่างแม่นยำ
- ทดสอบกับงานที่มีการใช้งานจริง เช่น การเงิน, กฎหมาย, และหัวข้อเฉพาะทางต่างๆ มากขึ้น ผลทดสอบภายในแสดงให้เห็นว่าคะแนนดีขึ้นชัดเจน
- ระบบหน่วยความจำแบบไฟล์ จำข้อมูลได้นานขึ้นหลังทำงานต่อเนื่องยาวนาน
การใช้งานผ่าน API สามารถเลือกการคิดก่อนตอบระดับมากเป็นพิเศษ (xhigh) เพิ่มขึ้นมา เป็นค่าตรงกลางระหว่าง high และ max สำหรับการใช้งานผ่าน Claude โดยตรงจะมีออปชั่นให้ตั้งงบประมาณการรันแต่ละครั้งได้
ทาง Anthropic เตือนว่า Opus 4.7 ใช้ tokenizer ใหม่ทำให้คำนวณโทเค็นได้มากขึ้นสูงสุด 35% และมันยังคิดมากขึ้นเรื่อยๆ หากทำงานแบบ agentic มาแล้วหลายรอบ ทำให้โดยรวมค่าใช้งานสูงขึ้น อย่างไรก็ดีการใช้งานที่ระดับการคิดก่อนตอบเท่าเดิมจะได้ผลลัพธ์ดีขึ้นด้วย
ที่มา - Anthropic
on
ผลการทดสอบแบบ Trust Me Bro…
PandaBaka Fri, 17/04/2026 - 15:36
ผลการทดสอบแบบ Trust Me Bro อีกแล้วมั้ง ใช้จริงแย่กว่า 4.0 ด้วยซ้ำ