Tags:
Topics: 
Node Thumbnail

Anthropic ผู้พัฒนา Claude ปัญญาประดิษฐ์สำคัญที่ชูจุดแข็งว่าสามารถรับอินพุตขนาดใหญ่ รายงานถึงผลการทดสอบการถามตอบเอกสารขนาดใหญ่ว่ามักได้ผลไม่ค่อยดีนัก โดยเฉพาะในกรณีที่ข้อความที่ใช้ตอบคำถามนั้นล้อมด้วยเรื่องที่ไม่เกี่ยวข้องกันนัก

รายงานระบุว่า Claude 2.1 นั้นถูกฝึกให้เลี่ยงการตอบคำถามหากไม่มีข้อความสนับสนุนคำตอบมากพอ แนวทางนี้มีเพื่อลดการตอบคำถามอย่างผิดๆ ทีมงานทดสอบโดยการถามคำถามถึงประโยคหนึ่งที่อยู่ในข้อความยาวๆ ที่พูดเรื่องเดียวกัน จากนั้นนำข้อความชุดนี้ไปผสมกับเอกสารอื่นจนเต็ม context 200k แล้วสลับตำแหน่งไปมา พบว่า Claude สามารถตอบคำถามได้เสมอไม่ว่าข้อความที่ใช้ตอบคำถามจะอยู่ตำแหน่งใดๆ แม้ประสิทธิภาพจะดีขึ้นเล็กน้อยหากข้อความอยู่ส่วนท้าย

หลังจากนั้นทีมงานเล่าว่าระหว่างการทดสอบภายใน ทีมงานพบว่าหากเติม prompt ให้ Claude ระบุข้อความที่เกี่ยวข้องก่อนที่จะตอบคำถาม Cluade จะตอบคำถามได้ดีขึ้นมาก จากการทดสอบข้อมูลชุด Needle in A Haystack ที่ Claude เคยตอบได้เพียง 27% เมื่อใส่ context เต็มความจุ คะแนนก็จะพุ่งขึ้นมาเป็น 98% ทีเดียว

ที่มา - Anthropic

No Description

Get latest news from Blognone