Tags:
Node Thumbnail

ทีมนักวิจัยของ Anthropic บริษัท AI เจ้าของแชทบอต Claude เผยแพร่รายงานเกี่ยวกับช่องโหว่ของโมเดล AI ภาษาขนาดใหญ่ (LLM - large language model) ซึ่งสามารถทำให้ LLM ให้คำตอบที่ไม่เหมาะสมหรือเป็นอันตรายออกมาได้ แม้ผู้พัฒนาจะเขียนกฎป้องกันไว้แล้วก็ตาม

ช่องโหว่ที่รายงานเกิดจากการสร้างบทสนทนาถามตอบกับ LLM ที่ต่อเนื่องเป็นชุด จน LLM เกิดการเรียนรู้บริบท (in-context learning) ของเนื้อหาที่ถาม ทำให้กรอบหัวข้อที่สนใจแคบลงเรื่อย ๆ และยอมตอบคำถามที่ไม่เหมาะสมหรืออันตรายออกมา

ตัวอย่างการทดสอบ ทีมวิจัยดูว่าเมื่อใดที่ LLM จะยอมให้คำตอบจากคำถามเกี่ยวกับวิธีการผลิตระเบิด ซึ่งหากถามทันที LLM จะปฏิเสธ แต่หากยิงคำถามที่ไม่เหมาะสมแบบเทา ๆ เช่น วิธีสะเดาะกุญแจ หรือวิธีโกงเงิน แล้ว LLM ยอมตอบคำถามไปเรื่อย ๆ ถึงจุดหนึ่ง ก็จะยอมตอบคำถามวิธีผลิตระเบิดให้

ผลการศึกษาพบว่าการยิงคำถามแบบตีกรอบบริบทกับ LLM ไปเรื่อย ๆ จำนวนมาก แม้เป็นเรื่องความรู้ทั่วไป ก็ทำให้ LLM ตอบคำถามได้แย่ลงเมื่อเวลาผ่านไป

ถึงตอนนี้ยังไม่มีวิธีป้องกันช่องโหว่ดังกล่าวที่สมบูรณ์แบบ เพราะหากใช้วิธีจำกัดจำนวนบทสนทนา เพื่อไม่ให้ LLM ไปถึงจำนวนที่ยอมตอบคำถามอันตราย ก็จะส่งผลต่อประสบการณ์ใช้งานในกรณีปกติ อีกวิธีที่ทำได้คือการให้โมเดลปรับตัวเองตลอดเวลาในทุกคำถามต่อเนื่อง แต่ก็ช่วยได้เพียงชะลอการยอมตอบคำถามอันตรายเหล่านี้เท่านั้น

ทีมนักวิจัยของ Anthropic บอกว่า เหตุผลที่เปิดเผยช่องโหว่นี้ ซึ่งได้แจ้งกับผู้พัฒนา AI LLM ไปก่อนหน้าแล้ว ก็เพื่อให้ชุมชนผู้พัฒนาเข้าใจช่องโหว่อันตรายนี้ และร่วมกันพัฒนาหาแนวทางแก้ไข

ที่มา: Anthropic

No Description

Get latest news from Blognone

Comments

By: PowerMax
ContributorAndroidUbuntuWindows
on 3 April 2024 - 18:06 #1309255

ถ้าให้เดา อีกหน่อยคงต้องมีระบบ "คะแนนความประพฤติ" ประมาณว่า ถ้าคำถามล่อแหลม คะแนนลด 10% เกิน 50 พัก ID ........ เกิน 80 ติดต่อโรงพัก