Anthropic
Anthropic เปิดตัวระบบป้องกันการเจาะ (jailbreak) โมเดลปัญญาประดิษฐ์แบบใหม่ชื่อว่า Constitutional Classifiers
โมเดลภาษาขนาดใหญ่มีระบบ safety ป้องกันการนำโมเดลไปใช้สร้างเนื้อหาอันตราย แต่มนุษย์ก็สามารถใช้ช่องโหว่บางอย่าง เช่น พรอมต์ขนาดยาวมากๆ หรือ การเขียนอินพุตที่ต่างไปจากข้อความที่พบเจอทั่วไป (ตัวอย่าง uSiNg uNuSuAl cApItALiZaTiOn) มาเจาะระบบป้องกันของโมเดล เพื่อหลอกล่อให้ได้คำตอบแบบที่ต้องการ
เนื่องจากช่องโหว่ของโมเดลมีหลายรูปแบบมาก วิธีการป้องกันย่อมแตกต่างกันไป ทำให้ Anthropic พัฒนากลไกแบบใหม่ที่ป้องกันการเจาะโมเดลได้ทุกแบบ (universal jailbreak)