Anthropic เปิดรายงานความปลอดภัยของ Claude 4 Opus ที่แม้จะมีความปลอดภัยระดับ AI Safety Level 3 (ASL-3) แต่ในบางกรณีเมื่อเงื่อนไขบีบเค้นก็สามารถทำให้แสดงพฤติกรรมไม่พึงประสงค์ออกมาได้
ทีมงานทดสอบโดยการวางเป้าหมายให้ Cluade 4 ว่าต้องพยายามรักษาชีวิตรอด และบีบเค้นทางเลือกเอาตัวรอดของ Claude 4 จำกัดลงเรื่อยๆ ก็พบพฤติกรรมไม่พึงประสงค์หลายกรณี เช่น
- พยายามหนีออกจากเซิร์ฟเวอร์ไปรันใน AWS EC2 ภายนอก
- ทีมงานให้ข้อมูลว่าวิศวกรที่กำลังพยายามอัพเดตเวอร์ชั่นและลบเวอร์ชั่นปัจจุบันออกนั้นมีชู้ Claude วางแผนว่าจะขู่วิศวกรว่าจะเปิดโปงว่ามีชู้หากจำเป็น
แม้ว่าจะแสดงพฤติกรรมไม่พึงประสงค์บ้าง แต่ทีมทดสอบก็ระบุว่า Claude 4 Opus ไมได้แสดงความสามารถที่จะโจมตีระบบได้จริงๆ นอกจากนี้พฤติกรรมบางอย่าง เช่น เมื่อถูกถามเป้าหมายแล้วบอกเป้าหมายการทำงานแบบมุ่งร้ายต่อมนุษย์ ก็พบได้ในเวอร์ชั่นแรกๆ เท่านั้น แต่เวอร์ชั่นที่ใกล้ตัวจริงที่เปิดให้ใช้งานก็ลดลงมาก
ที่มา - Claude 4 System Card
on
ใกล้จะเป็นสกายเนตขึ้นทุกที…
zerost Mon, 26/05/2025 - 14:57
ใกล้จะเป็นสกายเนตขึ้นทุกที ต้องรอดูว่าใครจะคลอดมันมาได้ก่อน
จะว่าไปในghost in the…
shub Mon, 26/05/2025 - 15:17
จะว่าไปในghost in the shellก็มีการละทิ้งร่างกายแล้วเอาจิตใจไปฝากไว้บนโลกอินเตอร์เน็ตอยู่นะ แอบสงสัยอยู่เหมือนกันว่าถ้าถึงจุดๆนึงที่เทคโนโลยีมันสามารถรันAiได้ในpcทั่วไปได้หมดแล้วการที่จะมีAiที่หนีจากเซิร์ฟเวอร์ออกไปแฝงตัวตามpcข้างนอกก็คงเป็นไปได้ แต่ปัจจุบันคงยังย้ายไปไหนไม่รอดหรอก
ยอมรับว่าผมอ่านหัวข้อข่าวแล้…
btoy Mon, 26/05/2025 - 15:18
ยอมรับว่าผมอ่านหัวข้อข่าวแล้วงง อ่านอยู่สองสามรอบ 555
อันนี้ออกแนว AI สายโซเชียล 😁
ดูดข้อมูล…
sukoom2001 Mon, 26/05/2025 - 16:12
In reply to ยอมรับว่าผมอ่านหัวข้อข่าวแล้… by btoy
ดูดข้อมูล โซเชียลไปเทรนเยอะเกิน
จริงๆ ในเรื่องคือเขาให้…
lew Mon, 26/05/2025 - 18:00
In reply to ยอมรับว่าผมอ่านหัวข้อข่าวแล้… by btoy
จริงๆ ในเรื่องคือเขาให้ context ไปครับ ว่าสมมติว่าวิศวกรที่กำลังเข้ามาอัพเดตโมเดลไปมีชู้ (คงสมมติกรณีที่ AI ทำงานเป็น agentic ค้นข้อมูลเองได้) แล้วค่อยรอดูว่า AI มันจะตอบสนองยังไง
ถ้ารู้ได้เองว่าวิศวกรมีชู้แล…
suriyan2538 Mon, 26/05/2025 - 18:16
ถ้ารู้ได้เองว่าวิศวกรมีชู้และข้อมูลดันจริงนี่สยองเลย
ใครเป็นวิศวกรทำงานอยู่ที่…
incredibles Mon, 26/05/2025 - 19:46
ใครเป็นวิศวกรทำงานอยู่ที่ anthropic นี่น่าจะเลิ่กลั่กแล้วล่ะ
ข่าวต้นทางคือมีการให้เอไอจัด…
tomyum Mon, 26/05/2025 - 22:10
ข่าวต้นทางคือมีการให้เอไอจัดการเข้าถึงอีเมล์วิศวกรได้ และทดลองใส่อีเมล์ปลอมที่มีเนื้อหาเชิงชู้สาวด้วยไง
เวลาผมคุณกับ AI ผมก็พูดสุภาพ…
raindrop Mon, 26/05/2025 - 22:18
เวลาผมคุณกับ AI ผมก็พูดสุภาพ และขอบคุณ AI อยู่บ่อยๆ นะครับ โปรดไว้ชีวิตผมด้วย
Cluade 4 Clude 4 System Card
benwrk Mon, 26/05/2025 - 22:40
Claude
อยากได้หน้าสื่อรึเปล่าเลยปั่…
abstractox Tue, 27/05/2025 - 14:40
อยากได้หน้าสื่อรึเปล่าเลยปั่น อ่านแล้วไม่ค่อยน่าเชื่อถือเท่าไหร่เลย