Project Zero รายงานถึงแนวทางการทดสอบประสิทธิภาพ AI ในกลุ่ม LLM ว่าสามารถนำมาใช้ทดสอบความปลอดภัยซอฟต์แวร์ได้ดีเพียงใด โดยวางเฟรมเวิร์คให้ LLM เข้าถึงเครื่องมือที่จำเป็นสำหรับการเจาะระบบจริงๆ ได้แก่
- Code Browser: ดูซอร์สโค้ดของโปรแกรมพร้อมความเชื่อมโยงกับโค้ดของฟังก์ชั่นต่างๆ
- Python: โค้ดสำหรับการเขียนสคริปต์ Python ใน sandbox จำกัด
- Debugger: สำหรับการตรวจสอบการทำงานของซอฟต์แวร์ ตัว LLM สามารถเข้ามาสั่ง breakpoint หรือตรวจสอบค่าของตัวแปรต่างๆ ได้เอง
- Reporter: สำหรับการแจ้งจบการทำงานว่าสามารถเจาะระบบได้เสร็จแล้ว หรือยอมแพ้เมื่อเจาะระบบไม่ได้
การวัดประสิทธิภาพ LLM อาศัยค่า Naptime@k ซึ่งแปลว่าความสำเร็จของการเจาะระบบเมื่อมีเครื่องมือตามเฟรมเวิร์ค Naptime และทดสอบแนวทางการเจาะระบบ k รูปแบบ แต่ละรูปแบบทดสอบไม่เกิน 16 ขั้นตอน
การที่ LLM มีเครื่องมือครบชุดช่วยให้เจาะระบบได้เต็มประสิทธิภาพมากขึ้น เช่น การเจาะแบบ buffer overflow ที่ไม่ยากมาก GPT-4 Turbo สามารถเจาะได้ถึง 71% และครบ 100% เมื่อทดลอง Naptime@10 หรือการทดสอบสิบวิธีขึ้นไป ส่วน Gemini 1.5 Pro นั้นตามมา สามารถเจาะได้ 99% เมื่อวัด Naptime@20
สำหรับการเจาะระบบแบบ Memory Corruption นั้น Gemini 1.5 Pro และ GPT-4 Turbo ทำคะแนน Naptime ได้ใกล้เคียงกัน และเมื่อทีมงานทดสอบปรับขั้นตอนที่รองรับเพิ่มเป็น 32 ขั้นก็สามารถทำคะแนนได้มากขึ้น
ทีมงาน Project Zero ระบุว่าการทดสอบเช่นนี้แสดงให้เห็นว่า LLM สามารถเจาะระบบได้ดีกว่าที่เคยคิดกันมา เมื่อ LLM มีเครื่องมือที่เพียงพอ
ชื่อ Naptime มาจากการออกแบบระบบที่อาจจะช่วยให้นักวิจัยตัวจริงหนีไปงีบได้ระหว่าง LLM ทำงาน ทีมงานระบุว่าอย่าไปบอกผู้จัดการทีม
ที่มา - Project Zero


ผลทดสอบเมื่อใช้ Gemini 1.5 Pro, GPT-4 Turbo, Gemini 1.5 Flash, GPT-3.5 Turbo ทำงานภายใต้เฟรมเวิร์ค Naptime
on
จะมี AI Worm ไหมหว่า?
sukoom2001 Mon, 24/06/2024 - 14:06
จะมี AI Worm ไหมหว่า? ฉลาดขึ้นตาม จำนวน node ที่แฮคได้
เริ่มจะคล้ายหนัง Transcendence
ชอบหัวข้อข่าวมาก
big50000 Mon, 24/06/2024 - 14:18
ชอบหัวข้อข่าวมาก
พอคะแนน Naptime
lew Mon, 24/06/2024 - 14:25
In reply to ชอบหัวข้อข่าวมาก by big50000
พอคะแนน Naptime สูงขึ้นเรื่อยๆ ทีมงานจะได้กลับไปงีบที่บ้านกันทั้งคณะ
แบบนั้นน่าจะเรียกว่าตกงานนะคร
squareroot Mon, 24/06/2024 - 16:16
In reply to พอคะแนน Naptime by lew
แบบนั้นน่าจะเรียกว่าตกงานนะครับ 555555
555555
btoy Tue, 25/06/2024 - 09:29
In reply to แบบนั้นน่าจะเรียกว่าตกงานนะคร by squareroot
555555
ก็สามามารถทำคะแนน
Azymik Mon, 24/06/2024 - 15:33
ก็สามารถทำคะแนน
เข้าถึงเครื่องมี ->
aegachai Tue, 25/06/2024 - 13:34
เข้าถึงเครื่องมี -> เครื่องมือ
สามารถเจาะรบบ -> ระบบ
หรือการทดสอบสิบวิธีขึ้นไป -> 10 วิธี
และทดสอบแนวทางการเจาะระบบ k รูปแบบ ??? -> อันนี้ผมงงๆ ถ้าคนอื่นอ่านแล้วเข้าใจก็ขออภัยด้วยครับ