Trendar
← 논문 목록
Semantic Scholar벤치마크Neural Information Processing Systems
2년 전

LLM 탈옥 공격 평가를 위한 오픈 벤치마크

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion

인용 493인기 24.8
AI 분석

한줄 요약

LLM 탈옥 공격의 평가를 표준화하고 재현성을 높이기 위한 오픈소스 벤치마크.

풀어야 하는 문제

LLM 탈옥 공격 평가에는 명확한 기준이 없고, 비용과 성공률 측정 방식이 제각각이며, 많은 연구가 재현 불가능하다.

접근 방법

최신 탈옥 프롬프트를 모은 저장소, OpenAI 정책에 부합하는 100개 행동 데이터셋, 표준 위협 모델과 평가 함수를 포함한 프레임워크, 리더보드를 제공한다.

결과·기여

공격과 방어의 성능을 추적할 수 있는 표준화된 평가 체계를 구축하여 커뮤니티에 긍정적 영향을 줄 것으로 기대된다.