Semantic Scholar벤치마크Annual Meeting of the Association for Computational Linguistics

2년 전

LLM 안전성 평가를 위한 계층적 포괄 벤치마크

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao

인용 239인기 21.9

AI 분석

SALAD-Bench는 대규모 언어 모델의 안전성을 종합적으로 평가하기 위한 계층적 벤치마크로, 공격 및 방어 방법 평가도 지원한다.

LLM의 안전성 평가는 중요하지만 기존 벤치마크는 규모가 작거나 다양성이 부족하고, 공격 및 방어 방법 평가를 통합하지 못하는 한계가 있다.

대규모 질문 데이터셋을 구축하고, 3단계 계층적 분류 체계를 도입했다. 표준 질문부터 공격·방어 변형이 포함된 복잡한 질문까지 포함하며, LLM 기반 MD-Judge 평가자를 개발하여 신뢰성 있는 평가를 수행한다.

LLM의 취약성과 방어 전략의 효과를 실험적으로 밝혔으며, 데이터와 평가자를 공개하여 LLM 안전성 연구를 촉진한다.