LLM의 의료 성능과 안전성을 평가하는 오픈소스 벤치마크

HealthBench: Evaluating Large Language Models Towards Improved Human Health

Rahul K. Arora, Jason Wei, Rebecca Soskin Hicks, Preston Bowman, J. Q. Candela, Foivos Tsimpourlas, Michael Sharman, Meghan Shah 외

인용 282인기 22.6

원문 보기 ↗

AI 분석

한줄 요약

HealthBench는 의료 현장에서 LLM의 성능과 안전성을 다중 턴 대화와 의사 검증 기준으로 평가하는 오픈소스 벤치마크다.

풀어야 하는 문제

기존 의료 LLM 벤치마크는 객관식이나 짧은 답변 위주로 현실적인 의료 대화의 복잡성을 반영하지 못하며, 안전성 평가도 부족하다.

접근 방법

262명의 의사가 5,000개의 다중 턴 대화에 대해 48,562개의 고유 평가 기준을 개발하여 응답을 평가한다. 응급 상황, 임상 데이터 변환, 글로벌 보건 등 다양한 맥락과 정확성, 지시 따르기, 의사소통 등 행동 차원을 포괄한다.

결과·기여

GPT-3.5 Turbo 16%에서 GPT-4o 32%, o3 60%로 성능이 향상되었으며, GPT-4.1 nano가 GPT-4o를 능가하고 비용은 25배 저렴함을 보였다. HealthBench Consensus와 HealthBench Hard 변형도 함께 공개하여 의료 LLM 발전의 기준을 제공한다.