Semantic Scholar자연어·LLM기법중요도 7Annual Meeting of the Association for Computational Linguistics

2년 전

의료 분야 특화 오픈소스 LLM, Mistral 기반 사전학습 모델

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

Yanis Labrak, Adrien Bazoge, Emmanuel Morin, P. Gourraud, Mickael Rouvier, Richard Dufour

인용 468인기 24.6

AI 분석

한줄 요약

BioMistral은 Mistral을 기반으로 PubMed Central에서 추가 사전학습한 의료 특화 오픈소스 LLM으로, 10개 의료 QA 벤치마크에서 최고 성능을 달성하고 7개 언어 다국어 평가를 최초로 수행했다.

풀어야 하는 문제

일반 목적 LLM을 의료 도메인에 적용할 때 도메인 특화 지식 부족과 성능 저하 문제가 있다. 또한 의료 분야에서 다국어 지원이 부족하여 비영어권 사용자의 접근성이 제한된다.

접근 방법

Mistral 7B를 기본 모델로 하고 PubMed Central의 생의학 문헌으로 추가 사전학습을 진행했다. 이후 10개 의료 QA 태스크(영어)로 평가하고, 양자화 및 모델 병합 기법을 탐색했다. 또한 벤치마크를 7개 언어로 자동 번역하여 다국어 평가를 수행했다.

결과·기여

BioMistral은 기존 오픈소스 의료 모델(GPT-4 등 포함)보다 우수한 성능을 보였으며, 특히 양자화 모델도 경쟁력 있는 결과를 냈다. 7개 언어 다국어 평가를 최초로 공개하여 의료 LLM의 다국어 일반화 연구를 촉진했다. 모든 데이터, 모델, 스크립트를 오픈소스로 공개했다.