강화학습으로 멀티모달 대규모 언어모델의 추론 능력 향상

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaoshen Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu 외

인용 558인기 25.3

원문 보기 ↗

AI 분석

한줄 요약

Vision-R1은 강화학습을 활용하여 멀티모달 대규모 언어모델의 추론 능력을 향상시키는 방법으로, 고품질 CoT 데이터셋과 점진적 사고 억제 훈련을 통해 수학 추론 벤치마크에서 성능을 크게 개선했다.

풀어야 하는 문제

기존 멀티모달 대규모 언어모델(MLLM)은 강화학습(RL)을 통해 추론 능력을 활성화하기 어려웠다. 특히 질문 생성이나 반성(reflection) 같은 복잡한 추론 과정을 학습시키기 위해서는 고품질의 멀티모달 추론 데이터가 부족하다는 문제가 있었다.

접근 방법

1) 기존 MLLM과 DeepSeek-R1을 활용하여 모달리티 브리징과 데이터 필터링을 통해 20만 개의 고품질 멀티모달 CoT 데이터셋(Vision-R1-cold)을 구축했다. 2) 콜드 스타트 후 과도한 사고(overthinking)로 인한 최적화 문제를 완화하기 위해 점진적 사고 억제 훈련(PTST) 전략을 제안했다. 3) GRPO 알고리즘과 하드 포맷 결과 보상 함수를 사용하여 1만 개의 멀티모달 수학 데이터로 모델을 점진적으로 미세 조정했다.

결과·기여

다양한 멀티모달 수학 추론 벤치마크에서 평균 6% 성능 향상을 보였다. Vision-R1-7B는 MathVista에서 73.5% 정확도를 달성하여 OpenAI O1에 0.4% 차이로 근접했다. 32B와 72B 모델은 각각 76.4%, 78.2%를 기록했다. 데이터셋과 코드는 공개될 예정이다.