단 하나의 학습 예제로 LLM 수학 추론 능력을 향상시키는 강화학습

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He 외

인용 259인기 22.2

원문 보기 ↗

AI 분석

한줄 요약

단 하나의 학습 예제만으로 강화학습(RLVR)을 적용해 LLM의 수학 추론 능력을 획기적으로 향상시킬 수 있음을 실험적으로 입증했다.

풀어야 하는 문제

LLM의 수학 추론 능력을 향상시키기 위해 강화학습을 사용할 때, 수천 개의 학습 예제가 필요하다는 기존 가정을 검증하고, 최소한의 데이터로도 효과적인 학습이 가능한지 탐구한다.

접근 방법

Qwen2.5-Math-1.5B 기본 모델에 대해 단 하나의 수학 문제 예제를 사용해 RLVR(verifiable reward를 사용한 강화학습)을 적용했다. GRPO와 PPO 알고리즘을 사용했으며, 탐험을 촉진하기 위해 엔트로피 손실을 적절히 조정했다. 단일 예제의 효과를 다양한 모델과 벤치마크에서 검증했다.

결과·기여

MATH500 정확도가 36.0%에서 73.6%로 향상되었고, 6개 수학 벤치마크 평균이 17.6%에서 35.7%로 상승했다. 이는 1.2k 예제를 사용한 DeepScaleR 결과와 유사하다. 또한 교차 카테고리 일반화, 자기 반성 빈도 증가, 훈련 정확도 포화 후에도 테스트 성능이 지속적으로 향상되는 현상(포스트 포화 일반화)을 발견했다. 정책 그래디언트 손실이 주요 원인임을 확인하고, 탐험의 중요성을 강조했다.