확산 기반 언어 모델의 새로운 기준, Dream 7B

Dream 7B: Diffusion Large Language Models

Jiacheng Ye, Zhihui Xie, Lin Zheng, Jiahui Gao, Zirui Wu, Xin Jiang, Zhenguo Li, Lingpeng Kong

인용 360인기 23.6

원문 보기 ↗

AI 분석

한줄 요약

Dream 7B는 이산 확산 모델링을 사용한 가장 강력한 오픈 확산 대규모 언어 모델로, 자기회귀 모델 대비 병렬 처리와 유연한 추론이 가능하다.

풀어야 하는 문제

자기회귀 언어 모델은 순차적 생성으로 인해 추론 속도가 느리고, 생성 순서에 제약이 있으며, 인필링이나 품질-속도 조절이 어렵다. 확산 모델은 이러한 문제를 해결할 수 있지만, 기존 확산 언어 모델은 성능이 자기회귀 모델에 크게 미치지 못했다.

접근 방법

Dream 7B는 이산 확산 과정을 통해 노이즈가 섞인 토큰 시퀀스를 반복적으로 정제하여 병렬 생성한다. 핵심 기술로는 자기회귀 언어 모델로 초기화하는 AR 기반 LLM 초기화와 문맥에 적응하는 토큰 수준 노이즈 재스케줄링을 사용한다. 이를 통해 확산 모델의 성능을 크게 향상시켰다.

결과·기여

Dream 7B는 일반, 수학, 코딩 작업에서 기존 확산 언어 모델을 일관되게 능가하며, 자기회귀 모델에 필적하는 성능을 보인다. 또한 임의 순서 생성, 인필링, 추론 시 품질-속도 조절이 가능하여 확산 언어 모델의 실용성을 크게 높였다. 모델은 오픈소스로 공개되어 후속 연구를 촉진할 것으로 기대된다.