확장 가능한 스트리밍 음성 합성을 위한 대규모 언어 모델 기반 CosyVoice 2

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

Zhihao Du, Yuxuan Wang, Qian Chen, Xian Shi, Xiang Lv, Tianyu Zhao, Zhifu Gao, Yexin Yang 외

인용 349인기 23.4

원문 보기 ↗

AI 분석

한줄 요약

CosyVoice 2는 대규모 언어 모델 기반의 확장 가능한 스트리밍 음성 합성 모델로, 단일 모델로 스트리밍과 비스트리밍 합성을 모두 지원하며 인간 수준의 자연스러움과 최소 응답 지연 시간을 달성했다.

풀어야 하는 문제

기존 음성 합성 모델은 스트리밍(실시간) 합성과 비스트리밍(고품질) 합성을 별도로 구현해야 했으며, 응답 지연 시간과 합성 품질 간의 트레이드오프가 존재했다. 또한, 음성 토큰의 코드북 활용률이 낮아 효율성이 떨어졌다.

접근 방법

1) 유한 스칼라 양자화(Finite-Scalar Quantization)를 도입하여 음성 토큰의 코드북 활용률을 개선했다. 2) 텍스트-음성 언어 모델의 아키텍처를 간소화하여 사전 학습된 LLM을 직접 백본으로 사용할 수 있게 했다. 3) 청크 인식 인과 흐름 매칭(Chunk-aware Causal Flow Matching) 모델을 개발하여 단일 모델 내에서 스트리밍과 비스트리밍 합성을 모두 지원한다.

결과·기여

대규모 다국어 데이터셋으로 학습한 결과, CosyVoice 2는 인간 수준의 자연스러움, 최소 응답 지연 시간, 스트리밍 모드에서 거의 손실 없는 합성 품질을 달성했다. 이는 실시간 대화형 음성 인터페이스의 발전에 크게 기여할 것으로 기대된다.