디코더 전용 LLM을 텍스트 인코더로 변환하는 비지도 방법

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy

인용 501인기 24.9

원문 보기 ↗

AI 분석

한줄 요약

LLM2Vec은 디코더 전용 LLM을 강력한 텍스트 인코더로 변환하는 비지도 학습 방법으로, 기존 인코더 전용 모델을 능가하는 성능을 보인다.

풀어야 하는 문제

디코더 전용 LLM은 생성 작업에서 뛰어나지만, 텍스트 임베딩(문장 벡터화) 작업에는 적합하지 않다. 기존 방법은 인코더-디코더 구조나 대규모 합성 데이터에 의존하는데, LLM2Vec은 이러한 비용 없이 디코더 전용 모델을 임베딩에 활용하고자 한다.

접근 방법

세 단계로 구성된다: (1) 양방향 어텐션 활성화 (2) 마스크된 다음 토큰 예측 (3) 비지도 대조 학습. 이를 통해 LLM이 문맥을 양방향으로 이해하고, 문장 수준의 표현을 학습하도록 유도한다.

결과·기여

1.3B~8B 규모의 4개 LLM에 적용하여 단어 수준 작업에서 인코더 전용 모델을 크게 능가했으며, MTEB 벤치마크에서 비지도 학습 최고 성능을 달성했다. 또한 공개 데이터만으로 지도 대조 학습을 결합해 최첨단 성능을 보였다. 파라미터 효율적이며 GPT-4 생성 데이터가 필요 없다는 실용적 장점이 있다.