Trendar
← 논문 목록
OpenAlexML 방법론기법중요도 8Zenodo (CERN European Organization for Nuclear Research)
1개월 전

하우스홀더 반사로 유니터리 행렬을 매개변수화한 순수 RNN으로 장기 시퀀스 모델링

Axiom: A Householder-Parameterized Pure Unitary RNN for Long-Range Sequence Modeling

Chaudhary, Sanyam

인용 344인기 37.8
AI 분석

한줄 요약

Axiom은 하우스홀더 반사 곱을 통해 유니터리 전이 행렬을 학습하는 순환 신경망으로, 망각 게이트 없이도 장기 의존성을 완벽히 보존한다.

풀어야 하는 문제

기존 RNN(LSTM, GRU)은 기울기 소실/폭발 문제로 인해 수천 스텝 이상의 장기 의존성 학습이 어렵다. 망각 게이트는 정보를 선택적으로 잊게 하지만, 일부 과제에서는 정보 손실이 치명적이다.

접근 방법

은닉 상태 전이 행렬을 k개의 하우스홀더 반사의 곱으로 매개변수화하여 strict unitary matrix를 유지한다. 순전파를 회전 고유기저에서 누적 합으로 변환하는 폐쇄형 병렬 계산을 유도하여 효율성을 높였다. XLA 최적화를 위해 단일 회전 변환을 도입했다.

결과·기여

지연 복사 과제(T=1000)에서 8,584 파라미터로 76.5-99.9% 정확도(LSTM 111,368 파라미터, 12.5-13.5%). Adding Problem에서 MSE 0.00046 (LSTM 0.00214). GPT-2에 부착 시 7청크 이전 사실 검증 62.3% (기준 8.3%). 잡음 필터링이 필요한 과제에서는 LSTM이 우세한 경계를 실험적으로 규명했다.