멀티모달 거대 언어 모델의 공간 지능 평가 및 인지 맵 생성 기법

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

Jihan Yang, Shusheng Yang, Anjali Gupta, Rilyn Han, Fei-Fei Li, Saining Xie

인용 580인기 25.5

원문 보기 ↗

AI 분석

한줄 요약

비디오 기반 공간 지능 벤치마크 VSI-Bench를 통해 MLLM의 공간 인지 능력을 평가하고, 인지 맵 생성이 공간 추론 성능을 향상시킴을 발견했다.

풀어야 하는 문제

인간은 순차적 시각 관찰로 공간을 기억하고 추론하는 시공간 지능을 가지지만, MLLM이 비디오 데이터로부터 공간을 '생각'할 수 있는지, 그리고 그 능력을 어떻게 측정하고 향상시킬 수 있는지가 문제다.

접근 방법

5,000개 이상의 질문-답변 쌍으로 구성된 VSI-Bench 벤치마크를 구축하고, 다양한 MLLM을 평가했다. 또한 모델이 공간을 어떻게 인지하는지 언어적·시각적으로 표현하도록 유도하여 공간 추론 병목을 분석했다. 기존 언어 추론 기법(CoT, self-consistency, ToT)과 인지 맵 생성 기법을 비교 실험했다.

결과·기여

MLLM은 인간보다 낮지만 경쟁력 있는 공간 지능을 보였으며, 공간 추론 능력이 성능의 주요 병목임을 확인했다. 인지 맵을 명시적으로 생성하는 방법이 공간 거리 추정 능력을 유의미하게 향상시켰다. 이는 MLLM의 공간 지능 평가 및 향상을 위한 새로운 방향을 제시한다.