Semantic Scholar자연어·LLM서베이중요도 7ACM Transactions on Software Engineering and Methodology

2년 전

코드 생성을 위한 대규모 언어 모델의 종합적 조사

A Survey on Large Language Models for Code Generation

Juyong Jiang, Fan Wang, Jiasi Shen, Sungju Kim, Sunghun Kim

인용 952인기 27.4

원문 보기 ↗

AI 분석

한줄 요약

코드 생성 분야의 Code LLM 연구를 체계적으로 정리한 종합 서베이 논문으로, 데이터, 방법론, 평가, 윤리 등 다양한 측면을 아우르며 주요 벤치마크 성능 비교를 제공한다.

풀어야 하는 문제

코드 생성을 위한 LLM 연구가 NLP와 소프트웨어 공학 관점에서 활발히 진행되고 있지만, 최신 동향을 종합적으로 정리한 문헌 조사가 부족하여 연구자들이 전체 그림을 파악하기 어렵다.

접근 방법

데이터 큐레이션, 최신 발전, 성능 평가, 윤리, 환경 영향, 실제 응용 등 여섯 가지 범주로 분류 체계를 수립하고, 각 범주별로 주요 연구를 체계적으로 검토한다. 또한 HumanEval, MBPP, BigCodeBench 벤치마크에서의 실험 결과를 원논문에서 수집하여 공정한 비교를 수행한다.

결과·기여

Code LLM의 발전 과정을 역사적 관점에서 조망하고, 다양한 난이도와 작업 유형에 걸친 성능 비교를 통해 모델 간 차이를 명확히 보여준다. 또한 학계와 실제 개발 간의 격차를 식별하고 향후 연구 방향을 제시하며, 지속적으로 업데이트되는 GitHub 리소스를 제공한다.