“evaluation”
이 키워드와 관련된 논문 · GitHub · 뉴스를 한곳에 모았습니다.
논문 12
전체 →- OpenAlex자연어·LLM인용 1.4K대규모 언어 모델의 발전과 활용에 대한 종합적 조사A Survey of Large Language Models
- Semantic Scholar자연어·LLM인용 920의사 수준의 의료 질문 답변을 위한 대규모 언어 모델Toward expert-level medical question answering with large language models
- Semantic Scholar자연어·LLM인용 1.6K지속적 수집으로 오염 없는 코드 LLM 평가 벤치마크LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
- Semantic Scholar자연어·LLM인용 553LLM의 수학적 추론 능력 한계를 밝힌 GSM-Symbolic 벤치마크GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
- OpenAlexML 방법론인용 128LLM을 재프로그래밍하여 시계열 예측 수행TimeLLM: Time Series Forecasting by Reprogramming Large Language Models
- OpenAlex에이전트인용 3K관찰 가능한 세계 설계로 LLM 시스템 신뢰성을 높이는 컴파일러 이론Affordance-Compiled Intelligence: Observable-Only Cognitive Impedance Matching for No-Meta LLM-Integrated Systems
- Semantic Scholar자연어·LLM인용 975대규모 언어 모델의 종합적 개요와 발전 방향Large Language Models: A Survey
- Semantic Scholar자연어·LLM인용 952코드 생성을 위한 대규모 언어 모델의 종합적 조사A Survey on Large Language Models for Code Generation
- OpenAlexML 방법론인용 49통증 유사 가소성과 분리적 감쇠로 지속 학습하는 SNNMaya-CL: Nociceptive Metaplasticity and Vairagya-Governed Heterosynaptic Decay for Continual Learning in Spiking Neural Networks
- OpenAlex기타인용 50morphe-metrics: A Stateless Python Library for Morphogenetic Computing Evaluation
- OpenAlex기타인용 49cl-metrics: A Stateless Python Library for Continual Learning Evaluation with SNN Energy-Aware Extensions
- Semantic Scholar인용 493LLM 탈옥 공격 평가를 위한 오픈 벤치마크JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models