“evaluation”

이 키워드와 관련된 논문 · GitHub · 뉴스를 한곳에 모았습니다.

논문 12

전체 →

OpenAlex자연어·LLM인용 1.4K
대규모 언어 모델의 발전과 활용에 대한 종합적 조사A Survey of Large Language Models
Semantic Scholar자연어·LLM인용 920
의사 수준의 의료 질문 답변을 위한 대규모 언어 모델Toward expert-level medical question answering with large language models
Semantic Scholar자연어·LLM인용 1.6K
지속적 수집으로 오염 없는 코드 LLM 평가 벤치마크LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
Semantic Scholar자연어·LLM인용 553
LLM의 수학적 추론 능력 한계를 밝힌 GSM-Symbolic 벤치마크GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
OpenAlexML 방법론인용 128
LLM을 재프로그래밍하여 시계열 예측 수행TimeLLM: Time Series Forecasting by Reprogramming Large Language Models
OpenAlex에이전트인용 3K
관찰 가능한 세계 설계로 LLM 시스템 신뢰성을 높이는 컴파일러 이론Affordance-Compiled Intelligence: Observable-Only Cognitive Impedance Matching for No-Meta LLM-Integrated Systems
Semantic Scholar자연어·LLM인용 975
대규모 언어 모델의 종합적 개요와 발전 방향Large Language Models: A Survey
Semantic Scholar자연어·LLM인용 952
코드 생성을 위한 대규모 언어 모델의 종합적 조사A Survey on Large Language Models for Code Generation
OpenAlexML 방법론인용 49
통증 유사 가소성과 분리적 감쇠로 지속 학습하는 SNNMaya-CL: Nociceptive Metaplasticity and Vairagya-Governed Heterosynaptic Decay for Continual Learning in Spiking Neural Networks
OpenAlex기타인용 50
morphe-metrics: A Stateless Python Library for Morphogenetic Computing Evaluation
OpenAlex기타인용 49
cl-metrics: A Stateless Python Library for Continual Learning Evaluation with SNN Energy-Aware Extensions
Semantic Scholar인용 493
LLM 탈옥 공격 평가를 위한 오픈 벤치마크JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models