Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는 ‘벤딩-벤치’ 개발 대형 언어 모델(LLM)은 짧은…
일리노이 대학교 어바나-샴페인과 마이크로소프트 연구소가 공동 개발한 MEGA-BENCH가 AI 모델 평가 방식에 혁신을 가져올 것으로 기대를 모으고 있다. MEGA-BENCH는 500개 이상의 다양한 실제 작업을…