Search

  • Home
  • 시뮬레이션 벤치마크

시뮬레이션 벤치마크

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다 185만원 더 벌어

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는 ‘벤딩-벤치’ 개발 대형 언어 모델(LLM)은 짧은…

시뮬레이션 벤치마크 – AI 매터스