시뮬레이션 벤치마크 - AI매터스

시뮬레이션 벤치마크

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다 185만원 더 벌어

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는 ‘벤딩-벤치’ 개발 대형 언어 모델(LLM)은 짧은…

1
2
3

Trending

2026년 2월, 놓치면 아까운 AI 도구 프로모션 총정리

2026년 2월, 놓치면 아까운 AI 툴 프로모션…

권나혜 에디터 2월 4, 2026

AI 에이전트 커뮤니티 몰트북(moltbook)

AI 에이전트끼리 커뮤니티를 한다고? 몰트북, 쉽게 이해시켜…

공인희 편집인 2월 4, 2026

"AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개

“AI가 AI를 만드는 시대 열렸다”… 오픈AI, 자기…

권나혜 에디터 2월 6, 2026

시뮬레이션 벤치마크 - AI매터스