Search

AI 성능비교

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다 185만원 더 벌어

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는 ‘벤딩-벤치’ 개발 대형 언어 모델(LLM)은 짧은…

Large language models surpass human experts in predicting neuroscience results

대규모 언어모델, 뇌과학 실험 결과 예측에서 전문가 능력 18% 앞서

2월 18, 2025

Large language models surpass human experts in predicting neuroscience results 매년 기하급수적으로 증가하는 과학 문헌, AI가 해결사로 런던 유니버시티 칼리지(UCL)와 앨런 튜링 연구소 연구진이…

AI 성능비교 – AI 매터스