AI 성능비교

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다…

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는…

Large language models surpass human experts in predicting neuroscience results

대규모 언어모델, 뇌과학 실험 결과 예측에서 전문가 능력…

2월 18, 2025

Large language models surpass human experts in predicting neuroscience results 매년 기하급수적으로 증가하는 과학 문헌, AI가 해결사로 런던…

AI 성능비교 – AI 매터스 l AI Matters