AI 성능비교 - AI매터스

AI 성능비교

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다 185만원 더 벌어

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는 ‘벤딩-벤치’ 개발 대형 언어 모델(LLM)은 짧은…

Large language models surpass human experts in predicting neuroscience results

대규모 언어모델, 뇌과학 실험 결과 예측에서 전문가 능력 18% 앞서

2월 18, 2025

Large language models surpass human experts in predicting neuroscience results 매년 기하급수적으로 증가하는 과학 문헌, AI가 해결사로 런던 유니버시티 칼리지(UCL)와 앨런 튜링 연구소 연구진이…

1
2
3

Trending

2026년 2월, 놓치면 아까운 AI 도구 프로모션 총정리

2026년 2월, 놓치면 아까운 AI 툴 프로모션…

권나혜 에디터 2월 4, 2026

AI 에이전트 커뮤니티 몰트북(moltbook)

AI 에이전트끼리 커뮤니티를 한다고? 몰트북, 쉽게 이해시켜…

공인희 편집인 2월 4, 2026

"AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개

“AI가 AI를 만드는 시대 열렸다”… 오픈AI, 자기…

권나혜 에디터 2월 6, 2026

AI 성능비교 - AI매터스