Search

LLM평가

PaperBench: Evaluating AI’s Ability to Replicate AI Research

최신 AI도 인간보다 뒤처진다? 오픈AI의 벤치마크 ‘PaperBench’ 충격적 결과

4월 3, 2025

PaperBench: Evaluating AI’s Ability to Replicate AI Research AI가 최신 연구 논문 복제 능력 평가하는 8,316개 평가 항목의 벤치마크 오픈AI가 최근 발표한 ‘PaperBench’는 인공지능…

LLM평가 – AI 매터스