LLM평가 - AI매터스

LLM평가

PaperBench: Evaluating AI’s Ability to Replicate AI Research

최신 AI도 인간보다 뒤처진다? 오픈AI의 벤치마크 ‘PaperBench’ 충격적 결과

4월 3, 2025

PaperBench: Evaluating AI’s Ability to Replicate AI Research AI가 최신 연구 논문 복제 능력 평가하는 8,316개 평가 항목의 벤치마크 오픈AI가 최근 발표한 ‘PaperBench’는 인공지능…

1
2
3

Trending

챗GPT 프로, '90% 할인'… 카카오 선물하기 깜짝 특가

챗GPT 프로, ‘90% 할인’… 카카오 선물하기 깜짝…

권나혜 에디터 2월 13, 2026

오픈클로 창시자, “앱의 80%가 사라질 것”

오픈클로 창시자, “앱의 80%가 사라질 것”

권나혜 에디터 2월 10, 2026

카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산

카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안…

권나혜 에디터 2월 9, 2026

LLM평가 - AI매터스