AI 평가

오픈AI, AI 연구 능력 측정하는 'PaperBench' 출시했지만 자사 AI는 2위에 그쳐

오픈AI, AI 연구 능력 측정하는 ‘PaperBench’ 출시했지만 자사…

4월 3, 2025

오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이…

Knowledge Conflicts for LLMs: A Survey

AI도 기억을 헷갈린다…대형언어모델의 ‘지식 충돌’ 현상 분석

1월 10, 2025

Knowledge Conflicts for LLMs: A Survey 칭화대학교와 케임브리지대학교 공동 연구팀이 발표한 최신 연구에 따르면, 대형언어모델(LLM)이 지식을 처리하는 과정에서…

오픈AI, 신규 AI 모델 'o1' 안전성 평가 결과 공개...사이버보안 위험도 '낮음' 판정

오픈AI, 신규 AI 모델 ‘o1’ 안전성 평가 결과…

12월 6, 2024

오픈AI가 새로운 AI 모델 ‘o1’과 ‘o1-미니(o1-mini)’의 시스템 안전성 평가 결과를 5일(현지시간) 공개했다. 오픈AI는 이번 평가에서 자사의 ‘준비성 프레임워크(Preparedness…

A Safe Harbor for AI Evaluation and Red Teaming

생성형 AI 평가의 새로운 패러다임, ‘안전한 항구’

9월 23, 2024

생성형 AI 기술이 급속도로 발전하면서 ChatGPT와 같은 시스템들이 1억 명 이상의 주간 사용자를 확보하는 등 소셜 미디어 플랫폼의…

AI 평가 – AI 매터스