AI 평가

12월 3, 2025

세계경제포럼과 글로벌 컨설팅 기업 캡제미니가 발표한 보고서에 따르면, 전 세계 기업 10곳 중 8곳(82%)이 향후 3년 안에 ‘AI 직원’을 회사에 들일 계획이다. 하지만 대부분…

11월 18, 2025

펜실베이니아 주립대학교 연구팀이 발표한 논문에 따르면, 의학 드라마 ‘하우스(House M.D.)’를 활용해 대형 언어모델(LLM)의 희귀질환 진단 능력을 평가한 결과, 최신 AI 모델도 정확도가 40%에 미치지…

10월 8, 2025

오픈AI(OpenAI)가 에이전트 구축부터 배포, 최적화까지 한 번에 처리할 수 있는 통합 툴킷 ‘에이전트킷(AgentKit)’을 출시했다. 오픈AI는 6일(현지 시각) 공식 블로그를 통해 개발자와 기업이 AI 에이전트를…

4월 3, 2025

오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이 평가에서 오픈AI의 자체 모델이 아닌 경쟁사…

1월 10, 2025

Knowledge Conflicts for LLMs: A Survey 칭화대학교와 케임브리지대학교 공동 연구팀이 발표한 최신 연구에 따르면, 대형언어모델(LLM)이 지식을 처리하는 과정에서 세 가지 유형의 ‘지식 충돌’ 현상이…

12월 6, 2024

오픈AI가 새로운 AI 모델 ‘o1’과 ‘o1-미니(o1-mini)’의 시스템 안전성 평가 결과를 5일(현지시간) 공개했다. 오픈AI는 이번 평가에서 자사의 ‘준비성 프레임워크(Preparedness Framework)’에 따라 외부 레드팀 검증과 프론티어…

9월 23, 2024

생성형 AI 기술이 급속도로 발전하면서 ChatGPT와 같은 시스템들이 1억 명 이상의 주간 사용자를 확보하는 등 소셜 미디어 플랫폼의 성장률을 뛰어넘고 있다. 이러한 상황에서 독립적인…

Trending