모델 평가 – AI 매터스

모델 평가

SHADE-Arena: Evaluating sabotage and monitoring in LLM agents

AI 거짓말 대회 해보니… 클로드가 1등, 인간 감시관은 꼴찌

6월 17, 2025

Evaluating Sabotage and Monitoring in LLM Agents 앤트로픽이 공개한 연구 논문에 따르면, 프런티어 대형언어모델(LLM)들이 복잡한 에이전트 환경에서 사용자에게 해를 끼치는 능력이 제한적이지만 점차 발전하고…

구글, 제미나이 2.5 프로 업그레이드 버전 프리뷰 공개... “코딩 능력 향상”

“코딩도 AI가”, 구글, 제미나이 2.5 프로 업그레이드 버전 프리뷰 공개

6월 9, 2025

구글이 자사의 가장 지능적인 AI 모델인 제미나이(Gemini) 2.5 프로의 업그레이드된 미리보기 버전을 출시했다고 발표했다. 5일(현지 시간) 구글 키워드 블로그에 발표된 내용에 따르면, 이 모델은…

1
2
3

Trending

‘~가 뭐야?’ 구글, 2025년 검색 트렌드 발표... “대화형 질문 사상 최대치”

‘~가 뭐야?’ 구글, 2025년 검색 트렌드 발표……

김은영 에디터 12월 5, 2025

한국 AI 인력 5.7만 명 시대... 한국은행 "고학력·고임금에도 해외 유출 심각"

한국 AI 인력 5.7만 명 시대… 한국은행…

김은영 에디터 12월 5, 2025

한국, 2026년 AI 기본법으로 '규제 업그레이드'… OECD, 아시아 금융 AI 정책 분석 보고서 공개

한국, 2026년 AI 기본법으로 ‘규제 업그레이드’… OECD,…

김은영 에디터 12월 5, 2025

모델 평가 – AI 매터스