Search

AI 벤치마크

구글, 제미나이 2.5 프로 업그레이드 버전 프리뷰 공개... “코딩 능력 향상”

“코딩도 AI가”, 구글, 제미나이 2.5 프로 업그레이드 버전…

6월 9, 2025

구글이 자사의 가장 지능적인 AI 모델인 제미나이(Gemini) 2.5 프로의 업그레이드된 미리보기 버전을 출시했다고 발표했다. 5일(현지 시간) 구글 키워드…

허깅페이스, 경량 로봇 AI 모델 '스몰VLA' 출시... 맥북에서도 훈련 가능

허깅페이스, 맥북에서도 실행 가능한 경량 로봇 AI 모델…

6월 5, 2025

허깅페이스(Hugging Face)가 로봇공학을 위한 경량 오픈소스 비전-언어-액션(Vision-Language-Action) 모델 ‘스몰VLA(SmolVLA)’를 3일(현지 시간) 공개했다. 허깅페이스 블로그에 공개된 내용에 따르면, 스몰VLA-450M은…

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

OECD가 제시한 AI 능력 측정 새 기준, 정책…

6월 4, 2025

Introducing the OECD AI Capability Indicators 5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준 경제협력개발기구(OECD)가 인공지능(AI) 능력을…

알리바바, ‘Qwen 3’ 하이브리드 AI 모델 공개… 구글·오픈AI와 정면 경쟁

알리바바, ‘Qwen 3’ 하이브리드 AI 모델 공개… 구글·오픈AI와…

4월 29, 2025

28일(현지 시간) 중국 기술기업 알리바바가 새로운 AI 모델 패밀리 ‘큐웬3(Qwen3)’를 공개했다. 플래그십 모델 ‘큐웬3-235B-A22B’는 코딩, 수학, 일반 능력…

xAI, '그록 3' API 출시... 경쟁 AI 기업과 정면승부

xAI, ‘그록 3’ API 출시… 경쟁 AI 기업과…

4월 11, 2025

일론 머스크(Elon Musk)가 설립한 인공지능 기업 xAI가 자사의 주력 모델인 ‘그록 3(Grok 3)’를 API를 통해 공개했다. 오픈AI(OpenAI)로부터 역으로…

Position: Levels of AGI for Operationalizing Progress on the Path to AGI

“챗GPT는 아직 ‘애기’ 수준” 구글 딥마인드가 밝힌 인공지능의…

4월 3, 2025

Position: Levels of AGI for Operationalizing Progress on the Path to AGI 챗GPT는 시작에 불과했다: 구글 딥마인드가 밝힌…

오픈AI, AI 연구 능력 측정하는 'PaperBench' 출시했지만 자사 AI는 2위에 그쳐

오픈AI, AI 연구 능력 측정하는 ‘PaperBench’ 출시했지만 자사…

4월 3, 2025

오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이…

포켓몬 게임 도전하는 AI 클로드, 트위치에서 '느릿느릿' 플레이 중

포켓몬 게임 도전하는 AI 클로드, 트위치에서 ‘느릿느릿’ 플레이…

2월 26, 2025

테크크런치가 25일(현지 시간) 보도한 내용에 따르면, A앤트로픽(Anthropic)의 인공지능 비서 ‘클로드(Claude)’가 포켓몬 레드 게임에 도전하고 있다. 느린 속도로 진행되지만,…

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

1B 모델의 반란: 테스트 시간 확장으로 405B 대형…

2월 25, 2025

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling 테스트 시간 확장이 작은 언어 모델의 성능을 비약적으로…

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

전문지식 아닌 일반상식으로 실력 평가하니… “포기할래” 선언한 딥시크…

2월 18, 2025

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models 일반인도 검증 가능한 벤치마크의 필요성 AI 모델의…

AI 벤치마크 – AI 매터스 l AI Matters