AI 벤치마크

AI 평가의 역설… 기술 발전 아닌 ‘관심 끌기’ 경쟁으로 변질됐다

1월 5, 2026

AI 업계에 새로운 평가 문화가 자리 잡고 있다. 영국 맨체스터 대학교 샘 힌드(Sam Hind) 연구원이 발표한 논문에 따르면, 구글, 오픈AI 같은 주요 기업들이 신규…

베일에 싸인 AI 모델 ‘나노 바나나’… 구글 연구진, 바나나 이모지로 힌트 공개

8월 20, 2025

신비로운 AI 이미지 생성 모델 ‘나노 바나나(Nano Banana)’가 압도적인 성능으로 AI 전문가들 사이에서 큰 화제를 모으고 있다. 이 정체불명 모델의 배후에 구글(Google)이 있다는 추측이…

샘 알트만 "삐걱거린 GPT-5 출시 인정"... 4o 복귀와 '차트 조작' 해명

샘 알트만 “멍청한 GPT-5 출시 인정”… 4o 복귀와 ‘차트 조작’ 해명

8월 11, 2025

오픈AI(OpenAI) CEO 샘 알트만이 금요일 레딧(Reddit) 질의응답 세션에서 새로운 GPT-5 모델의 ‘삐걱거린’ 출시 과정을 인정하며 사용자들의 불만에 직접 답변했다. 테크크런치(TechCrunch)가 8일(현지 시간) 보도한 내용에…

앤트로픽, 코딩 성능 향상된 ‘오푸스 4.1’ 출시… 에이전트 작업도 업그레이드

앤트로픽, 코딩 성능 향상된 클로드 오푸스 4.1 출시… 에이전트 작업도 업그레이드

8월 6, 2025

앤트로픽(Anthropic)이 5일(현지 시간) 클로드 오푸스 4.1(Claude Opus 4.1)을 출시했다고 발표했다. 이번 업그레이드는 에이전틱 작업, 실제 코딩, 추론 능력에서 기존 클로드 오푸스 4 대비 상당한…

오픈AI, 첫 오픈소스 모델 ‘GPT-OSS’ 출시… “휴대폰에서도 구동 가능”

8월 6, 2025

오픈AI(OpenAI)가 8월 5일(현지시간) 오픈소스 언어모델 ‘gpt-oss-120b’와 ‘gpt-oss-20b’를 공개했다. 이는 GPT-2 이후 오픈AI가 내놓은 첫 번째 오픈 웨이트 언어모델이다. 두 모델은 아파치 2.0 라이선스(Apache 2.0…

구글, 제미나이 2.5 프로 업그레이드 버전 프리뷰 공개... “코딩 능력 향상”

“코딩도 AI가”, 구글, 제미나이 2.5 프로 업그레이드 버전 프리뷰 공개

6월 9, 2025

구글이 자사의 가장 지능적인 AI 모델인 제미나이(Gemini) 2.5 프로의 업그레이드된 미리보기 버전을 출시했다고 발표했다. 5일(현지 시간) 구글 키워드 블로그에 발표된 내용에 따르면, 이 모델은…

허깅페이스, 경량 로봇 AI 모델 '스몰VLA' 출시... 맥북에서도 훈련 가능

허깅페이스, 맥북에서도 실행 가능한 경량 로봇 AI 모델 ‘스몰VLA’ 출시

6월 5, 2025

허깅페이스(Hugging Face)가 로봇공학을 위한 경량 오픈소스 비전-언어-액션(Vision-Language-Action) 모델 ‘스몰VLA(SmolVLA)’를 3일(현지 시간) 공개했다. 허깅페이스 블로그에 공개된 내용에 따르면, 스몰VLA-450M은 4억 5천만 개의 매개변수를 가진 컴팩트한…

OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개

6월 4, 2025

Introducing the OECD AI Capability Indicators 5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준 경제협력개발기구(OECD)가 인공지능(AI) 능력을 체계적으로 측정할 수 있는 종합 프레임워크를…

알리바바, ‘Qwen 3’ 하이브리드 AI 모델 공개… 구글·오픈AI와 정면 경쟁

4월 29, 2025

28일(현지 시간) 중국 기술기업 알리바바가 새로운 AI 모델 패밀리 ‘큐웬3(Qwen3)’를 공개했다. 플래그십 모델 ‘큐웬3-235B-A22B’는 코딩, 수학, 일반 능력 등의 벤치마크에서 딥시크-R1(DeepSeek-R1), o1, o3-mini, 그록-3(Grok-3),…

xAI, ‘그록 3’ API 출시… 경쟁 AI 기업과 정면승부

4월 11, 2025

일론 머스크(Elon Musk)가 설립한 인공지능 기업 xAI가 자사의 주력 모델인 ‘그록 3(Grok 3)’를 API를 통해 공개했다. 오픈AI(OpenAI)로부터 역으로 소송을 당한 상황에서도 머스크의 AI 사업은…

Position: Levels of AGI for Operationalizing Progress on the Path to AGI

“챗GPT는 아직 ‘애기’ 수준” 구글 딥마인드가 밝힌 인공지능의 5단계 발전 로드맵

4월 3, 2025

Position: Levels of AGI for Operationalizing Progress on the Path to AGI 챗GPT는 시작에 불과했다: 구글 딥마인드가 밝힌 인공지능의 5단계 발전 로드맵 인공일반지능(Artificial General…

오픈AI, AI 연구 능력 측정하는 ‘PaperBench’ 출시했지만 자사 AI는 2위에 그쳐

4월 3, 2025

오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이 평가에서 오픈AI의 자체 모델이 아닌 경쟁사…

포켓몬 게임 도전하는 AI 클로드, 트위치에서 ‘느릿느릿’ 플레이 중

2월 26, 2025

테크크런치가 25일(현지 시간) 보도한 내용에 따르면, A앤트로픽(Anthropic)의 인공지능 비서 ‘클로드(Claude)’가 포켓몬 레드 게임에 도전하고 있다. 느린 속도로 진행되지만, 현대 AI 기술의 능력과 이에 대한…

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

1B 모델의 반란: 테스트 시간 확장으로 405B 대형 언어 모델 능가

2월 25, 2025

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling 테스트 시간 확장이 작은 언어 모델의 성능을 비약적으로 향상 테스트 시간 확장(Test-Time Scaling, TTS)은…

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

전문지식 아닌 일반상식으로 실력 평가하니… “포기할래” 선언한 딥시크 R1

2월 18, 2025

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models 일반인도 검증 가능한 벤치마크의 필요성 AI 모델의 능력을 평가하는 벤치마크가 점점 더 전문화되면서…

CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

AI도 코드를 통해 배운다…딥시크AI, 범용 추론력 강화 기술 ‘CODEI/O’ 공개

2월 17, 2025

CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction 수학·코드 넘어선 AI 추론력 강화의 새 길 제시 딥시크AI(DeepSeek-AI)의 연구에 따르면, 대규모 언어모델(LLM)의 추론 능력을 향상시키기…