AI 벤치마크

xAI, '그록 3' API 출시... 경쟁 AI 기업과 정면승부

xAI, ‘그록 3’ API 출시… 경쟁 AI 기업과…

4월 11, 2025

일론 머스크(Elon Musk)가 설립한 인공지능 기업 xAI가 자사의 주력 모델인 ‘그록 3(Grok 3)’를 API를 통해 공개했다. 오픈AI(OpenAI)로부터 역으로…

Position: Levels of AGI for Operationalizing Progress on the Path to AGI

“챗GPT는 아직 ‘애기’ 수준” 구글 딥마인드가 밝힌 인공지능의…

4월 3, 2025

Position: Levels of AGI for Operationalizing Progress on the Path to AGI 챗GPT는 시작에 불과했다: 구글 딥마인드가 밝힌…

오픈AI, AI 연구 능력 측정하는 'PaperBench' 출시했지만 자사 AI는 2위에 그쳐

오픈AI, AI 연구 능력 측정하는 ‘PaperBench’ 출시했지만 자사…

4월 3, 2025

오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이…

포켓몬 게임 도전하는 AI 클로드, 트위치에서 '느릿느릿' 플레이 중

포켓몬 게임 도전하는 AI 클로드, 트위치에서 ‘느릿느릿’ 플레이…

2월 26, 2025

테크크런치가 25일(현지 시간) 보도한 내용에 따르면, A앤트로픽(Anthropic)의 인공지능 비서 ‘클로드(Claude)’가 포켓몬 레드 게임에 도전하고 있다. 느린 속도로 진행되지만,…

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

1B 모델의 반란: 테스트 시간 확장으로 405B 대형…

2월 25, 2025

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling 테스트 시간 확장이 작은 언어 모델의 성능을 비약적으로…

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

전문지식 아닌 일반상식으로 실력 평가하니… “포기할래” 선언한 딥시크…

2월 18, 2025

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models 일반인도 검증 가능한 벤치마크의 필요성 AI 모델의…

CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

AI도 코드를 통해 배운다…딥시크AI, 범용 추론력 강화 기술…

2월 17, 2025

CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction 수학·코드 넘어선 AI 추론력 강화의 새 길 제시 딥시크AI(DeepSeek-AI)의 연구에…

Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs

모든 차별이 나쁜가?… AI 공정성에 대한 스탠포드 연구진의…

2월 11, 2025

Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs 스탠포드 대학교 연구진이 발표한 논문 “차이를 인식하는 공정성:…

中 딥시크, 오픈AI보다 뛰어난 추론 AI 모델 공개... o1 모델 대비 90% 이상 저렴한 가격 제시

中 딥시크, 오픈AI보다 뛰어난 추론 AI 모델 공개……

1월 23, 2025

테크크런치가 20일(현지 시간)에 보도한 내용에 따르면, 중국의 인공지능 연구소 딥시크(DeepSeek)가 자사의 추론 AI 모델 ‘딥시크-R1(DeepSeek-R1)’을 공개했다. 이 모델은…

"AGI는 없다"... 오픈AI CEO, X발 AGI 출시설 일축

“AGI는 없다”… 오픈AI CEO, X발 AGI 출시설 일축

1월 22, 2025

테크 미디어 CIO 코리아에 따르면, 오픈AI(OpenAI)의 샘 알트만(Sam Altman) CEO가 인공일반지능(AGI) 개발 여부를 두고 상반된 발언을 해 혼선이…

AI 벤치마크 – AI 매터스