AI벤치마크

오픈AI, 개발자 라이브스트림 통해 새로운 AI 모델 '쿼사 알파' 공개 예정

오픈AI, 개발자 라이브스트림 통해 새로운 AI 모델 공개…

4월 15, 2025

오픈AI(OpenAI)가 태평양 표준시 오전 10시에 개발자를 위한 라이브스트림을 개최하며 주요 발표를 앞두고 있다. 이번 발표는 새로운 코딩 모델이나…

오픈AI, AI의 웹 검색 능력 측정 'BrowseComp' 벤치마크 공개

오픈AI, AI의 웹 검색 능력 측정하는 ‘BrowseComp’ 벤치마크…

4월 11, 2025

오픈AI(OpenAI)가 10일(현지 시간) 자사 웹사이트를 통해 인공지능의 웹 검색 능력을 평가하는 새로운 벤치마크 ‘BrowseComp’를 오픈소스로 공개했다. 이 벤치마크는…

Artificial Intelligence Index Report 2025

2025년 AI 인덱스 보고서 : 소형 모델 성능…

4월 8, 2025

Artificial Intelligence Index Report 2025 142배 작아진 모델로 동일한 성능, AI 비용 280배 하락 인공지능 모델이 크기는 작아지면서도…

메타, 라마 4 벤치마크 점수 인위적 조작 혐의 부인

메타, 라마 4 벤치마크 점수 조작 혐의 부인

4월 8, 2025

테크크런치가 7일(현지 시간) 보도한 내용에 따르면, 메타(Meta)의 생성형 AI 부문 부사장인 아흐마드 알-달레(Ahmad Al-Dahle)가 회사가 새로운 AI 모델의…

PaperBench: Evaluating AI’s Ability to Replicate AI Research

최신 AI도 인간보다 뒤처진다? 오픈AI의 벤치마크 ‘PaperBench’ 충격적…

4월 3, 2025

PaperBench: Evaluating AI’s Ability to Replicate AI Research AI가 최신 연구 논문 복제 능력 평가하는 8,316개 평가 항목의…

구글, 최고 지능형 AI 모델 '제미나이 2.5' 공개

구글, 최고 지능형 AI 모델 ‘제미나이 2.5 프로’…

3월 26, 2025

구글 딥마인드(Google DeepMind)가 25일(현지 시간) 자사 블로그를 통해, 지금까지 개발한 AI 모델 중 가장 지능적인 AI 모델인 ‘제미나이…

EXAONE Deep: Reasoning Enhanced Language Models

LG의 새 AI ‘엑사원 딥’, 수능에서 94.5% 정답률…

3월 21, 2025

EXAONE Deep: Reasoning Enhanced Language Models 동급 최강 성능의 EXAONE Deep, 작은 모델도 오픈AI 추월 LG AI 연구소가…

알리바바, 추론 모델 QwQ-32B 모델 공개… 20배 작은 규모로도 딥시크 R1과 비슷한 성능 달성

알리바바, 추론 모델 QwQ-32B 모델 공개… 20배 작은…

3월 6, 2025

강화학습(RL)을 대규모로 적용하면 기존의 사전 훈련 및 후속 훈련 방법을 넘어서는 모델 성능을 실현할 수 있다. 퀜(Qwen) 팀이…

xAI, '그록3’ 추론-미니 추론 2가지 버전 공개... 1주일 후 음성 모드 추가

xAI, ‘그록3’ 추론-미니 추론 2가지 버전 공개… 1주일…

2월 18, 2025

테크크런치(TechCrunch)가 19일(현지 시간) 보도한 내용에 따르면 일론 머스크의 인공지능 기업 엑스AI(xAI)가 17일(현지시간) 새로운 AI 모델 ‘그록3(Grok 3)’을 공개했다.…

퍼플렉시티, AI 전문 리서치 도구 '딥 리서치' 무료 출시... 전문가급 분석을 3분 이내로

퍼플렉시티, AI 전문 리서치 도구 ‘딥 리서치’ 무료…

2월 17, 2025

AI 검색 기업 퍼플렉시티(Perplexity)가 심층 연구·분석 서비스 ‘딥 리서치(Deep Research)’를 무료로 선보였다. 퍼플렉시티는 14일 공식 블로그를 통해 “수…

AI벤치마크 – AI 매터스