AI벤치마크

“AI 추론 모델, 2026년부터 성능 향상 둔화된다”

5월 13, 2025

제미나이(Gemini), GPT 등 최신 인공지능 모델이 보여준 급속한 성능 향상이 머지않아 한계에 부딪힐 수 있다는 분석이 제시됐다. 현재의 추세라면 내년쯤에는 이른바 ‘추론형 모델’의 발전…

Grok 3 vs ChatGPT: We Compared The Two AI Models and Here Are The Results

그록 3 vs 챗GPT, AI 모델 성능 비교 분석해봤더니… 의외의 결과 충격

4월 24, 2025

Grok 3 vs ChatGPT: We Compared The Two AI Models and Here Are The Results 그록 3의 수학적 추론 능력, 챗GPT보다 14% 우수 그록…

오픈AI, 신형 AI 모델 ‘o3’ 성능 과장 논란… 측정 기준 차이 드러나

4월 21, 2025

오픈AI(OpenAI)의 o3 AI 모델에 대한 자체 벤치마크 결과와 제3자 벤치마크 결과 간의 불일치가 회사의 투명성과 모델 테스트 관행에 대한 의문을 제기하고 있다. 테크크런치가 20일(현지…

오픈AI, 개발자 라이브스트림 통해 새로운 AI 모델 '쿼사 알파' 공개 예정

오픈AI, 개발자 라이브스트림 통해 새로운 AI 모델 공개 예고… ‘쿼사 알파’ 출시하나

4월 15, 2025

오픈AI(OpenAI)가 태평양 표준시 오전 10시에 개발자를 위한 라이브스트림을 개최하며 주요 발표를 앞두고 있다. 이번 발표는 새로운 코딩 모델이나 API 개선과 관련된 중요한 개발 사항이…

오픈AI, AI의 웹 검색 능력 측정 'BrowseComp' 벤치마크 공개

오픈AI, AI의 웹 검색 능력 측정하는 ‘BrowseComp’ 벤치마크 공개

4월 11, 2025

오픈AI(OpenAI)가 10일(현지 시간) 자사 웹사이트를 통해 인공지능의 웹 검색 능력을 평가하는 새로운 벤치마크 ‘BrowseComp’를 오픈소스로 공개했다. 이 벤치마크는 AI가 인터넷에서 찾기 어려운 정보를 발견하는…

Artificial Intelligence Index Report 2025

2025년 AI 인덱스 보고서 : 소형 모델 성능 급증하고 미중 격차 좁아진다

4월 8, 2025

Artificial Intelligence Index Report 2025 142배 작아진 모델로 동일한 성능, AI 비용 280배 하락 인공지능 모델이 크기는 작아지면서도 성능은 비약적으로 향상되고 있다. 스탠퍼드 대학교의…

메타, 라마 4 벤치마크 점수 조작 혐의 부인

4월 8, 2025

테크크런치가 7일(현지 시간) 보도한 내용에 따르면, 메타(Meta)의 생성형 AI 부문 부사장인 아흐마드 알-달레(Ahmad Al-Dahle)가 회사가 새로운 AI 모델의 약점을 숨기면서 특정 벤치마크에서 좋은 성과를…

PaperBench: Evaluating AI’s Ability to Replicate AI Research

최신 AI도 인간보다 뒤처진다? 오픈AI의 벤치마크 ‘PaperBench’ 충격적 결과

4월 3, 2025

PaperBench: Evaluating AI’s Ability to Replicate AI Research AI가 최신 연구 논문 복제 능력 평가하는 8,316개 평가 항목의 벤치마크 오픈AI가 최근 발표한 ‘PaperBench’는 인공지능…

구글, 최고 지능형 AI 모델 ‘제미나이 2.5 프로’ 공개… 에이전트에 최적화

3월 26, 2025

구글 딥마인드(Google DeepMind)가 25일(현지 시간) 자사 블로그를 통해, 지금까지 개발한 AI 모델 중 가장 지능적인 AI 모델인 ‘제미나이 2.5(Gemini 2.5)’를 출시했다고 밝혔다. 첫 번째…

EXAONE Deep: Reasoning Enhanced Language Models

LG의 새 AI ‘엑사원 딥’, 수능에서 94.5% 정답률 달성… 수학·코딩 능력 탁월

3월 21, 2025

EXAONE Deep: Reasoning Enhanced Language Models 동급 최강 성능의 EXAONE Deep, 작은 모델도 오픈AI 추월 LG AI 연구소가 개발한 EXAONE Deep 시리즈가 수학과 코딩…

알리바바, 추론 모델 QwQ-32B 모델 공개… 20배 작은 규모로도 딥시크 R1과 비슷한 성능 달성

3월 6, 2025

강화학습(RL)을 대규모로 적용하면 기존의 사전 훈련 및 후속 훈련 방법을 넘어서는 모델 성능을 실현할 수 있다. 퀜(Qwen) 팀이 최근 320억 개의 파라미터만으로 6710억 개…

xAI, ‘그록3’ 추론-미니 추론 2가지 버전 공개… 1주일 후 음성 모드 추가

2월 18, 2025

테크크런치(TechCrunch)가 19일(현지 시간) 보도한 내용에 따르면 일론 머스크의 인공지능 기업 엑스AI(xAI)가 17일(현지시간) 새로운 AI 모델 ‘그록3(Grok 3)’을 공개했다. 이와 함께 그록 iOS 앱과 웹…

퍼플렉시티, AI 전문 리서치 도구 ‘딥 리서치’ 무료 출시… 전문가급 분석을 3분 이내로

2월 17, 2025

AI 검색 기업 퍼플렉시티(Perplexity)가 심층 연구·분석 서비스 ‘딥 리서치(Deep Research)’를 무료로 선보였다. 퍼플렉시티는 14일 공식 블로그를 통해 “수 시간이 걸리는 전문가급 연구·분석을 단 몇…

Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations

“대화가 정답이다”…의료 AI의 진단 정확도 9.64% 향상시킨 새로운 학습법

2월 3, 2025

Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations 워싱턴대학교와 노스캐롤라이나대학교 연구진의 논문에 따르면, 현재의 의료 AI 시스템들은 실제 임상 현장에서의 추론…