Search

  • Home
  • AI 성능 평가
AI 코딩 능력 과대포장 논란… 실제 코딩 시험 봤더니 1등이 겨우 정답률 7.5%

AI 코딩 능력 과대포장 논란… 실제 코딩 시험…

7월 25, 2025

AI가 얼마나 잘 프로그래밍을 할 수 있는지 알아보는 새로운 시험에서 1등을 한 AI도 100점 만점에 7.5점밖에 받지 못해…

네이버클라우드, 14B 추론모델 무료 오픈소스 공개…"100분의 1 비용으로 해외 모델급 성능"

네이버클라우드, 14B 추론모델 무료 오픈소스 공개… “100분의 1…

7월 23, 2025

네이버클라우드가 독자 기술로 개발한 경량화 추론모델 ‘하이퍼클로바X 시드 14B 싱크(HyperCLOVA X SEED 14B Think)’를 상업용 무료 오픈소스로 공개했다고…

딥시크, 오픈AI 대신 구글 제미나이 데이터로 ‘R1’ 훈련했나? 의혹 제기

딥시크, 챗GPT 대신 제미나이 데이터로 바꿔 ‘R1’ 훈련했나?…

6월 5, 2025

AI 벤치마크 전문가가 최신 딥시크(DeepSeek) R1 모델의 훈련 데이터가 기존 오픈AI(OpenAI) 합성 데이터에서 구글 제미나이(Gemini) 합성 데이터로 전환되었을…

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는…

6월 4, 2025

QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning 기존 AI 모델들이 긴 문서에서 겪던 학습 효율성 저하와…

퍼플렉시티 소나, AI 검색 아레나 평가에서 1위 차지… “제미나이와 공동 1위”

퍼플렉시티 소나, AI 검색 아레나 평가에서 1위 차지……

4월 22, 2025

퍼플렉시티(Perplexity)가 자사 블로그에 14일(현지 시간) 공개한 내용에 따르면, 퍼플렉시티의 소나(Sonar) 모델이 새로운 검색 능력 평가에서 구글 제미나이(Gemini)와 공동…

네이버, 하이퍼클로바X 신모델 공개… 저비용 고성능 ‘온 서비스 AI’로 새 시대 연다

네이버, 하이퍼클로바X 신모델 공개… 저비용 고성능 ‘온 서비스…

2월 21, 2025

네이버(NAVER)가 자사 뉴스룸을 통해 기존 모델 대비 40% 수준의 크기로 더 강력한 성능을 구현한 하이퍼클로바X(HyperCLOVA X) 신모델을 20일(한국…

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

전문지식 아닌 일반상식으로 실력 평가하니… “포기할래” 선언한 딥시크…

2월 18, 2025

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models 일반인도 검증 가능한 벤치마크의 필요성 AI 모델의…

Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini

ChatGPT 무료버전 vs 유료버전, 교육 격차 더 벌어질…

1월 29, 2025

Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini 범용 AI의 무료·유료…

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities

AI 혁신을 이끄는 7단계 파인튜닝 전략

10월 25, 2024

대규모 언어 모델(LLM) 분야가 급속도로 발전하면서 파인튜닝 기술이 AI 응용의 핵심으로 부상하고 있다. 더블린 대학교 연구진이 발표한 최신…

COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act

EU AI법 대응 첫 기술평가 프레임워크 ‘COMPL-AI’ 공개…12개…

10월 22, 2024

ETH 취리히와 INSAIT 소피아 대학 연구진이 EU AI법을 기술적으로 해석하고 이를 평가할 수 있는 최초의 종합적인 프레임워크 ‘COMPL-AI’를…

AI 성능 평가 – AI 매터스 l AI Matters