• Home
  • AI 성능 평가

AI 성능 평가

퍼플렉시티 소나, AI 검색 아레나 평가에서 1위 차지… “제미나이와 공동 1위”

퍼플렉시티 소나, AI 검색 아레나 평가에서 1위 차지……

4월 22, 2025

퍼플렉시티(Perplexity)가 자사 블로그에 14일(현지 시간) 공개한 내용에 따르면, 퍼플렉시티의 소나(Sonar) 모델이 새로운 검색 능력 평가에서 구글 제미나이(Gemini)와 공동…

네이버, 하이퍼클로바X 신모델 공개… 저비용 고성능 ‘온 서비스 AI’로 새 시대 연다

네이버, 하이퍼클로바X 신모델 공개… 저비용 고성능 ‘온 서비스…

2월 21, 2025

네이버(NAVER)가 자사 뉴스룸을 통해 기존 모델 대비 40% 수준의 크기로 더 강력한 성능을 구현한 하이퍼클로바X(HyperCLOVA X) 신모델을 20일(한국…

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

전문지식 아닌 일반상식으로 실력 평가하니… “포기할래” 선언한 딥시크…

2월 18, 2025

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models 일반인도 검증 가능한 벤치마크의 필요성 AI 모델의…

Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini

ChatGPT 무료버전 vs 유료버전, 교육 격차 더 벌어질…

1월 29, 2025

Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini 범용 AI의 무료·유료…

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities

AI 혁신을 이끄는 7단계 파인튜닝 전략

10월 25, 2024

대규모 언어 모델(LLM) 분야가 급속도로 발전하면서 파인튜닝 기술이 AI 응용의 핵심으로 부상하고 있다. 더블린 대학교 연구진이 발표한 최신…

COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act

EU AI법 대응 첫 기술평가 프레임워크 ‘COMPL-AI’ 공개…12개…

10월 22, 2024

ETH 취리히와 INSAIT 소피아 대학 연구진이 EU AI법을 기술적으로 해석하고 이를 평가할 수 있는 최초의 종합적인 프레임워크 ‘COMPL-AI’를…

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

애플, “대규모 언어 모델의 수학적 추론 능력에 한계…

10월 14, 2024

대규모 언어 모델(LLM)의 수학적 추론 능력에 상당한 한계가 있다는 연구 결과가 나왔다. 애플 연구팀이 발표한 ‘GSM-Symbolic: Understanding the…

Select Committee on Adopting Artificial Intelligence (AI)

호주 증권투자위원회(ASIC), “문서 요약, AI보다 인간이 낫다”

9월 4, 2024

호주 증권투자위원회(Australian Securities and Investments Commission, ASIC)가 생성형 AI(인공지능)의 문서 요약 기능을 실험한 결과를 발표했다. ASIC은 지난 1월…

AI 성능 평가 – AI 매터스 l AI Matters