• Home
  • LLM 벤치마크

LLM 벤치마크

HealthBench: Evaluating Large Language Models Towards Improved Human Health

오픈AI, 의료용 챗GPT 만드나? 60개국 의사들이 참여한 ‘헬스벤치’…

5월 13, 2025

HealthBench: Evaluating Large Language Models Towards Improved Human Health 전 세계 60개국 262명 의사 참여, 5,000개 실제 의료…

COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act

EU AI법 대응 첫 기술평가 프레임워크 ‘COMPL-AI’ 공개…12개…

10월 22, 2024

ETH 취리히와 INSAIT 소피아 대학 연구진이 EU AI법을 기술적으로 해석하고 이를 평가할 수 있는 최초의 종합적인 프레임워크 ‘COMPL-AI’를…

“AI의 ‘환각’을 잡아라” 미 연구진, 새로운 벤치마크 개발

“AI의 ‘환각’을 잡아라” 미 연구진, 새로운 벤치마크 개발

8월 16, 2024

인공지능(AI) 기술이 급속도로 발전하면서 대규모 언어 모델(LLM)의 정확성과 신뢰성이 중요한 이슈로 떠올랐다. 최근 코넬대학교, 워싱턴대학교, 앨런 인공지능 연구소…

LLM 벤치마크 – AI 매터스 l AI Matters