LLM 벤치마크 - AI매터스

LLM 벤치마크

HealthBench: Evaluating Large Language Models Towards Improved Human Health

오픈AI, 의료용 챗GPT 만드나? 60개국 의사들이 참여한 ‘헬스벤치’ 공개

5월 13, 2025

HealthBench: Evaluating Large Language Models Towards Improved Human Health 전 세계 60개국 262명 의사 참여, 5,000개 실제 의료 대화로 AI 성능 평가 오픈AI가 의료…

COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act

EU AI법 대응 첫 기술평가 프레임워크 ‘COMPL-AI’ 공개…12개 AI 모델 준수 여부 검증

10월 22, 2024

ETH 취리히와 INSAIT 소피아 대학 연구진이 EU AI법을 기술적으로 해석하고 이를 평가할 수 있는 최초의 종합적인 프레임워크 ‘COMPL-AI’를 개발했다. 이 프레임워크는 생성형 AI의 성능과…

“AI의 ‘환각’을 잡아라” 미 연구진, 새로운 벤치마크 개발

“AI의 ‘환각’을 잡아라” 미 연구진, 새로운 벤치마크 개발

8월 16, 2024

인공지능(AI) 기술이 급속도로 발전하면서 대규모 언어 모델(LLM)의 정확성과 신뢰성이 중요한 이슈로 떠올랐다. 최근 코넬대학교, 워싱턴대학교, 앨런 인공지능 연구소 등의 연구진이 LLM의 사실성을 평가하기 위한…

1
2
3

Trending

"온 디바이스 AI폰의 종결자"…갤럭시 S26, 이제는 'AI 에이전트폰'이다

“온 디바이스 AI폰의 종결자”…갤럭시 S26, 이제는 ‘AI…

이종철 수석 에디터 3월 9, 2026

AI가 만든 코드, AI가 검수한다…앤트로픽, 코드 리뷰 툴 정식 출시

AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽,…

이시안 에디터 3월 10, 2026

챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다

챗GPT 사용자 2293만 명, 그록 AI는 출시…

이시안 에디터 3월 10, 2026