• Home
  • AI 모델 평가

AI 모델 평가

AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기… “과장된 결과 홍보 위해 악용돼”

AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기……

4월 23, 2025

테크크런치가 22일(현지 시간) 보도한 내용에 따르면, 테크 업계에서 인공지능 모델의 성능을 평가하는 크라우드소싱 벤치마크 플랫폼에 대한 우려의 목소리가…

EXPLORING BIAS IN OVER 100 TEXT-TO-IMAGE GENERATIVE MODELS

예술용 AI는 편향되고, 기본 모델은 개선된다… 103개 모델…

3월 18, 2025

EXPLORING BIAS IN OVER 100 TEXT-TO-IMAGE GENERATIVE MODELS 시간이 흐를수록 개선되는 기초 모델, 더 편향되는 예술 모델 텍스트-투-이미지(Text-to-Image,…

Claude's extended thinking

포켓몬 게임으로 AI 훈련을? 3명의 체육관 리더를 물리친…

2월 25, 2025

Claude’s extended thinking 앤트로픽(Anthropic)이 발표한 리포트에 따르면, 인공지능 모델 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’에 새롭게 도입된 ‘확장된 사고…

Evaluating the World Model Implicit in a Generative Model

생성형 AI 모델의 ‘세계 모델’ 이해력 평가 결과,…

11월 8, 2024

하버드대학교와 MIT 공동 연구팀이 생성형 AI 모델의 ‘세계 모델(World Model)’ 학습 능력을 심층 평가한 결과, 겉보기의 우수한 성능과…

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

AI 모델 MentalArena, 정신 건강 진단과 치료에 새…

10월 15, 2024

일리노이 대학교 어바나-샴페인 캠퍼스와 마이크로소프트 연구소가 공동 개발한 MentalArena라는 혁신적인 AI 프레임워크가 정신 건강 분야에 새로운 가능성을 제시하고…

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)

구글, 새로운 척도로 대규모 언어 모델의 설명 충실도…

10월 7, 2024

인공지능(AI) 기술의 발전에 따라 대규모 언어 모델(LLM)의 설명 능력이 주목받고 있다. 그러나 이러한 설명이 얼마나 모델의 실제 추론…

AI 모델 평가 – AI 매터스