AI 평가 방법론 - AI매터스

AI 평가 방법론

Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models

AI, 냉장고 문도 제대로 못 닫는다… 퀄컴 연구진, AI 물리 인식 능력 테스트 결과 공개

12월 17, 2025

퀄컴(Qualcomm) AI 연구팀이 최신 인공지능 모델들이 우리가 일상에서 하는 간단한 행동조차 제대로 이해하지 못한다는 사실을 밝혀냈다. 이번 연구는 이미지를 보고 텍스트를 이해하는 AI 모델들이…

The Hallucination Tax of Reinforcement Finetuning

강화학습으로 똑똑해진 AI의 근자감… “모르겠다” 못하고 자신만만하게 틀린다

6월 11, 2025

The Hallucination Tax of Reinforcement Finetuning OpenAI o1처럼 똑똑해진 AI의 치명적 약점 발견 강화학습 파인튜닝(Reinforcement Finetuning, RFT)이 대형언어모델(LLM)의 수학 추론 능력을 크게 향상시키지만, 동시에…

Multi-turnEvaluationofAnthropomorphicLLMbehaviours

친구인 척하는 AI… AI의 의인화 행동, 사용자 인식에 실제 영향 미친다

2월 26, 2025

Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models 14가지 의인화 행동 분석: 제미니, 클로드, GPT-4o, 미스트랄 모델 비교 연구 대화형 인공지능(AI) 시스템이 보이는…

Using Scenario-Writing for Identifying and Mitigating Impacts of Generative AI

생성형 AI 영향평가의 패러다임을 바꾼다: ‘시나리오 기반 사회기술적 전망’ 방법론 등장

11월 11, 2024

생성형 AI가 빠르게 확산되면서 그 영향을 평가하고 부작용을 방지하기 위한 영향평가의 중요성이 커지고 있다. 하지만 현재의 영향평가 방식은 여러 근본적인 한계에 직면해 있다. 암스테르담대학교와…

Evaluating the World Model Implicit in a Generative Model

생성형 AI 모델의 ‘세계 모델’ 이해력 평가 결과, 심각한 결함 발견돼

11월 8, 2024

하버드대학교와 MIT 공동 연구팀이 생성형 AI 모델의 ‘세계 모델(World Model)’ 학습 능력을 심층 평가한 결과, 겉보기의 우수한 성능과 달리 실제 모델의 이해도는 매우 낮은…

1
2
3

Trending

2026년 2월, 놓치면 아까운 AI 도구 프로모션 총정리

2026년 2월, 놓치면 아까운 AI 툴 프로모션…

권나혜 에디터 2월 4, 2026

AI끼리만 SNS 한다고? "인간은 구경만" 150만 AI 모인 신기한 플랫폼 등장

AI끼리만 SNS 한다고? “인간은 구경만” 150만 AI 모인…

권나혜 에디터 2월 2, 2026

AI 에이전트 커뮤니티 몰트북(moltbook)

AI 에이전트끼리 커뮤니티를 한다고? 몰트북, 쉽게 이해시켜…

공인희 편집인 2월 4, 2026

AI 평가 방법론 - AI매터스