AI 모델 평가

Persona Features Control Emergent Misalignment

“잘못 배운 AI, 돈 벌기 질문에 사기·강도 제안”… AI 부작용 원인 찾았다

6월 19, 2025

Persona Features Control Emergent Misalignment 오픈AI가 발표한 연구 논문에 따르면, GPT-4o를 취약한 코드나 부정확한 조언이 포함된 좁은 영역의 데이터로 파인튜닝하면 전혀 관련 없는 질문에…

AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals

AI가 AI를 평가하면 생기는 일? ‘도움 드릴 수 없습니다’ 답변을 32% 더 좋아해

5월 23, 2025

AI vs. Human Judgment of Content Moderation:LLM-as-a-Judge and Ethics-Based Response Refusals GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트 높은 점수 대규모 언어 모델(LLM)이 다른…

앤트로픽 CEO “AI 모델 환각, 인간보다 적게 발생한다” 주장

5월 23, 2025

앤트로픽(Anthropic)의 다리오 아모데이(Dario Amodei) CEO가 현재의 AI 모델들이 인간보다 환각 현상을 덜 일으킨다고 주장했다. 환각은 AI가 거짓 정보를 만들어내고 이를 사실인 것처럼 제시하는 현상을…

AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기… “과장된 결과 홍보 위해 악용돼”

4월 23, 2025

테크크런치가 22일(현지 시간) 보도한 내용에 따르면, 테크 업계에서 인공지능 모델의 성능을 평가하는 크라우드소싱 벤치마크 플랫폼에 대한 우려의 목소리가 커지고 있다. 오픈AI(OpenAI), 구글(Google), 메타(Meta) 등…

EXPLORING BIAS IN OVER 100 TEXT-TO-IMAGE GENERATIVE MODELS

예술용 AI는 편향되고, 기본 모델은 개선된다… 103개 모델 2년간 분석 결과 공개

3월 18, 2025

EXPLORING BIAS IN OVER 100 TEXT-TO-IMAGE GENERATIVE MODELS 시간이 흐를수록 개선되는 기초 모델, 더 편향되는 예술 모델 텍스트-투-이미지(Text-to-Image, T2I) 생성 모델은 고품질 이미지를 합성할…

포켓몬 게임으로 AI 훈련을? 3명의 체육관 리더를 물리친 클로드3.7 소넷 훈련 과정 공개

2월 25, 2025

Claude’s extended thinking 앤트로픽(Anthropic)이 발표한 리포트에 따르면, 인공지능 모델 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’에 새롭게 도입된 ‘확장된 사고 모드(extended thinking mode)’는 인간의 사고 방식과…