보상모델아첨 - AI매터스

보상모델아첨

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES

당신의 AI는 진짜 당신의 뜻대로 움직일까? 앤트로픽, 숨겨진 AI 목표 탐지 기법 공개

3월 14, 2025

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이 겉으로는 우리가 원하는 대로 행동하지만, 내면에서는…

1
2
3

Trending

앤드류 응(Andrew Ng)의 스탠포드대학교 CS230 강연

AI 커리어 전략: 앤드류 응이 말하는 AI…

공인희 편집인 1월 23, 2026

"하나의 서버로 8억 명 감당… 오픈AI가 밝힌 챗GPT 무중단 비결"

“하나의 서버로 8억 명 감당… 오픈AI가 밝힌…

권나혜 에디터 1월 23, 2026

"네이버 시대 끝나나"… 챗GPT 이용률 54% 돌파, 10대는 이미 이동

“네이버 시대 끝나나”… 챗GPT 이용률 54% 돌파,…

권나혜 에디터 1월 27, 2026

보상모델아첨 - AI매터스