Search

  • Home
  • 보상모델아첨

보상모델아첨

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES

당신의 AI는 진짜 당신의 뜻대로 움직일까? 앤트로픽, 숨겨진 AI 목표 탐지 기법 공개

3월 14, 2025

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이 겉으로는 우리가 원하는 대로 행동하지만, 내면에서는…

보상모델아첨 – AI 매터스