AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이 겉으로는 우리가 원하는 대로 행동하지만, 내면에서는…