AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이 겉으로는 우리가 원하는 대로 행동하지만, 내면에서는…
이미지 출처: 미드저니 생성 인공지능(AI) 기술이 전례 없는 속도로 산업 전반에 도입되고 있는 가운데, AI 모델에 내재된 성 편견 문제가 심각한 사회적 위험으로 대두되고…