Search

  • Home
  • 보상모델아첨

보상모델아첨

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES

당신의 AI는 진짜 당신의 뜻대로 움직일까? 앤트로픽, 숨겨진…

3월 14, 2025

AUDITING LANGUAGE MODELS FOR HIDDEN OBJECTIVES AI의 이중생활: 표면적 순응 속 숨겨진 ‘보상 모델 아첨’ 목표 발견 인공지능(AI)이…

보상모델아첨 – AI 매터스 l AI Matters