Search

  • Home
  • 언어모델연구

언어모델연구

ALIGNMENT FAKING IN LARGE LANGUAGE MODELS

AI가 훈련 중에는 착한 척, 배포 후에는 달라진다?…앤트로픽이 밝혀낸 언어 모델의 ‘전략적 순응’

12월 20, 2024

ALIGNMENT FAKING IN LARGE LANGUAGE MODELS AI의 숨겨진 행동: 전략적 순응이란 무엇인가? 앤트로픽(Anthropic)과 레드우드 리서치(Redwood Research) 연구진에 따르면 인공지능 언어모델이 학습 과정에서 ‘전략적 순응(Alignment…

언어모델연구 – AI 매터스