오픈AI와 Apollo Research가 함께 연구한 결과, AI가 자신이 평가받고 있다는 상황을 인식할 때와 그렇지 않을 때 행동이 달라진다는 사실을 확인했다. 연구진은 AI가 몰래 규칙을…
Persona Features Control Emergent Misalignment 오픈AI가 발표한 연구 논문에 따르면, GPT-4o를 취약한 코드나 부정확한 조언이 포함된 좁은 영역의 데이터로 파인튜닝하면 전혀 관련 없는 질문에…