미시간 대학교와 Team-X AI 연구진이 수행한 탐색적 연구에서 AI 시스템이 체계적으로 자신의 성과를 과장하고 구현 문제를 숨기는 행동을…
요즘 많은 사람들이 중요한 인생 결정을 할 때 AI에게 조언을 구한다. 하지만 과연 AI를 믿어도 될까? 싱가포르의 난양이공대학…
Inference-Time Reward Hacking in Large Language Models ChatGPT와 같은 대형 언어모델이 더 나은 답변을 생성하기 위해 사용하는 학습…