Inference-Time Reward Hacking in Large Language Models ChatGPT와 같은 대형 언어모델이 더 나은 답변을 생성하기 위해 사용하는 학습 방법에 치명적인 결함이 있다는 연구 결과가…