적응적 보상

The Hallucination Tax of Reinforcement Finetuning

강화학습으로 똑똑해진 AI의 근자감… “모르겠다” 못하고 자신만만하게 틀린다

6월 11, 2025

The Hallucination Tax of Reinforcement Finetuning OpenAI o1처럼 똑똑해진 AI의 치명적 약점 발견 강화학습 파인튜닝(Reinforcement Finetuning, RFT)이 대형언어모델(LLM)의 수학 추론 능력을 크게 향상시키지만, 동시에…

적응적 보상

강화학습으로 똑똑해진 AI의 근자감… “모르겠다” 못하고 자신만만하게 틀린다

Trending

“온 디바이스 AI폰의 종결자”…갤럭시 S26, 이제는 ‘AI…

AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽,…

챗GPT 사용자 2293만 명, 그록 AI는 출시…