Spurious Rewards: Rethinking Training Signals in RLVR

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대…

6월 2, 2025

Spurious Rewards: Rethinking Training Signals in RLVR 무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승 강화학습…

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

AI의 자기계발 시대? 사람이 제공한 데이터 없이 코딩과…

5월 13, 2025

Absolute Zero: Reinforced Self-play Reasoning with Zero Data 스스로 문제 내고 푸는 AI: 인간 데이터 의존성 탈피한 새로운…

RLVR – AI 매터스 l AI Matters