GRPO - AI매터스

GRPO

Spurious Rewards: Rethinking Training Signals in RLVR

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대 연구

6월 2, 2025

Spurious Rewards: Rethinking Training Signals in RLVR 무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승 강화학습 분야에서 놀라운 연구 결과가 발표됐다. 워싱턴대학교와…

1
2
3

Trending

"돈은 관심 없다"…오픈클로 개발자, 저커버그 제안 거절하고 알트만 택한 이유

“돈은 관심 없다”…오픈클로 개발자, 저커버그 제안 거절하고…

이종철 수석 에디터 2월 20, 2026

앤트로픽 새 AI 모델 '클로드 소넷 4.6' 출시…오퍼스급 성능을 소넷 가격에

앤트로픽 새 AI 모델 ‘클로드 소넷 4.6’…

이종철 수석 에디터 2월 19, 2026

세상을 바꾸고 싶다…오픈클로 창업자, 오픈AI(OpenAI) 합류 선언

“세상을 바꾸고 싶다”…오픈클로 창업자, 오픈AI(OpenAI) 합류 선언

이종철 수석 에디터 2월 19, 2026

GRPO - AI매터스