RLVR - AI매터스

RLVR

Spurious Rewards: Rethinking Training Signals in RLVR

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대 연구

6월 2, 2025

Spurious Rewards: Rethinking Training Signals in RLVR 무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승 강화학습 분야에서 놀라운 연구 결과가 발표됐다. 워싱턴대학교와…

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

AI의 자기계발 시대? 사람이 제공한 데이터 없이 코딩과 수학 마스터한 추론 모델의 등장

5월 13, 2025

Absolute Zero: Reinforced Self-play Reasoning with Zero Data 스스로 문제 내고 푸는 AI: 인간 데이터 의존성 탈피한 새로운 추론 모델 대규모 언어 모델(LLM)의 추론…

1
2
3

Trending

세상을 바꾸고 싶다…오픈클로 창업자, 오픈AI(OpenAI) 합류 선언

“세상을 바꾸고 싶다”…오픈클로 창업자, 오픈AI(OpenAI) 합류 선언

이종철 수석 에디터 2월 19, 2026

"돈은 관심 없다"…오픈클로 개발자, 저커버그 제안 거절하고 알트만 택한 이유

“돈은 관심 없다”…오픈클로 개발자, 저커버그 제안 거절하고…

이종철 수석 에디터 2월 20, 2026

앤트로픽 새 AI 모델 '클로드 소넷 4.6' 출시…오퍼스급 성능을 소넷 가격에

앤트로픽 새 AI 모델 ‘클로드 소넷 4.6’…

이종철 수석 에디터 2월 19, 2026

RLVR - AI매터스