수학추론 - AI매터스

수학추론

Spurious Rewards: Rethinking Training Signals in RLVR

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대 연구

6월 2, 2025

Spurious Rewards: Rethinking Training Signals in RLVR 무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승 강화학습 분야에서 놀라운 연구 결과가 발표됐다. 워싱턴대학교와…

큐웬, AI 비전-언어 모델 ‘Qwen2.5-VL-32B’ 출시… “주관적 경험과 수학적 추론에 최적화”

큐웬, AI 비전-언어 모델 ‘Qwen2.5-VL-32B’ 출시… “주관적 경험과 수학적 추론에 최적화”

3월 26, 2025

알리바바의 Qwen 팀은 24일(현지 시간) 자사 블로그를 통해 새로운 시각-언어 모델인 Qwen2.5-VL-32B-Instruct를 오픈소스로 공개했다. 이 모델은 기존 Qwen2.5-VL 시리즈의 최적화 버전으로, 인간 선호도에 더…

1
2
3

Trending

구글, 이미지 생성 모델 '나노 바나나(Nano Banana) 2' 공개…4K 해상도에 속도까지 잡았다

구글, 이미지 생성 모델 ‘나노 바나나 2’…

이종철 수석 에디터 2월 27, 2026

잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것"

잭 도시, 직원 절반 잘랐다…”당신 회사도 곧…

이종철 수석 에디터 2월 27, 2026

저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나

저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경…

이종철 수석 에디터 2월 27, 2026

수학추론 - AI매터스