Search

SHADE-Arena: Evaluating sabotage and monitoring in LLM agents

AI 거짓말 대회 해보니… 클로드가 1등, 인간 감시관은…

6월 17, 2025

Evaluating Sabotage and Monitoring in LLM Agents 앤트로픽이 공개한 연구 논문에 따르면, 프런티어 대형언어모델(LLM)들이 복잡한 에이전트 환경에서 사용자에게…

Spurious Rewards: Rethinking Training Signals in RLVR

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대…

6월 2, 2025

Spurious Rewards: Rethinking Training Signals in RLVR 무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승 강화학습…

벤치마크 – AI 매터스 l AI Matters