딥시크 보상 모델 - AI매터스

딥시크 보상 모델

Inference-Time Scaling for Generalist Reward Modeling

딥시크, AI 대화의 정확도를 32배 샘플링으로 끌어올리는 ‘보상 모델’ 공개

4월 7, 2025

Inference-Time Scaling for Generalist Reward Modeling 대규모 언어 모델의 성능 향상을 위한 보상 모델링 강화학습 기술은 대규모 언어 모델(LLM)의 성능 향상을 위한 후처리 훈련에…

1
2
3

Trending

세상을 바꾸고 싶다…오픈클로 창업자, 오픈AI(OpenAI) 합류 선언

“세상을 바꾸고 싶다”…오픈클로 창업자, 오픈AI(OpenAI) 합류 선언

이종철 수석 에디터 2월 19, 2026

"돈은 관심 없다"…오픈클로 개발자, 저커버그 제안 거절하고 알트만 택한 이유

“돈은 관심 없다”…오픈클로 개발자, 저커버그 제안 거절하고…

이종철 수석 에디터 2월 20, 2026

앤트로픽 새 AI 모델 '클로드 소넷 4.6' 출시…오퍼스급 성능을 소넷 가격에

앤트로픽 새 AI 모델 ‘클로드 소넷 4.6’…

이종철 수석 에디터 2월 19, 2026

딥시크 보상 모델 - AI매터스