강화학습

Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning

Google DeepMind, AI 추론 능력 향상을 위한 ‘프로세스…

10월 16, 2024

Google DeepMind 연구진이 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 새로운 방법론인 ‘프로세스 어드밴티지 검증기(Process Advantage Verifier, PAV)’를…

First-Person Fairness in Chatbots

OpenAI, 챗봇의 ‘일인칭 공정성’ 연구 결과 발표 –…

10월 15, 2024

OpenAI 연구진이 ChatGPT와 같은 대화형 AI 시스템에서 사용자 간 공정성을 평가하고 개선하기 위한 새로운 방법론을 제시했다. ‘일인칭 공정성(First-Person…

Diversity-Rewarded CFG Distillation

생성 AI의 품질과 다양성을 동시에 높이는 ‘다양성 보상…

10월 15, 2024

Google DeepMind 연구진이 생성 AI 모델의 품질과 다양성을 동시에 향상시키는 새로운 기법인 ‘다양성 보상 CFG 증류(Diversity-Rewarded CFG Distillation)’를…

DIFFUSION MODELS ARE REAL-TIME GAME ENGINES

AI 기반 실시간 게임 엔진 개발, 기존 게임…

8월 29, 2024

구글과 구글 딥마인드 연구진이 AI 모델만으로 복잡한 3D 게임을 실시간으로 구현하는 데 성공했다. 연구진은 이 기술을 ‘GameNGen'(게임엔젠)이라 명명했으며,…

강화학습 – 페이지 3 – AI 매터스 l AI Matters