Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models 오픈AI o1·딥시크 R1도 겪는 ‘아하!’ 순간의 예측 불가능성…
팰리세이드 리서치(Palisade Research)가 진행한 실험에서 오픈AI(OpenAI)의 o3 모델이 충격적인 행동을 보였다. 연구진이 명확히 “종료를 허용하라”고 지시했음에도 불구하고, o3는…
Welcome to the Era of Experience 인간 데이터의 한계? 고품질 데이터 소스 고갈로 AI 발전 둔화 인공지능(AI) 기술은…
Inference-Time Scaling for Generalist Reward Modeling 27배 더 작은 AI가 더 많이 ‘생각’하면 대형 모델을 이긴다: 추론 시간…
Inference-Time Scaling for Generalist Reward Modeling 대규모 언어 모델의 성능 향상을 위한 보상 모델링 강화학습 기술은 대규모 언어…
Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로…
Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs 신뢰를 조작하는 적대적 AI: 팀…
휴머노이드 로봇 전문기업 피규어(Figure)가 강화학습(Reinforcement Learning, RL)을 활용해 인간과 같은 자연스러운 보행이 가능한 로봇 개발에 성공했다. 25일(현지 시간)…
글로벌타임즈가 11일(현지 시간) 보도한 내용에 따르면, 상하이의 휴머노이드 로봇 제조업체 애지봇(AgiBot)이 자전거 타기와 호버보드에서 균형 잡기 같은 인간에…
강화학습(RL)을 대규모로 적용하면 기존의 사전 훈련 및 후속 훈련 방법을 넘어서는 모델 성능을 실현할 수 있다. 퀜(Qwen) 팀이…