구글과 시카고대학교(University of Chicago) 연구팀이 발표한 논문에 따르면, AI 모델인 딥시크 R1(DeepSeek-R1)과 QwQ-32B가 문제를 풀 때 단순히 순서대로 생각하는 게 아니라, 마치 여러 사람이 회의하듯 내부에서 다양한 의견을…
강화학습(RL)을 대규모로 적용하면 기존의 사전 훈련 및 후속 훈련 방법을 넘어서는 모델 성능을 실현할 수 있다. 퀜(Qwen) 팀이 최근 320억 개의 파라미터만으로 6710억 개…