엔비디아가 로봇과 물리적 AI를 위한 새로운 비전 언어 모델 ‘코스모스 리즌(NVIDIA Cosmos Reason)’을 공개했다고 11일(현지 시간) 발표했다. 엔비디아 기술 블로그에 따르면, 올해 GTC 2025에서 처음 선보인 이 모델은 로봇과 비전 AI 에이전트가 사전 지식, 물리학적 이해, 상식을 바탕으로 현실 세계를 이해하고 행동할 수 있도록 설계된 오픈소스 맞춤형 추론 비전 언어 모델이다.
코스모스 리즌은 비디오와 텍스트를 입력받아 단계별 사고를 통해 논리적인 응답을 제공한다. 지도 학습 미세조정과 강화학습을 결합해 구축된 이 모델은 인간의 주석 없이도 세계 역학을 이해할 수 있는 사고 연쇄 추론 능력을 갖췄다. 성능 면에서 물리적 AI 작업 미세조정을 통해 기본 모델 대비 10% 이상 성능이 향상됐고, 강화학습으로 추가 5%의 성능 개선을 달성했다. 이를 통해 로봇공학과 자율주행차 애플리케이션 주요 벤치마크에서 평균 65.7점을 기록했다.
주요 활용 분야로는 데이터 큐레이션 및 주석 자동화, 로봇 계획 및 추론을 통한 복잡한 환경에서의 의사결정, 대규모 비디오 분석을 통한 인사이트 추출 등이 있다. 특히 도시 교통망, 공장, 창고 등의 분석에 활용할 수 있다.
개발자들은 허깅 페이스(Hugging Face)에서 모델 체크포인트를 다운로드하고 깃허브(GitHub)에서 관련 스크립트를 받을 수 있다. 코스모스 리즌은 엔비디아 GPU에서 최적화되어 작동하며, build.nvidia.com에서 직접 체험해 볼 수 있다.
해당 모델에 대한 자세한 사항은 엔비디아 개발자 블로그에서 확인 가능하다.
이미지 출처: 엔비디아