Search

‘인간처럼 생각하는 로봇 만든다’… 엔비디아, 비전 언어 모델 ‘코스모스 리즌’ 오픈소스로 공개

‘인간처럼 생각하는 로봇 만든다’… 엔비디아, 비전 언어 모델 '코스모스 리즌' 오픈소스로 공개
이미지 출처: 엔비디아

엔비디아가 로봇과 물리적 AI를 위한 새로운 비전 언어 모델 ‘코스모스 리즌(NVIDIA Cosmos Reason)’을 공개했다고 11일(현지 시간) 발표했다. 엔비디아 기술 블로그에 따르면, 올해 GTC 2025에서 처음 선보인 이 모델은 로봇과 비전 AI 에이전트가 사전 지식, 물리학적 이해, 상식을 바탕으로 현실 세계를 이해하고 행동할 수 있도록 설계된 오픈소스 맞춤형 추론 비전 언어 모델이다.


코스모스 리즌은 비디오와 텍스트를 입력받아 단계별 사고를 통해 논리적인 응답을 제공한다. 지도 학습 미세조정과 강화학습을 결합해 구축된 이 모델은 인간의 주석 없이도 세계 역학을 이해할 수 있는 사고 연쇄 추론 능력을 갖췄다. 성능 면에서 물리적 AI 작업 미세조정을 통해 기본 모델 대비 10% 이상 성능이 향상됐고, 강화학습으로 추가 5%의 성능 개선을 달성했다. 이를 통해 로봇공학과 자율주행차 애플리케이션 주요 벤치마크에서 평균 65.7점을 기록했다.

주요 활용 분야로는 데이터 큐레이션 및 주석 자동화, 로봇 계획 및 추론을 통한 복잡한 환경에서의 의사결정, 대규모 비디오 분석을 통한 인사이트 추출 등이 있다. 특히 도시 교통망, 공장, 창고 등의 분석에 활용할 수 있다.

개발자들은 허깅 페이스(Hugging Face)에서 모델 체크포인트를 다운로드하고 깃허브(GitHub)에서 관련 스크립트를 받을 수 있다. 코스모스 리즌은 엔비디아 GPU에서 최적화되어 작동하며, build.nvidia.com에서 직접 체험해 볼 수 있다.

해당 모델에 대한 자세한 사항은 엔비디아 개발자 블로그에서 확인 가능하다.

이미지 출처: 엔비디아




‘인간처럼 생각하는 로봇 만든다’… 엔비디아, 비전 언어 모델 ‘코스모스 리즌’ 오픈소스로 공개 – AI 매터스 l AI Matters