인공지능(AI)이 사람과 얼마나 다르게 사물을 보는지에 대한 흥미로운 연구가 나왔다. 양지안이(Jianyi Yang)와 예준이(Junyi Ye), 대시 안칸(Ankan Dash), 왕굴링(Guiling Wang) 연구원이 공개한 논문에 따르면, 해당…
엔비디아가 로봇과 물리적 AI를 위한 새로운 비전 언어 모델 ‘코스모스 리즌(NVIDIA Cosmos Reason)’을 공개했다고 11일(현지 시간) 발표했다. 엔비디아 기술 블로그에 따르면, 올해 GTC 2025에서…
Embodied AI Agents: Modeling the World 메타 AI 연구소가 차세대 인공지능 기술 발전을 위해 수행한 대규모 연구 프로젝트에서, 물리적 환경과 직접 상호작용할 수 있는…
Are Vision-Language Models Ready for Dietary Assessment? 비공개 소스 AI 모델, 식품 인식에서 90% 이상의 정확도 달성 인공지능(AI) 발전으로 식품 이미지 인식 기술이 크게…
알리바바의 Qwen 팀은 24일(현지 시간) 자사 블로그를 통해 새로운 시각-언어 모델인 Qwen2.5-VL-32B-Instruct를 오픈소스로 공개했다. 이 모델은 기존 Qwen2.5-VL 시리즈의 최적화 버전으로, 인간 선호도에 더…
과학기술정보통신부(장관 유상임, 이하 ‘과기정통부’)가 공공 분야에 인공지능(AI) 기술을 확산하기 위한 신규 사업을 본격 추진한다. 과기정통부는 18일(한국 시간), 10개 부처 및 기관과 협업해 ‘부처협업 기반…
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 웹 규모 데이터로 훈련된 비전-언어 모델, 로봇 제어에 혁신적 변화 가져와 구글 딥마인드(Google DeepMind) 연구팀이…
허깅페이스(Hugging Face)가 로봇을 자연어로 제어할 수 있는 비전-언어-액션 플로우 모델 ‘Pi0(파이제로)’를 오픈소스로 공개했다. 이는 로봇 제어 전문 기업 르로봇(LeRobot)이 개발한 최초의 공개형 로봇 제어…
엔비디아가 CES 2025 키노트를 통해 기업용 에이전트형 AI 개발을 위한 ‘라마 네모트론(Llama Nemotron)’ 대규모 언어 모델군을 공개했다. 이는 6억 5천만 회 이상의 다운로드를 기록한…