인공지능(AI)이 사람과 얼마나 다르게 사물을 보는지에 대한 흥미로운 연구가 나왔다. 양지안이(Jianyi Yang)와 예준이(Junyi Ye), 대시 안칸(Ankan Dash), 왕굴링(Guiling…
엔비디아가 로봇과 물리적 AI를 위한 새로운 비전 언어 모델 ‘코스모스 리즌(NVIDIA Cosmos Reason)’을 공개했다고 11일(현지 시간) 발표했다. 엔비디아…
Embodied AI Agents: Modeling the World 메타 AI 연구소가 차세대 인공지능 기술 발전을 위해 수행한 대규모 연구 프로젝트에서,…
Are Vision-Language Models Ready for Dietary Assessment? 비공개 소스 AI 모델, 식품 인식에서 90% 이상의 정확도 달성 인공지능(AI)…
알리바바의 Qwen 팀은 24일(현지 시간) 자사 블로그를 통해 새로운 시각-언어 모델인 Qwen2.5-VL-32B-Instruct를 오픈소스로 공개했다. 이 모델은 기존 Qwen2.5-VL…
과학기술정보통신부(장관 유상임, 이하 ‘과기정통부’)가 공공 분야에 인공지능(AI) 기술을 확산하기 위한 신규 사업을 본격 추진한다. 과기정통부는 18일(한국 시간), 10개…
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 웹 규모 데이터로 훈련된 비전-언어 모델, 로봇 제어에 혁신적…
허깅페이스(Hugging Face)가 로봇을 자연어로 제어할 수 있는 비전-언어-액션 플로우 모델 ‘Pi0(파이제로)’를 오픈소스로 공개했다. 이는 로봇 제어 전문 기업…
엔비디아가 CES 2025 키노트를 통해 기업용 에이전트형 AI 개발을 위한 ‘라마 네모트론(Llama Nemotron)’ 대규모 언어 모델군을 공개했다. 이는…