Search

  • Home
  • 비전-언어 모델

비전-언어 모델

Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models

AI, 냉장고 문도 제대로 못 닫는다… 퀄컴 연구진, AI 물리 인식 능력 테스트 결과 공개

12월 17, 2025

퀄컴(Qualcomm) AI 연구팀이 최신 인공지능 모델들이 우리가 일상에서 하는 간단한 행동조차 제대로 이해하지 못한다는 사실을 밝혀냈다. 이번 연구는 이미지를 보고 텍스트를 이해하는 AI 모델들이…

"빨간 불에도 가라고?" 페루 도로에서 AI와 인간 운전자의 인지력 격차 드러나

빨간불 무시? 페루 최악의 도로에서 AI와 인간 운전자의 인지력 대결

3월 11, 2025

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru 경찰관이 빨간 신호등에도 불구하고 운전자에게 직진하라고 손짓하는 상황. 인간 운전자라면…

Generative AI: Differentiating disruptors from the disrupted

AI 동영상의 ‘진짜’ 실력은 누가, 어떻게 평가할까?

11월 7, 2024

최근 오픈AI의 소라(Sora)와 메타의 무비젠(MovieGen)과 같은 혁신적인 AI 동영상 생성 모델이 등장하면서, AI가 만드는 동영상의 품질을 어떻게 평가할 것인가에 대한 논의가 활발히 이루어지고 있다.…

비전-언어 모델 - AI매터스