비전-언어 모델

Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models

AI, 냉장고 문도 제대로 못 닫는다… 퀄컴 연구진, AI 물리 인식 능력 테스트 결과 공개

12월 17, 2025

퀄컴(Qualcomm) AI 연구팀이 최신 인공지능 모델들이 우리가 일상에서 하는 간단한 행동조차 제대로 이해하지 못한다는 사실을 밝혀냈다. 이번 연구는 이미지를 보고 텍스트를 이해하는 AI 모델들이…

Short-Window Sliding Learning for Real-Time Violence Detection via LLM-based Auto-Labeling

“AI가 CCTV 속 폭력 포착”… 제미나이가 ‘주먹 드는 순간’ 95% 정확도로 잡는다

11월 18, 2025

멀티모달 AI 영상 분석 솔루션 기업 PIA-SPACE가 구글의 인공지능 ‘제미나이’를 활용해 CCTV에서 폭력 상황을 실시간으로 찾아내는 기술을 개발했다. 해당 연구 논문에 따르면, 정확도는 95.25%에…

"빨간 불에도 가라고?" 페루 도로에서 AI와 인간 운전자의 인지력 격차 드러나

빨간불 무시? 페루 최악의 도로에서 AI와 인간 운전자의 인지력 대결

3월 11, 2025

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru 경찰관이 빨간 신호등에도 불구하고 운전자에게 직진하라고 손짓하는 상황. 인간 운전자라면…

Generative AI: Differentiating disruptors from the disrupted

AI 동영상의 ‘진짜’ 실력은 누가, 어떻게 평가할까?

11월 7, 2024

최근 오픈AI의 소라(Sora)와 메타의 무비젠(MovieGen)과 같은 혁신적인 AI 동영상 생성 모델이 등장하면서, AI가 만드는 동영상의 품질을 어떻게 평가할 것인가에 대한 논의가 활발히 이루어지고 있다.…