Search

비 오는 밤 자율주행 AI의 눈이 뒤집혔다 제미나이 3이 YOLO를 25% 이상 앞섰다

비 오는 밤 자율주행 AI의 눈이 뒤집혔다 제미나이 3이 YOLO를 25% 이상 앞섰다
이미지 출처: 캔바 생성

자율주행의 ‘눈’은 욜로(YOLO, You Only Look Once) 같은 전용 객체 탐지 모델의 영역이라는 상식이 흔들리고 있다. 오스트리아 그라츠공과대학교(Graz University of Technology) 연구팀이 2026년 1월 30일 아카이브(arXiv)에 공개한 논문에 따르면, 범용 챗봇으로 더 익숙한 제미나이 3(Gemini 3)과 두바오(Doubao) 같은 대형 비전 언어 모델(LVLM, Large Vision-Language Model)이 폭우·폭설·역광이 뒤엉킨 실제 도로 영상에서 욜로 계열 탐지기를 재현율(Recall) 기준 25% 이상 앞섰다. 대형 비전 언어 모델이란 이미지와 언어를 함께 이해하도록 학습된 범용 AI를 말한다. 자율주행 안전 논의에서 “특화 모델만 믿을 수 있다”는 가정이 더는 성립하지 않는다는 얘기다. 단, 깨끗한 도로나 인공적으로 만든 잡음 속에서는 여전히 욜로가 앞선다.

그림1. 역광 때문에 자율주행차의 카메라가 전방을 파악하 지못하는 순간을 담은 PeSOTIF 데이터셋
그림1. 역광 때문에 자율주행차의 카메라가 전방을 파악하 지못하는 순간을 담은 PeSOTIF 데이터셋


제미나이 3과 두바오가 욜로를 넘어선 순간

그라츠공과대학교 지 저우(Ji Zhou), 이린 딩(Yilin Ding), 교신저자 융치 자오(Yongqi Zhao) 등 5인 연구진이 발표한 ‘SOTIF 조건 하에서 2D 객체 탐지를 위한 대형 비전 언어 모델의 비교 평가(A Comparative Evaluation of Large Vision-Language Models for 2D Object Detection under SOTIF Conditions)’ 논문은, 주요 개발사의 대형 비전 언어 모델 10종을 자율주행 안전에 특화된 PeSOTIF 데이터셋 1126장 영상으로 시험한 결과를 정리했다.

SOTIF란 ‘의도된 기능의 안전성(Safety of the Intended Functionality)’을 줄인 말로, 부품이 고장난 게 아니라 정상 작동하는 카메라가 역광·폭우 같은 한계 상황을 만나 사물을 놓치는 위험을 뜻한다. 국제표준화기구 ISO 21448에 정의된 자율주행 안전의 핵심 개념이다.

시험 대상은 제미나이 3, 제미나이 2.5 프로(Gemini 2.5 Pro), 제미나이 2.5 플래시(Gemini 2.5 Flash), 구글(Google) 계열 세 모델과 오픈AI(OpenAI)의 GPT-5, xAI의 그록 2(Grok 2)와 그록 4(Grok 4), 앤트로픽(Anthropic)의 클로드 4.5(Claude 4.5), 알리바바(Alibaba)의 큐원 3 맥스(Qwen 3-Max), 바이트댄스(ByteDance)의 두바오, 텐센트(Tencent)의 훈위안 2.0(Hunyuan 2.0)이었다. 비교 기준은 자율주행 업계에서 ‘산업 표준’으로 불리는 욜로v5(YOLOv5) 탐지기였다. 전체 평균 정밀도에서 제미나이 3이 1위, 두바오가 2위, 제미나이 2.5 프로가 3위를 기록했고, 상위 세 모델 모두 욜로v5 기준선을 넘었다.

그림3. PeSOTIF의 데이터셋 개요
그림3. PeSOTIF의 데이터셋 개요


폭우와 눈 속 재현율 0.717 대 0.422

자연 악조건에서 벌어진 격차는 작지 않다. 연구진은 PeSOTIF의 ‘환경 서브셋(environment subset)’을 실제 날씨가 담긴 ‘자연 서브셋(natural subset)’과 사람이 인위적으로 잡음을 넣은 ‘핸드크래프트 서브셋(handcraft subset)’으로 다시 나눠 비교했다. 자연 서브셋은 비, 눈, 먼지, 어두운 조명처럼 현실 도로에서 흔히 마주치는 조건을 담았다. 여기서 제미나이 3의 mAP50 점수는 0.717로, 욜로v5의 0.422를 크게 앞섰다. mAP50이란 예측한 사각형 상자와 실제 사물 위치가 50% 이상 겹칠 때를 정답으로 보고 계산한 평균 정밀도(mean Average Precision)를 말한다.

재현율 격차는 더 극적이다. 재현율이란 화면에 실제 존재하는 사물 중 AI가 놓치지 않고 찾아낸 비율이다. 자율주행에서는 “있는 보행자를 놓치지 않는 것”이 가장 중요한 지표이기 때문에 재현율 차이는 곧 안전 차이와 직결된다. 논문은 자연 서브셋에서 최고 성능 대형 비전 언어 모델이 욜로v5의 재현율을 25% 이상 웃돌았다고 보고한다. 25%라는 수치는 추상적으로 들릴 수 있지만, 1000건의 위험 장면이 매일 수십만 대의 자율주행차에 누적될 경우 놓친 보행자·자전거의 절대 숫자가 전혀 다른 규모가 된다는 뜻이다.

범용 AI의 의미 추론이 국소 특징 손상을 이긴 이유

대형 비전 언어 모델이 악조건에서 강한 이유는 ‘장면 전체를 해석하는 힘’ 때문이다. 기존 욜로 계열 탐지기는 픽셀 단위의 국소(局所) 특징을 학습한다. 사물 가장자리, 색 대비, 질감 같은 부분 패턴을 보고 판단하는 방식이다. 그런데 폭우가 오거나 대형 트럭 전조등이 정면으로 비추면 이 국소 특징이 가장 먼저 무너진다. 가장자리는 흐려지고 색 대비는 사라진다. 이럴 때 욜로는 “내가 아는 보행자의 특징이 보이지 않는다”며 탐지를 포기한다.

반면 대형 비전 언어 모델은 방대한 인터넷 이미지와 텍스트로 학습되면서 “도로 위 저 그림자는 가게 차양일 가능성보다 보행자일 가능성이 높다” 같은 상식적 추론을 스스로 한다. 저자들은 이를 “전역 맥락 추론(global contextual reasoning)”이라 부른다. 뒤집어진 트럭처럼 학습 데이터에 거의 없는 희귀 객체를 마주쳐도, 대형 비전 언어 모델은 “도로 위에 옆으로 누운 차량 모양 물체”라는 식으로 추론해 바운딩 박스를 그려낸다. 욜로가 “분류 불가”로 건너뛴 장면을 대형 비전 언어 모델은 “이상 차량”으로 표기한다는 뜻이다. 이것이 자율주행 안전에서 가장 치명적인 롱테일(long-tail) 코너 케이스, 즉 드물지만 일어나면 사고로 직결되는 장면에서 대형 비전 언어 모델이 유리한 구조적 이유다.

인공 교란에서는 여전히 욜로가 앞선다

이야기는 여기서 뒤집힌다. 핸드크래프트 서브셋, 즉 연구진이 일부러 깨끗한 이미지 위에 합성 글레어나 인공 잡음을 덧씌운 장면에서는 결과가 반대로 나왔다. 이 세트에서는 욜로v5가 모든 대형 비전 언어 모델보다 높은 mAP50을 기록했다. 사각형 상자를 정확히 “몇 픽셀 안에 딱 맞게” 그리는 기하학적 정밀도에서는 전용 탐지기가 여전히 앞선다는 얘기다. 연구진은 이 대비를 이렇게 정리한다. 욜로는 잘 정의된 형태를 좌표 단위로 정확히 집어내는 ‘기하학적 회귀(geometric regression)’에 강하고, 대형 비전 언어 모델은 흐릿하거나 낯선 장면의 ‘의미를 해석(semantic reasoning)’하는 데 강하다.

다만 재현율(mAR50)만 놓고 보면 두바오는 핸드크래프트 서브셋에서도 욜로v5를 앞섰다. 즉 “상자의 위치는 덜 정확해도 사물을 놓치지는 않는다”는 특성이다. 자율주행 입장에서 “보행자가 있다는 사실을 1초라도 빨리 알아차리는 것”이 “상자를 정확한 픽셀에 그리는 것”보다 급할 때가 많다. 두 방식은 어느 쪽이 더 낫다기보다, 서로 다른 종류의 실패를 보완해주는 관계에 가깝다.

그림11. LVLM이 사진 1개 분석에 걸리는 평균 시간
그림11. LVLM이 사진 1개 분석에 걸리는 평균 시간


추론 50초 대 5초, 두바오가 그리는 하이브리드 지각의 길

마지막 남은 벽은 속도다. 연구진이 이미지 한 장당 평균 추론 시간을 측정한 결과, 정확도 1위 제미나이 3과 GPT-5는 한 장 처리에 50초가 넘게 걸렸다. 시속 60km로 달리는 차가 50초 동안 800m 넘게 움직인다는 점을 감안하면, 이 속도로는 실시간 자율주행에 쓸 수 없다. 반대편에 있는 클로드 4.5와 두바오는 약 5초였다. 두바오는 상위권 정확도를 지키면서도 추론 속도가 빠른 드문 사례로, 논문은 “정확도와 지연시간 사이의 가장 유리한 균형점”이라고 평가했다.

이 숫자는 독자가 자신의 상황에서 이 기술을 어떻게 받아들여야 할지를 가르는 기준이 된다. 당장 내일 도로 위 자율주행차의 모든 탐지 엔진이 제미나이 3으로 교체될 가능성은 없다. 다만 연구진은 대형 비전 언어 모델을 “고수준 안전 검증기(safety validator)” 또는 “중복 지각 분기(redundant perception branch)”로 쓰자고 제안한다. 평상시에는 빠른 욜로가 판단하고, 폭우나 역광 같은 한계 상황이 감지되면 대형 비전 언어 모델이 한 번 더 확인해주는 하이브리드 구조다. 두 기술을 대립시키기보다 역할을 나눠 겹치는 쪽이 현실 자율주행 안전에 더 가까워지는 길이라는 얘기다. 범용 AI가 정밀 산업으로 흘러 들어가는 흐름은 이미 시작됐고, 자동차 업계가 대형 비전 언어 모델을 어디까지 신뢰할지는 앞으로 몇 년의 실제 배포 데이터로 가려질 부분이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 대형 비전 언어 모델이 욜로를 완전히 대체하게 되나요?
단기적으로는 대체가 아니라 보완입니다. 이번 연구에서도 욜로는 깨끗한 도로 영상의 기하학적 정밀도에서 여전히 앞섰고, 대형 비전 언어 모델은 추론 속도가 수십 초에 달해 실시간 주행에 바로 쓰기 어렵습니다. 당분간은 욜로가 기본 탐지를 맡고, 대형 비전 언어 모델이 악조건 장면의 2차 확인자 역할을 하는 하이브리드 구조가 현실적입니다.

Q2. SOTIF가 정확히 무엇이고 왜 중요한가요?
SOTIF는 ‘의도된 기능의 안전성’을 뜻하는 국제표준 ISO 21448의 개념입니다. 카메라나 센서가 망가진 게 아니라 정상 작동하는데도, 역광·폭우·희귀 장애물 같은 한계 상황에서 사물을 놓치거나 오인식하는 위험을 가리킵니다. 자율주행차 상용화의 마지막 안전 관문으로 평가됩니다.

Q3. 일반 운전자에게 이 연구는 어떤 의미인가요?
앞으로 출시될 자율주행 차량이 비·눈·역광에서 사람과 장애물을 더 잘 인식하게 될 가능성이 커졌다는 뜻입니다. 연구가 보여준 25% 이상의 재현율 차이는 결국 놓친 보행자·자전거의 절대 숫자를 줄이는 일과 직결되기 때문에, 실제 도로 안전 수준이 한 단계 올라갈 여지가 생겼습니다.

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.
리포트명: A Comparative Evaluation of Large Vision-Language Models for 2D Object Detection under SOTIF Conditions
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너