AI에게 사진 한 장을 주고 설명을 시키면 처음 몇 문장은 놀랍도록 정확하다. 그런데 설명이 길어질수록 사진에 없던 행인과 핸드백이 슬그머니 등장한다. 중국 저장대학교(Zhejiang University) 연구진이 2026년 5월 공개한 논문은 이 멀티모달 AI 환각 원인을 ‘시각 일관성 감퇴(Visual Consistency Decay)’에서 찾았다. 멀티모달 AI가 답변을 길게 이어갈수록 정작 봐야 할 이미지에서 멀어져 학습된 텍스트 지식에 기대 없는 내용을 지어내는 현상으로, 챗GPT(ChatGPT)나 제미나이(Gemini)에 사진 설명을 맡겨본 사람이라면 한 번쯤 겪었을 문제다.
멀티모달 AI 환각 원인으로 지목된 시각 일관성 감퇴
저장대학교 연구진은 멀티모달 AI가 답변을 길게 이어갈수록 처음 본 이미지에서 점점 멀어진다는 사실을 확인하고, 이 현상에 시각 일관성 감퇴(Visual Consistency Decay)라는 이름을 붙였다. 시각 일관성 감퇴란 AI가 글을 길게 생성할수록 처음 본 이미지의 영향력이 약해져, 실제 사진과 어긋난 답을 내놓는 현상을 말한다.
여기서 멀티모달 거대언어모델(MLLM)이란 사진과 글을 동시에 이해하고 답하는 AI를 말한다. 챗GPT나 제미나이처럼 이미지를 올리면 그 내용을 설명해주는 모델이 모두 여기에 해당한다. 연구진은 이 모델들이 글을 한 단어씩 만들어내는 동안, 생성된 글과 원본 이미지가 얼마나 가까운지를 두 가지 지표로 측정했다. 그 결과 문장이 길어질수록 글과 이미지의 유사도는 떨어지고 둘 사이의 거리는 멀어졌다. 쉽게 말해 AI의 시선이 답변 후반으로 갈수록 사진에서 떨어져 나간 것이다. 처음에는 사진을 보고 답하다가 어느 순간부터는 사진이 아니라 자기 머릿속 지식을 보고 답하는 셈이다.

그림1. 생성 길이에 따른 이미지·텍스트 상관관계 변화 비교 그래프
다리미질 사진과 파란 가방이 드러낸 AI의 착각
연구진이 공개한 사례에서 오픈소스 모델 LLaVA는 노란 차 위에서 다리미질하는 남자의 사진을 설명하다가, 사진에 없던 여러 행인과 핸드백까지 지어냈다. 환각(Hallucination)이란 AI가 실제 이미지에 존재하지 않는 사물이나 상황을 사실인 것처럼 만들어내는 오류를 말한다. 같은 사진을 시각 일관성 감퇴를 보완한 모델(LLaVA-VIF)에 맡기자, 차의 색과 남자의 옷차림, 들고 있는 셔츠까지 사진 그대로 정확하게 묘사했다.
더 분명한 차이는 짧은 질문에서도 나타났다. “여성의 파란 가방이 어디 있느냐”는 질문에 기존 LLaVA는 “손에 들고 있다”고 틀렸지만, 보완 모델은 “어깨에 메고 있다”고 정확히 답했다. 연구진은 AI가 ‘손’과 ‘가방’이 글에서 자주 함께 등장한다는 통계적 습관에 끌려, 실제 사진 대신 언어 지식에 의존한 결과라고 설명했다. 도로의 안전콘 사진에서도 기존 모델은 없는 자동차 두 대와 사람을 지어냈지만, 보완 모델은 노란 안전 테이프와 집, 나무 같은 실제 요소를 정확히 짚었다. 사진을 올렸을 때 AI가 엉뚱한 설명을 덧붙인 경험이 있다면, 바로 이 장면이 그 순간의 정체다.
이미지를 한 번만 보여주는 기존 방식의 맹점
기존 멀티모달 AI는 이미지를 답변 맨 앞에 한 번 붙여놓고 시작한 뒤 다시 들여다보지 않는데, 연구진은 이 ‘한 번 보고 끝(one-time, static)’ 구조를 환각의 핵심 원인으로 지목했다. 여기서 커넥터(Connector)란 이미지를 AI가 다루는 텍스트 신호 옆에 붙여주는 연결 장치를 말한다. 문제는 이렇게 붙은 이미지 신호가 일반 텍스트 단어와 똑같이 취급된다는 점이다.
답변이 길어질수록 새로 만들어지는 단어는 계속 쌓이는데 이미지 정보는 처음 그대로 멈춰 있다. 그러면 AI의 관심은 자연히 방금 자기가 쓴 글 쪽으로 쏠리고, 사진의 비중은 점점 옅어진다. 연구진은 정보이론 관점에서 출력 단어와 이미지를 잇는 연결 강도가 생성이 길어질수록 줄어든다는 것을 수식으로 보여주기도 했다. 시험 시작 전에 사진을 딱 한 번 본 뒤, 그 기억만으로 긴 시험지를 끝까지 풀어야 하는 학생을 떠올리면 이해가 쉽다. 뒤로 갈수록 기억은 흐려지고, 빈칸은 추측으로 채워진다.
매 단어마다 사진을 다시 보게 만드는 VIF
저장대 연구진이 내놓은 해법은 비전 인퍼런스 포머(Vision Inference Former, VIF)로, AI가 단어 하나를 생성할 때마다 원본 이미지를 다시 끌어와 주입하는 가벼운 보조 모듈이다. 비전 인퍼런스 포머란 이미지 정보와 AI가 글을 쓰는 순간의 상태를 매 순간 연결해, 생성이 끝날 때까지 시각 정보가 살아 있도록 붙잡아두는 장치를 말한다.
VIF는 두 개의 작은 층으로 이뤄진다. 하나는 이미지 안 요소들끼리의 관계를 정리하고, 다른 하나는 지금 쓰고 있는 문장 맥락에 맞는 이미지 부분을 그때그때 골라낸다. 비유하자면 AI가 글을 한 줄 쓸 때마다 옆에서 “사진 다시 봐”라고 짚어주는 보조 역할이다. 앞서 비유한 학생으로 돌아가면, 기존 방식이 사진을 한 번만 보고 시험을 치르는 학생이라면 VIF를 단 AI는 문제를 풀 때마다 사진을 다시 펼쳐보는 학생인 셈이다. 매번 정답의 근거를 사진에서 확인하니 추측이 끼어들 틈이 줄어든다.
14개 시험에서 확인된 성능 향상과 최소 비용
VIF를 적용하자 알리바바의 큐원2.5-VL(Qwen2.5-VL) 7B 모델은 일반 시험 평균 점수가 70.92점에서 73.08점으로 2.16점 올랐고, LLaVA-1.5 계열도 14개 시험 전반에서 일관되게 향상됐다. 특히 시각 능력을 직접 보는 MMVP 시험에서 LLaVA-1.5-7B는 같은 데이터로 학습한 기존 모델보다 6점이나 높아졌다. 작아 보이는 차이지만, 사진을 잘못 읽어 생기는 오답이 그만큼 줄어든다는 뜻이라, 문서 인식이나 영상 판독처럼 정확성이 생명인 분야에서는 결과가 전혀 다른 수준으로 갈린다.
환각을 측정하는 POPE 시험과 사물 인식 시험에서도 점수가 올라, 없는 것을 지어내는 빈도가 줄었다. 더 주목할 점은 비용이다. VIF를 달아도 답변을 만드는 시간은 1.04배, 메모리 사용량은 1.05배로 거의 늘지 않았다. 성능은 끌어올리면서 추가 부담은 5% 안팎에 그친 셈이라, 기존 모델에 덧붙이기만 해도 효과를 볼 수 있는 가벼운 설계라는 점이 강점으로 꼽힌다.
환각을 줄인 AI가 바꿀 일상의 신뢰도
이번 연구는 AI 환각이 단순히 모델이 똑똑하지 못해서가 아니라, 이미지를 다루는 구조 자체에서 비롯될 수 있음을 보여준다. 사진을 한 번만 보여주는 방식이 문제라면, 앞으로 나올 모델들은 생성 내내 시각 정보를 붙잡아두는 설계를 기본으로 삼을 가능성이 있다. 다만 연구진도 한계를 인정했다. VIF는 정지된 사진을 다루는 데 초점을 맞췄을 뿐, 움직이는 영상처럼 정보량이 폭발적으로 늘어나는 경우에는 추가 검증이 필요하다. 단순한 덧셈 방식의 결합이 복잡한 이미지 관계를 모두 담아내는지도 두고 볼 필요가 있다.
그럼에도 사용자 입장에서 분명한 변화는, 사진을 올리고 긴 설명을 요청해도 AI가 끝까지 사진에 충실할 가능성이 높아진다는 점이다. 영수증을 읽거나 제품 사진을 분석하거나 의료 영상을 설명받을 때, ‘뒷부분은 믿기 어렵다’는 막연한 불안이 줄어들 수 있다. AI에게 이미지를 맡길 일이 점점 늘어나는 지금, 답변의 길이와 신뢰도가 따로 놀지 않게 만드는 일은 생각보다 중요한 진전일 수 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 멀티모달 AI는 왜 사진을 길게 설명할수록 틀리나요?
기존 멀티모달 AI는 이미지를 답변 맨 앞에 한 번만 붙여놓고 시작하기 때문입니다. 답변이 길어질수록 새로 쓰는 글에 관심이 쏠리고 처음 본 이미지의 영향력이 약해져, 사진에 없는 내용을 지어내는 시각 일관성 감퇴가 나타납니다.
Q. 비전 인퍼런스 포머(VIF)는 무엇인가요?
비전 인퍼런스 포머는 AI가 단어를 하나씩 생성할 때마다 원본 이미지를 다시 끌어와 보여주는 가벼운 보조 모듈입니다. 저장대학교 연구진이 개발했으며, 추가 비용은 5% 안팎에 그치면서도 14개 시험 전반에서 성능을 일관되게 높였습니다.
Q. 이 기술이 일반 사용자에게 어떤 도움이 되나요?
사진을 올리고 긴 설명을 요청해도 AI가 끝까지 이미지에 충실할 가능성이 높아집니다. 영수증과 문서 인식, 제품과 의료 사진 분석처럼 정확성이 중요한 작업에서 없는 내용을 지어내는 환각이 줄어드는 효과를 기대할 수 있습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




![[스페이스X 상장 SEC 조건 신고서 몰아보기 #5] 공모 자금, 스타십·스타링크·AI 컴퓨트에 사용](https://aimatters.co.kr/wp-content/uploads/2026/06/spacex_fwp_SpaceX_FWP_5.jpg)

![[스페이스X 상장 SEC 조건 신고서 몰아보기 #1] ‘SPCX’로 결정… 나스닥·나스닥 텍사스 동시 상장](https://aimatters.co.kr/wp-content/uploads/2026/06/spacex_fwp_SpaceX_FWP_1.jpg)