Search

사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다

A Simple Baseline for Streaming Video Understanding
A Simple Baseline for Streaming Video Understanding

수억 원을 들여 AI에게 긴 기억을 심어줬더니, 정작 눈앞의 장면을 못 보게 됐다. 2026년 4월 난양공과대학교(Nanyang Technological University) 연구팀이 공개한 논문에서 충격적인 사실이 드러났다. 복잡한 기억 시스템을 갖춘 AI들을 상대로, “최근 4장면만 보여주는” 단순한 모델이 최고 성능을 기록한 것이다. 동영상을 실시간으로 이해하는 AI를 만들려는 모든 이들에게, 이 연구는 지금까지의 방향이 틀렸을 수 있다는 불편한 질문을 던진다.

복잡한 기억 시스템이 AI를 오히려 눈멀게 한다

기억이 많을수록 더 잘 이해할 것이라는 생각은 자연스럽다. 탐정 드라마에서 베테랑 형사가 수십 년치 사건 기록을 뒤지는 장면처럼, AI도 과거 영상을 많이 기억할수록 질문에 더 잘 답할 수 있을 것처럼 보인다. 이 직관을 믿은 연구자들은 AI에게 방대한 기억 장치를 달아주기 위해 수년간 경쟁했다. 외부 메모리 뱅크, 과거 장면을 압축해 저장하는 압축 시스템, 필요한 기억을 검색해오는 검색 시스템 등이 그 결과물이다.

그런데 난양공과대학교 연구팀이 이 경쟁에 찬물을 끼얹었다. 연구팀은 ‘심플스트림(SimpleStream)’이라는 이름 그대로 단순한 모델을 만들었다. 이 모델이 하는 일은 딱 하나다. 동영상이 들어오면 가장 최근 N개의 장면(프레임)만 잘라서 AI에게 보여주는 것이다. 별도의 기억 장치도, 검색 시스템도, 추가 학습도 없다. 그런데 이 모델이 복잡한 기억 시스템을 갖춘 경쟁자들을 모두 제쳤다.

그림1. 심플스트림의 작동 원리와 OVO-벤치 성능 비교
그림1. 심플스트림의 작동 원리와 OVO-벤치 성능 비교



최근 4장면으로 최고 성능, OVO-벤치 67.7% 달성

심플스트림이 거둔 성과는 숫자로 더 선명하게 드러난다. 연구팀은 OVO-벤치(OVO-Bench)와 스트리밍벤치(StreamingBench)라는 두 가지 공인된 평가 기준을 사용해 13개의 기존 AI 모델들과 비교했다.

결과는 놀라웠다. Qwen3-VL-8B 모델을 기반으로 최근 4장면만 사용한 심플스트림은 OVO-벤치에서 평균 67.7%를 기록했다. 이는 당시 최강으로 꼽히던 복잡한 기억 시스템 모델 허메스(HERMES)의 59.2%를 8.5%포인트 차이로 앞지른 수치다. 8.5%포인트 차이가 작아 보일 수 있지만, 이 수치는 AI가 1,640개의 질문 중 약 140개를 더 맞히는 차이다. 실제 서비스로 환산하면 이용자 열 명 중 한 명이 틀린 답 대신 맞는 답을 받게 되는 수준이다. 스트리밍벤치에서도 심플스트림은 80.59%를 기록하며 허메스(79.44%)를 앞섰고, 나머지 5개의 심플스트림 구성 버전 모두 스트림포레스트(StreamForest)를 포함한 다른 스트리밍 모델들을 넘어섰다.

속도와 메모리 사용량도 눈에 띈다. 논문이 공개한 응답 지연 시간(TTFT, Time to First Token) 비교에서 심플스트림-4f는 64프레임 기준 33밀리초(ms)만에 첫 답변을 생성했다. 반면 리케이브이(ReKV)는 380ms, 스트림포레스트는 560ms가 걸렸다. 복잡한 기억을 유지하는 데 드는 속도 비용이 얼마나 큰지 보여주는 대목이다. GPU 메모리 측면에서도 심플스트림-4f는 모든 비교 모델 중 가장 낮은 수준을 유지했다.

기억이 많을수록 현재를 못 보는 지각-기억 상충관계

이 현상의 원인을 연구팀은 ‘지각-기억 상충관계(Perception-Memory Trade-off)’라고 명명했다. 지각-기억 상충관계란 AI가 과거 기억에 집중할수록 지금 눈앞의 장면을 인식하는 능력이 떨어지는 현상을 말한다.

비유하자면 이렇다. 수십 년치 사건 파일을 머릿속에서 검색하는 데 정신이 팔린 형사는, 정작 지금 범인이 들고 있는 물건을 놓친다. AI도 마찬가지다. 과거 기록을 저장하고 검색하고 압축하는 데 처리 능력을 소모하면, 지금 들어오는 영상의 세부 정보를 정확하게 파악하는 능력이 흐릿해진다.

연구팀은 이를 수치로 증명했다. 실시간 인식 능력의 변화량(ΔP)을 측정한 결과, 심플스트림을 기준으로 외부 기억 장치를 사용한 모든 모델이 실시간 인식 정확도에서 손실을 보였다. 기억력이 가장 좋은 모델 스트림포레스트는 기억 점수는 +8.9포인트 올랐지만, 실시간 인식 정확도는 -13.8포인트나 추락했다. 허메스도 기억 점수 +2.4포인트를 얻는 대신 실시간 인식에서 -6.0포인트를 잃었다. 더 많은 역사를 기억하는 대가로 지금 이 순간을 보는 눈을 잃은 셈이다.

또 하나의 반직관적인 발견은 창문 크기(윈도우 사이즈)에 관한 것이다. 최근 장면을 2개에서 4개로 늘리면 정확도가 오른다(전체 정확도 66.4→67.7, 실시간 인식 79.3→81.4). 그런데 8개로 더 늘리면 오히려 성능이 떨어지기 시작하고, 16개까지 늘리면 실시간 인식 정확도는 77.9까지 내려간다. 많이 볼수록 좋은 게 아니라 딱 적당한 양이 있다는 의미다. 그 적당한 양은 AI 모델의 크기와 종류에 따라 제각각이라, “더 크면 더 좋다”는 단순 공식이 통하지 않는다는 점도 확인됐다.

그림6. 기억력을 높일수록 실시간 인식 정확도가 떨어지는 지각-기억 상충관계
그림6. 기억력을 높일수록 실시간 인식 정확도가 떨어지는 지각-기억 상충관계



AI 동영상 연구의 방향을 다시 세워야 하는 이유

이 연구가 AI 연구자들에게만 의미 있는 것은 아니다. 동영상을 실시간으로 분석해 안전을 감지하는 CCTV 시스템, 라이브 방송 내용을 실시간으로 이해하는 AI 비서, 수술 중인 의사를 보조하는 의료 AI 모두 동영상 스트리밍 이해 기술에 기반한다. 이 기술이 더 가볍고 빠르면서도 정확해질 수 있다는 사실은 이런 서비스들의 실용화 속도에 직접 영향을 미친다.

복잡한 기억 장치 없이도 높은 성능을 낼 수 있다는 건, AI 시스템이 더 가볍고 저렴하게 만들어질 수 있다는 뜻이기도 하다. 스마트폰이나 소형 기기에서도 동영상을 실시간으로 이해하는 AI가 실현될 가능성이 높아진다.

연구팀은 미래 AI의 이상적인 설계 원칙도 제시했다. “최근 정보는 항상 유지하되, 과거 기억은 필요할 때만 불러온다(recent-first, history-on-demand)”는 방향이 그것이다. 평소에는 눈앞의 장면에 집중하되, 정말 오래된 기억이 필요한 순간에만 기억 창고를 여는 구조가 지금보다 훨씬 효율적일 가능성이 있다. 현재의 벤치마크 자체도 실시간 인식 능력에 더 높은 점수를 부여하도록 설계돼 있어, 복잡한 기억 시스템의 진짜 능력을 제대로 평가하지 못하고 있을 수 있다는 점도 연구팀은 지적한다. 이 부분은 후속 연구에서 더 엄밀히 검증될 필요가 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 스트리밍 동영상 AI란 무엇인가요?
스트리밍 동영상 AI란 유튜브 라이브, CCTV, 화상통화처럼 실시간으로 계속 흘러가는 영상을 보면서 질문에 답하거나 상황을 설명할 수 있는 인공지능을 말합니다. 미리 녹화된 동영상을 분석하는 것과 달리, 지금 이 순간 들어오는 장면을 즉시 이해해야 한다는 점에서 기술적 난이도가 훨씬 높습니다.

Q. AI가 최근 4장면만 본다는 게 실제로 어떤 의미인가요?
동영상은 1초에 여러 장의 사진(프레임)이 연속으로 이어진 것입니다. 심플스트림은 AI에게 질문이 들어올 때 가장 최근에 찍힌 4장의 사진만 보여줍니다. 마치 형사가 수십 년치 파일 대신 방금 찍힌 CCTV 화면 4컷만 집중해서 보는 것과 같습니다. 이 단순한 방식이 복잡한 기억 시스템보다 더 높은 정확도를 보인 것입니다.

Q. 심플스트리밍의 관련 연구가 일반 사용자에게는 어떤 의미인가요?
복잡한 기억 장치 없이도 높은 성능을 낼 수 있다는 건, AI 시스템이 더 가볍고 저렴하게 만들어질 수 있다는 뜻입니다. 스마트폰이나 소형 기기에서도 동영상을 실시간으로 이해하는 AI가 실현될 가능성이 높아집니다. 더 많은 사람이 더 낮은 비용으로 AI 동영상 분석 서비스를 이용하게 될 수 있습니다.

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.
리포트명: A Simple Baseline for Streaming Video Understanding
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.