Search

AI가 가짜 영상으로 스스로 공부한다, 라벨링 없이 동작 인식 정확도 7% 올린 방법

AI 매터스 기사 썸네일_GenOpticalFlow Generating Optical Flow Datasets without Manual Annotations
이미지 출처: 이디오그램 생성

자율주행차를 훈련시키려면 전문가가 영상 수만 장에 일일이 “이 차는 왼쪽으로 간다”, “이 사람은 오른쪽으로 걷는다”는 정보를 손으로 붙여야 했다. 그런데 AI가 스스로 시험 문제를 만들어 혼자 공부하는 방법이 등장했다. 시카고대학교와 워싱턴대학교 연구진이 개발한 ‘젠옵티컬플로우(GenOpticalFlow)’는 사람이 라벨을 붙이지 않아도 AI가 영상 속 움직임을 스스로 학습할 수 있는 기술이다. 자율주행, 영상 편집, 동작 인식처럼 움직임 감지가 핵심인 분야라면 이 기술의 파장이 어디까지 미칠지 주목할 필요가 있다.

AI가 시험지를 직접 만들어 공부하는 원리

옵티컬 플로우(Optical Flow) 추정이란 연속된 영상 프레임에서 각 픽셀이 어디로 얼마나 이동했는지 추적하는 기술이다. 쉽게 말해, 연속된 사진을 빠르게 넘기면 그림이 움직이는 것처럼 보이는 플립북(flip book)의 원리와 같다. AI가 이 기술을 익히려면 ‘이 픽셀은 오른쪽으로 3칸 움직였다’는 정답 데이터가 필요한데, 이 정답을 만드는 작업이 바로 전문가의 수작업 라벨링이다. 비용도 비용이지만, 조명이 바뀌거나 물체가 빠르게 움직이면 사람도 정확히 라벨을 붙이기 어렵다.

젠옵티컬플로우는 이 문제를 완전히 뒤집어서 해결했다. 정답을 찾아내는 대신, 정답을 먼저 만든 다음 그 정답에 어울리는 문제를 생성형 AI에게 만들게 하는 방식이다. 깊이 추정 네트워크로 “이 물체는 이렇게 움직인다”는 움직임 정보를 먼저 생성하고, 그 정보를 조건으로 제시하면서 생성형 AI에게 “그럼 다음 프레임은 어떻게 생겼을까?”를 그리게 하는 것이다. 이렇게 탄생한 영상은 처음부터 정확한 움직임 정보와 완벽하게 짝을 이루기 때문에 별도 라벨링 없이 바로 학습 데이터로 쓸 수 있다.

그림 1. 젠옵티컬플로우의 작동 방식. 실제 도로 영상과 움직임 정보를 AI가 색깔로 표현한 이미지, 움직임 정보 조건을 담아 AI가 만든 다음 프레임.
그림 1. 젠옵티컬플로우의 작동 방식. 실제 도로 영상과 움직임 정보를 AI가 색깔로 표현한 이미지, 움직임 정보 조건을 담아 AI가 만든 다음 프레임.



기존 방식이 무너지는 순간, 헤드라이트가 켜질 때

기존 비지도 학습 방식은 두 가지 가정에 기대왔다. ‘밝기 일정(brightness constancy)’ 가정, 즉 같은 물체는 다음 프레임에서도 비슷한 밝기를 유지한다는 전제와 ‘공간 부드러움(spatial smoothness)’ 가정, 즉 가까운 픽셀들은 비슷한 방향으로 움직인다는 원칙이다.

문제는 현실 세계가 이 가정들을 가볍게 무시한다는 점이다. 야간에 맞은편 차의 헤드라이트가 켜지면 밝기가 순식간에 바뀐다. 공이 빠르게 날아오면 흐릿하게 번진다. 건물 모퉁이를 돌아가는 사람은 잠시 다른 물체에 가려진다. 이런 상황에서 ‘밝기가 일정하다’는 가정은 완전히 무너진다. 마치 “우리 반 학생들은 항상 같은 옷을 입는다”고 믿으며 출석을 체크하는 것과 같다. 며칠은 맞출 수 있겠지만, 체육복을 입고 온 날에는 절반을 결석으로 처리하게 된다. 연구진은 바로 이 불안정한 가정이 비지도 학습 방식이 지도 학습 방식보다 일관되게 낮은 성능을 보이는 근본 원인이라고 지적했다.

나쁜 픽셀을 걸러내는 상한 재료 솎아내기 전략

생성형 AI가 만든 영상이라고 해서 모든 픽셀이 완벽하지는 않다. 물체가 겹치거나 급격하게 움직이는 부분은 생성 품질이 떨어질 수 있다. 젠옵티컬플로우는 이 문제를 ‘일관성 없는 픽셀 필터링(inconsistent pixel filtering)’ 전략으로 해결한다. 신뢰할 수 없는 픽셀을 자동으로 식별해 학습 과정에서 조용히 제외하는 방식이다.

요리로 치면 아무리 훌륭한 레시피가 있어도 상한 재료가 들어가면 음식이 망가지는 것과 같다. 이 필터링 과정은 특히 실제 데이터셋에서 미세 조정(fine-tuning)할 때 성능 향상에 결정적인 역할을 한다. 실험 결과는 이를 뒷받침했다.

자율주행 분야의 표준 벤치마크인 KITTI2012, KITTI2015와 복잡한 영화 장면을 담은 Sintel 데이터셋에서 젠옵티컬플로우는 기존 비지도 및 준지도 학습 방식 대비 동등하거나 더 우수한 성능을 기록했다. 7가지 옵티컬 플로우 추정 프레임워크에 적용했을 때 평균 오차(EPE)를 1.49 줄이고 정확도 지표(Fl-all)를 7.00 개선했다.

숫자만 보면 작아 보일 수 있지만, 시속 100km로 달리는 자율주행차가 앞 차의 급브레이크를 0.1초 더 빨리 감지하는 것과 0.1초 늦게 감지하는 것의 차이를 생각하면 이야기가 달라진다.

씨앗 하나로 무한 재배하는 자기 생성 학습의 미래

이 기술의 진짜 의미는 라벨링 비용 절감에 그치지 않는다. 젠옵티컬플로우가 보여주는 것은 AI가 스스로 학습 환경을 만드는 ‘자기 생성적 학습(self-generative learning)’의 가능성이다. 기존에는 데이터가 많아질수록 라벨링 비용도 그대로 늘어났다. 반면 이 방식은 원본 영상만 있으면 사실상 무제한으로 학습 데이터를 생성할 수 있다. 씨앗 하나로 무한히 농작물을 재배하는 것과 같다.

응용 범위도 넓다. 옵티컬 플로우 추정은 자율주행차의 주변 물체 움직임 예측, 저해상도 영상을 부드럽게 만드는 프레임 보간(frame interpolation), 슬로우 모션 영상 제작, 동작 인식(action recognition), 비디오 이해(video understanding)까지 폭넓게 쓰인다. 연구진이 코드를 공개할 예정이라고 밝힌 것도 주목할 만하다. 이는 자율주행, 로봇 비전, 영상 편집 업계가 바로 이 방식을 가져다 쓸 수 있게 된다는 뜻이다. 한 가지 덧붙이자면, 현재 실험은 통제된 벤치마크 데이터셋에서 이루어진 결과다. 실제 도로나 의료 영상처럼 훨씬 복잡하고 예측 불가능한 환경에서도 같은 성능을 유지하는지는 두고 볼 필요가 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 옵티컬 플로우 추정이 정확히 무엇인가요? A. 옵티컬 플로우 추정은 연속된 영상 프레임에서 각 픽셀이 어느 방향으로 얼마나 이동했는지 추적하는 기술입니다. 자율주행차가 앞 차와 보행자의 움직임을 예측하거나, 영상에서 슬로우 모션 효과를 만들 때 핵심적으로 사용됩니다.

Q. 라벨링 없이 학습하면 기존 방식보다 정말 정확한가요? A. 젠옵티컬플로우는 기존 비지도 학습 방식 대비 평균 오차를 1.49 줄이고 정확도를 7% 향상시켰습니다. 생성형 AI로 만든 영상이 처음부터 정확한 움직임 정보와 짝을 이루기 때문에 불완전한 가정에 의존했던 기존 방식의 약점을 극복할 수 있습니다.

Q. 이 기술이 실생활에 적용되려면 얼마나 걸릴까요? A. 연구진이 코드를 공개할 예정이어서 자율주행, 영상 편집, 로봇 비전 분야에서 비교적 빠르게 활용될 수 있습니다. 다만 실제 환경에서의 성능 검증과 안전 기준 충족에는 추가적인 테스트 기간이 필요합니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: GenOpticalFlow: Generating Optical Flow Datasets without Manual Annotations

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI 매터스 유튜브 구독자 추첨 도서 증정 이벤트 배너_박태웅의 AI 강의 2026 증정