퀄컴(Qualcomm) AI 연구팀이 최신 인공지능 모델들이 우리가 일상에서 하는 간단한 행동조차 제대로 이해하지 못한다는 사실을 밝혀냈다. 이번 연구는 이미지를 보고 텍스트를 이해하는 AI 모델들이 실제 세계에서 일어나는 물리적 변화를 얼마나 이해하는지 테스트하기 위한 새로운 평가 방법인 Do-Undo를 제시했다.
연구팀은 큐웬 이미지(Qwen-Image), 베이글(BAGEL), 플럭스콘텍스트(FluxKontext), 제미나이(Gemini) 등 현존하는 최고 수준의 비전-언어 모델들을 대상으로 물리적 행동의 이해와 생성 능력을 평가했다. 그 결과 이들 모델이 단순히 물체를 추가하거나 제거하는 것을 넘어 실제 세계의 인과관계를 이해하는 데는 심각한 한계가 있음이 드러났다.
“냉장고 문 열고 닫기” 간단한 동작도 실패하는 AI들
해당 논문에 따르면, 연구팀은 AI 모델에게 간단한 테스트를 했다. 먼저 “냉장고에서 나무 그릇을 꺼내세요”라는 지시를 주고 그 결과를 이미지로 만들게 한 뒤, 다시 “냉장고 문을 닫으세요”라고 해서 원래 상태로 돌아가는지 확인했다. 이는 AI가 물리적 행동을 수행한 결과를 생성하고, 그 행동을 정확하게 되돌려 원래 장면으로 복원할 수 있는지를 평가하는 것이다.
테스트 결과는 충격적이었다. 큐웬 이미지(Qwen-Image), 베이글(BAGEL) 같은 최신 모델들은 정작 물건을 꺼내는 행동조차 제대로 표현하지 못했고, 문을 다시 닫는 역방향 동작에서는 완전히 실패했다. 심지어 원래 없던 물건을 갑자기 만들어내는 환각 현상까지 보였다. 이는 현재 AI가 단순히 이미지에서 물건을 지우거나 추가하는 것은 할 수 있어도, 실제 세계에서 일어나는 원인과 결과의 관계는 전혀 이해하지 못한다는 뜻이다.
실제 주방 영상에서 뽑아낸 2만 4천 개 ‘되돌릴 수 있는 행동’ 데이터
연구팀은 실제 사람들이 주방에서 일하는 모습을 담은 에픽키친(EpicKitchens)이라는 영상 자료를 바탕으로 새로운 데이터를 만들었다. 이 데이터에는 학습용 2만 4천 개, 테스트용 662개의 샘플이 들어있다. 각 샘플은 처음 상태의 사진, 어떤 행동을 하라는 지시문, 행동 후 사진, 그리고 다시 되돌리라는 지시문으로 구성된다. 중요한 점은 모든 행동이 되돌릴 수 있는 것들만 골랐다는 것이다.
예를 들어 물건 집기와 내려놓기(pick-up, put-down), 문 열기와 닫기(open, close), 전원 켜기와 끄기(turn-on, turn-off) 같은 짝을 이루는 행동들만 선택했다. 단순히 “서랍을 여세요”가 아니라 “왼손으로 서랍 손잡이를 잡고 뒤로 당겨서 완전히 열리게 하세요”처럼 손의 위치, 움직이는 방향, 물건의 상세한 특징까지 설명을 덧붙였다. 이렇게 자세한 설명을 추가한 이유는 카메라 각도가 조금 바뀌거나 배경이 달라져도 AI가 정확한 행동을 배울 수 있도록 하기 위해서다.

베이글 모델에 ‘일관성 학습’ 추가해 성능 개선 시도
연구팀은 베이글(BAGEL)이라는 AI 모델을 기반으로 실험을 진행했다. 베이글은 큐웬(Qwen) 2.5 언어모델 기반의 디코더 전용 트랜스포머 구조로, 이미지를 이해하는 ViT 인코더와 새로운 이미지를 만드는 VAE 인코더가 함께 들어있는 모델이다. 연구팀은 이 모델을 Do-Undo 데이터로 다시 학습시켰다.
학습 과정은 이렇다. 먼저 원본 사진과 정방향 행동 지시를 주면 결과 사진을 만들도록 했다. 그다음 결과 사진과 역방향 행동 지시를 주면 다시 원본과 비슷한 사진을 만들도록 했다. 특별히 Do-Undo(c)라는 버전에서는 되돌려서 만든 사진이 원본 사진과 얼마나 비슷한지를 측정하는 L1 손실을 추가로 적용해 일관성을 강화했다.
이런 방식으로 AI가 단순히 그럴듯한 이미지를 만드는 것을 넘어서, 실제 세계에서 행동의 원인과 결과 관계를 이해하도록 유도한 것이다. 실험 결과 Do-Undo로 학습한 모델은 기존 베이글보다 행동을 더 정확하게 수행하고 물리적으로도 더 그럴듯한 결과를 만들어냈다.
여러 평가 방법 동원했지만 여전히 한계 명확
연구팀은 AI가 만든 이미지를 여러 방식으로 채점했다. DINO-R은 되돌린 이미지가 처음 사진과 얼마나 똑같은지를, DINO-F는 행동한 후 이미지가 실제 결과와 얼마나 비슷한지를 점수로 매긴다. CLIP은 만들어진 이미지가 “문 열어” 같은 지시문 내용과 잘 맞는지를 확인한다. 옵티컬 플로우는 RAFT라는 도구를 써서 이미지들 사이의 움직임 차이를 계산해, 원래대로 제대로 돌아갔는지 검사한다.
평가 결과 제미나이(Gemini) 2.5가 가장 좋은 점수를 받았지만, 그래도 완벽하게 처음 상태로 되돌리지는 못했다. Do-Undo로 학습한 베이글 모델은 지시문을 더 잘 따르게 되었지만, 대신 만들어진 이미지가 원본과 조금 달라지는 문제가 생겼다. 큐웬 이미지와 플럭스콘텍스트는 긴 설명문보다 “문 열어” 같은 짧은 지시문을 줬을 때 더 잘 작동했다. 제미니를 심사위원처럼 사용해서 다시 평가했을 때도, Do-Undo 모델이 지시 따르기와 물건 모양 유지하기에서는 나아졌지만, 여전히 제미나이가 처음부터 보여준 성능만큼은 못 따라갔다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. Do-Undo 테스트가 뭔가요?
A: Do-Undo는 AI가 어떤 행동을 한 뒤 그것을 다시 되돌릴 수 있는지 확인하는 테스트입니다. 예를 들어 문을 여는 이미지를 만든 뒤, 다시 문을 닫는 이미지를 만들어서 원래 상태로 돌아가는지 보는 것입니다. 이를 통해 AI가 실제 세계의 원인과 결과 관계를 이해하는지 평가할 수 있습니다.
Q2. 왜 최신 AI들도 간단한 동작을 되돌리는 데 실패하나요?
A: 대부분의 AI는 이미지에서 물건을 추가하거나 지우는 단순한 편집 위주로 학습했기 때문입니다. 실제로 물건을 잡고 놓을 때 일어나는 물리적 변화, 물건들 사이의 관계, 상태 변화 같은 것들을 깊이 이해하지 못해서 행동을 되돌리는 데 실패하거나 없던 물건을 만들어내는 오류를 범합니다.
Q3. 이 연구 결과는 어디에 쓰일 수 있나요?
A: 이 연구는 로봇 개발, 구현 AI 에이전트(embodied AI agents), 물리 인식 생성 모델 개발에 활용될 수 있습니다. 실제 환경에서 일하는 로봇은 물건을 집었다가 다시 놓거나, 문을 열었다가 닫는 등 행동을 되돌릴 수 있어야 합니다. Do-Undo 벤치마크는 이런 능력을 평가하고 개선하는 테스트베드 역할을 합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






