Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos
Adobe 연구진이 인공지능(AI)을 활용해 간단한 조작만으로도 전문가 수준의 사진 편집을 가능하게 하는 혁신적인 기술 ‘매직 픽스업(Magic Fixup)’을 개발했다. 이 기술은 사용자가 대략적으로 편집한 이미지를 AI가 자연스럽고 사실적인 결과물로 변환해주는 것이 특징이다.
사용자 의도를 정확히 반영하는 직관적 편집 기능
매직 픽스업의 가장 큰 장점은 사용자 친화적인 인터페이스다. 사용자는 이미지의 특정 부분을 선택해 이동하거나 크기를 조절하는 등 간단한 2D 변형을 적용할 수 있다. 이는 ‘콜라주 변환(Collage Transform)’이라는 독특한 인터페이스를 통해 구현된다.
Adobe 연구팀의 하디 알자예르(Hadi Alzayer) 연구원은 “기존 AI 이미지 편집 도구들은 텍스트 프롬프트나 특정 지점 이동 등 제한적인 제어만 가능했지만, 매직 픽스업은 사용자가 원하는 대로 자유롭게 이미지를 재구성할 수 있다”고 설명했다.
사용자가 대략적으로 편집한 이미지는 AI 모델이 분석해 자연스럽고 사실적인 결과물로 만들어낸다. 이 과정에서 AI는 물체 간의 상호작용, 그림자, 반사 등을 고려해 전체적인 조화를 이룬다. 예를 들어, 물체를 이동시키면 그에 따른 그림자의 위치나 주변 환경과의 상호작용도 자동으로 조정된다.
비디오 데이터를 활용한 혁신적인 학습 방식
연구팀은 매직 픽스업 모델을 학습시키기 위해 독특한 방식을 사용했다. 1200만 개의 비디오 클립에서 추출한 프레임들로 데이터셋을 구축한 것이다. 이를 통해 AI 모델이 물체의 움직임과 빛의 변화, 물리적 상호작용 등을 학습할 수 있었다.
연구팀은 “비디오 데이터를 활용함으로써 모델이 현실 세계의 다양한 변화를 이해하고 이를 편집 과정에 반영할 수 있게 됐다”고 설명했다. 이러한 학습 방식 덕분에 매직 픽스업은 단순히 이미지를 변형하는 것을 넘어, 현실 세계의 물리법칙을 고려한 자연스러운 편집이 가능해졌다.
구체적으로, 연구팀은 비디오에서 추출한 두 개의 프레임을 활용해 AI 모델을 학습시켰다. 한 프레임을 기준으로 다른 프레임의 변화를 AI가 학습하도록 한 것이다. 이 과정에서 광학 흐름(optical flow)과 조각별 아핀 모션 모델(piecewise affine motion model)이라는 두 가지 모션 모델을 사용했다.

기존 AI 이미지 편집 기술과의 비교에서 우수성 입증
연구팀은 매직 픽스업의 성능을 검증하기 위해 SDEdit, AnyDoor, DragDiffusion 등 기존의 AI 이미지 편집 기술들과 비교 실험을 진행했다. 그 결과 사용자들의 89%가 매직 픽스업의 결과물을 더 선호하는 것으로 나타났다.
특히 매직 픽스업은 물체를 이동하거나 크기를 변경할 때 주변 환경과의 조화, 그림자와 반사 효과의 자연스러운 조정 등에서 뛰어난 성능을 보였다. 반면 기존 기술들은 전체적인 이미지 톤 변화나 부자연스러운 합성 등의 한계를 드러냈다.
예를 들어, SDEdit의 경우 사용자의 편집 의도를 정확히 반영하지 못하고 전체적인 이미지 톤을 크게 변화시키는 문제가 있었다. AnyDoor는 물체 삽입 시 원본 이미지의 정체성을 제대로 유지하지 못하고, 조명이나 그림자 처리가 부자연스러웠다. DragDiffusion은 복잡한 편집에 대응하지 못하고 모델이 붕괴되는 현상을 보였다.
반면 매직 픽스업은 이러한 문제들을 효과적으로 해결했다. 사용자의 편집 의도를 정확히 반영하면서도, 전체적인 이미지의 조화와 자연스러움을 유지했다. 특히 그림자, 반사, 조명 등의 세부적인 요소들을 현실감 있게 처리하는 능력이 돋보였다.
기술적 세부사항: 확산 모델과 크로스 어텐션
매직 픽스업의 핵심 기술은 두 개의 확산 모델(diffusion model)을 사용한다는 점이다. 하나는 ‘합성기(synthesizer)’로, 최종 출력 이미지를 생성한다. 다른 하나는 ‘세부 추출기(detail extractor)’로, 원본 이미지에서 세밀한 디테일을 추출해 합성 과정에 반영한다.
이 두 모델은 크로스 어텐션(cross-attention) 메커니즘을 통해 상호작용한다. 이를 통해 원본 이미지의 세부 정보를 유지하면서도 사용자의 편집 의도를 정확히 반영할 수 있게 된다. 연구팀은 이 과정을 “원본 이미지의 정체성을 보존하면서도 사용자가 원하는 변화를 자연스럽게 적용하는 것”이라고 설명했다.
또한 매직 픽스업은 잠재 공간(latent space)에서 작동하는 것이 특징이다. 이는 처리 속도를 높이고 메모리 사용을 줄이는 데 도움이 된다. 연구팀은 Stable Diffusion v1.4 모델을 기반으로 이 기술을 구현했다고 밝혔다.
향후 전망과 남은 과제들
Adobe 연구팀은 매직 픽스업이 전문 사진작가부터 일반 사용자까지 다양한 사람들의 이미지 편집 작업을 크게 도울 것으로 기대하고 있다. 이 기술은 광고, 영화, 게임 등 다양한 산업 분야에서 활용될 수 있을 것으로 전망된다.
다만 아직 몇 가지 한계점도 존재한다. 연구팀은 “현재 매직 픽스업은 손이나 얼굴 등 세밀한 부분의 편집에는 한계가 있다”고 밝혔다. 또한 완전히 다른 이미지에서 객체를 가져와 합성하는 것은 아직 어려운 상태다.
연구팀은 이러한 한계를 극복하기 위해 지속적인 연구를 진행할 계획이다. 특히 더 다양한 종류의 비디오 데이터를 활용해 모델의 성능을 높이는 방안을 검토 중이다.
“매직 픽스업은 AI 기술을 활용해 창의적인 이미지 편집을 더욱 쉽고 직관적으로 만들어주는 도구”라며 “앞으로 더 많은 사람들이 전문가 수준의 이미지 편집을 손쉽게 할 수 있게 될 것”이라고 연구팀은 전망했다.
이 기술은 아직 연구 단계에 있지만, Adobe는 향후 자사의 이미지 편집 소프트웨어에 이를 통합할 계획을 밝혔다. 이는 Photoshop과 같은 전문가용 도구부터 모바일 앱까지 다양한 제품에 적용될 수 있을 것으로 보인다.
어도비의 리포트는 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기