사진 한 장으로 내 얼굴·손동작까지 살아 움직이는 AI 영상 만든다... 클링-모션 컨트롤 출시

중국 동영상 플랫폼 쾌수(Kuaishou)가 개발한 AI 영상 생성 서비스 클링(Kling)이 2026년 3월, 새로운 캐릭터 애니메이션 기술 ‘클링-모션컨트롤(Kling-MotionControl)’을 공개했다. 사진 한 장만 있으면 해당 인물이 다른 영상 속 동작을 그대로 따라 하는 영상을 자동으로 만들어 주는 기술이다. 몸의 움직임은 물론 얼굴의 미세한 표정, 손가락 하나하나의 동작까지 구현한다는 점에서 기존 기술과 차별화된다.

몸·얼굴·손을 나눠 학습하는 ‘분할 정복’ 전략

클링-모션컨트롤의 핵심 설계 원리는 ‘분할 정복(divide-and-conquer)’이다. 사람의 움직임을 몸통, 얼굴, 손 세 영역으로 나눠 각각 다른 방식으로 학습한다. 몸 전체의 큰 움직임은 구조적 안정성이 중요하고, 얼굴 표정이나 손가락 동작은 훨씬 섬세한 정밀도가 요구되기 때문이다.

기존 캐릭터 애니메이션 기술들은 얼굴 재현 또는 몸 동작 중 하나에만 집중하거나, 두 가지를 함께 처리하려 할 때 품질이 떨어지는 문제가 있었다. 클링-모션컨트롤은 이를 단일 통합 모델 안에서 해결한다. 얼굴이 클로즈업된 장면부터 전신이 빠르게 움직이는 장면까지 하나의 시스템으로 처리할 수 있다.

이 기술의 기반이 되는 모델은 디퓨전 트랜스포머(Diffusion Transformer, DiT)다. 디퓨전 트랜스포머는 마치 흐릿한 이미지에서 점점 선명한 그림을 복원하는 방식으로 영상을 생성하는 모델로, 최근 고품질 영상 생성 분야에서 가장 주목받는 구조다. 클링-모션컨트롤은 이 구조를 채택해 고해상도, 장시간 영상 생성에서도 안정적인 성능을 발휘한다.

사람도 만화도 동물도 자연스럽게 움직이는 교차 인물 적용 기술

클링-모션컨트롤이 주목받는 또 다른 이유는 원본 영상의 인물과 전혀 다른 외형의 캐릭터에도 동작을 자연스럽게 이식할 수 있다는 점이다. 예를 들어 성인 남성의 춤 동작을 어린이 캐릭터나 애니메이션 속 동물 캐릭터에 적용해도 자연스러운 결과물이 나온다.

이를 가능하게 하는 기술은 ‘신원 불특정 학습(identity-agnostic learning)’이다. 동작의 본질적인 패턴만 추출하고, 원본 영상 속 인물의 신체적 특성은 제거하는 방식이다. 여기에 “박수를 치다”, “얼굴을 손으로 가리다”처럼 동작의 의미를 이해하는 ‘의미론적 동작 모델링(semantic motion modeling)’ 기능도 더해졌다. 이 덕분에 복잡한 동작에서도 의미가 왜곡되지 않는다.

기존 경쟁 기술들은 몸의 비율이 다른 캐릭터에 동작을 이식할 때 팔다리 비율이 틀어지거나 신원이 바뀌는 현상이 자주 발생했다. 클링-모션컨트롤은 이 문제를 별도의 수동 보정 없이 자동으로 처리한다고 개발팀은 밝혔다.

10배 빠른 추론 속도와 카메라 시점 자유 조절

고품질 AI 영상 생성 모델의 고질적 문제는 처리 시간이 너무 오래 걸린다는 점이다. 클링-모션컨트롤은 ‘다단계 증류(multi-stage distillation)’ 기법을 적용해 기존 대비 10배 이상 빠른 속도로 영상을 생성한다. 증류는 복잡한 ‘교사 모델’이 알고 있는 지식을 더 작고 빠른 ‘학생 모델’에 압축해 전달하는 방식이다. 이를 통해 품질 손실 없이 처리 단계 수를 대폭 줄였다.

또한 3D 인식 기능을 통해 카메라 시점도 자유롭게 조절할 수 있다. 단순한 평면 정보가 아닌 3차원 공간 정보를 이해하기 때문에, 카메라가 좌우로 이동하거나 줌인·줌아웃하는 장면을 자연스럽게 구현한다. 이 카메라 움직임은 텍스트 입력만으로 제어할 수 있다. 예를 들어 “카메라가 천천히 오른쪽으로 이동하며 전신을 보여줘”와 같은 지시를 입력하면 해당 구도의 영상이 생성된다.

경쟁 서비스 대비 압도적 성능, 딥페이크 우려는 과제

클링-모션컨트롤 팀은 150개의 테스트 영상을 사용해 드리미나(Dreamina), 런웨이 액트-투(Runway Act-Two), 완-애니메이트(Wan-Animate) 등 주요 경쟁 서비스와 인간 평가자를 통한 선호도 비교 평가를 진행했다. 결과는 전 항목에서 클링-모션컨트롤이 우위를 보였다.

런웨이 액트-투와의 비교에서는 전체 선호도 기준 GSB(Good/Same/Bad) 지표가 16.25를 기록했다. 이는 평가자의 78.5%가 클링-모션컨트롤 결과물을 선호했다는 의미다. 드리미나, 완-애니메이트와의 비교에서도 시각 품질, 동작 정확도, 표정 정확도 등 세부 항목 모두에서 높은 점수를 받았다.

다만 개발팀은 기술의 잠재적 위험도 스스로 명시했다. 실제 인물의 얼굴과 신체를 정밀하게 제어할 수 있는 만큼, 동의 없이 타인의 모습을 조작한 딥페이크(deepfake) 영상 제작에 악용될 수 있다. 개발팀은 콘텐츠 필터링과 워터마킹 같은 안전장치 도입을 권고하며, 데이터 처리와 모델 개발 전 과정이 윤리 기준을 준수했다고 밝혔다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 클링-모션컨트롤은 어떤 서비스인가요? 클링-모션컨트롤은 중국 쾌수(Kuaishou)가 개발한 AI 캐릭터 애니메이션 기술입니다. 사진 한 장과 참고 영상만 있으면 해당 인물이 영상 속 동작을 그대로 따라 하는 영상을 자동으로 생성해 주며, 얼굴 표정과 손동작까지 세밀하게 재현하는 것이 특징입니다.

Q. 만화 캐릭터나 동물 캐릭터에도 적용할 수 있나요? 네, 가능합니다. 클링-모션컨트롤은 실제 사람뿐 아니라 애니메이션 캐릭터, 동물, 어린이 등 다양한 외형에도 동작을 자연스럽게 이식하는 교차 인물 동작 이식 기능을 갖추고 있습니다. 원본 영상 인물과 신체 비율이 크게 달라도 별도 보정 없이 자연스럽게 적용됩니다.

Q. 이 기술이 딥페이크에 악용될 위험은 없나요? 실제 우려가 있습니다. 개발팀도 기술 보고서에서 타인의 동의 없이 모습을 합성하거나 허위 영상을 만드는 데 악용될 수 있다는 점을 직접 인정했습니다. 이에 콘텐츠 필터링, 영상 워터마킹 등 안전장치 도입이 필요하다고 권고하고 있으며, 관련 법적·윤리적 기준 마련도 요구되는 상황입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Kling-MotionControl: Orchestrating Heterogeneous Motions for Adaptive Holistic Character Animation

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.