Search

“하야오 보고 있나” 93% 정확도로 사람 움직임 재현하는 AI 등장… 게임·영화 제작 혁명 예고

93% 정확도로 사람 움직임 재현하는 AI 등장... 게임·영화 제작 혁명 예고
이미지 출처: 이디오그램 생성

가상현실(VR)과 게임 산업에서 오랫동안 풀지 못한 숙제가 있다. 바로 “AI가 생성한 인간의 움직임을 어떻게 세밀하게 제어할 것인가”다. 해당 논문에 따르면, 독일 튀빙겐대학교(University of Tübingen) 연구팀이 이 문제를 해결할 혁신적인 기술 ‘프랑켄모션(FrankenMotion)’을 개발했다. 이 기술은 머리, 팔, 다리 등 신체 부위별로 독립적인 움직임을 생성하고 이를 자연스럽게 합성할 수 있다는 점에서 기존 기술과 차원이 다르다.



“앉아서 머리만 돌리기”도 가능… 신체 부위를 따로따로 조종  

프랑켄모션의 가장 큰 특징은 몸의 각 부위를 독립적으로 제어할 수 있다는 점이다. 사용자가 “앉아서 머리를 왼쪽으로 돌리는 사람”이라고 입력하면, AI가 자동으로 이를 신체 부위별로 나눈다. 머리는 “왼쪽 보기”, 오른팔은 “위아래로 움직임”, 왼팔은 “옆에 가만히”, 다리는 “앉기” 같은 식이다. 그런 다음 각 부위의 움직임을 만들어서 하나로 합친다. 

지금까지 나온 기술들은 “걷기”, “앉기” 같은 전체 동작만 조종할 수 있었다. 하지만 프랑켄모션은 3단계로 제어한다.

첫째는 전체 동작(예: 계단 오르기)

둘째는 세부 행동(예: 걷기, 난간 잡기)

셋째는 개별 신체 부위(예: 오른손은 난간, 왼손은 옆에)

총 3단계 계층적 제어를 지원한다. 이는 “계단을 오르면서 오른손으로 난간을 잡는” 같은 복잡한 동작도 정밀하게 생성할 수 있음을 의미한다

연구팀이 함께 개발한 ‘프랑켄에이전트’는 사용자의 말을 자동으로 분석해서 제어 신호로 바꿔준다. “앞으로 걷다가 왼쪽으로 밀려서 비틀거리고, 다시 일어나서 오른쪽으로 걷기”라고 입력하면, AI가 알아서 시간대별, 신체 부위별로 쪼개서 자연스러운 움직임을 만든다. 



AI가 자동으로 39시간 분량 데이터 만들어… 정확도 93%  

프랑켄모션의 핵심은 ‘프랑켄스타인(FrankenStein)’이라는 데이터다. 기존 데이터들은 “사람이 물건을 들어 올린다” 같은 전체 설명만 있었다. 하지만 연구팀은 대규모 언어모델(LLM)인 Deepseek-R1을 활용해서 기존 데이터를 신체 부위별로 자동 분해했다. 

예를 들어 “사람이 무언가를 머리 위로 들어 올린 후 바닥에 내려놓는다”는 동작을 AI가 분석하면 이렇게 나눈다.

팔은 “앞으로 뻗기 → 위로 들기 → 위에 유지 → 아래로 구부리기”, 다리는 “서 있기 → 앉기”, 허리는 “구부리기” 등이다. 시간 정보도 함께 만들어져서 “0~1.5초에는 팔을 앞으로, 1.5~2.6초에는 팔을 위로” 같은 식으로 정확한 타이밍까지 맞춰진다. 

연구팀이 만든 프랑켄스타인 데이터는 총 39.1시간 분량이다. 약 15,700개의 전체 동작 설명, 31,500개의 세부 행동 설명, 46,100개의 신체 부위 설명이 들어있다. 평균 동작 길이는 4.8초이고, 총 138,500개의 라벨이 자동으로 만들어졌다. 이 중 28,800개는 기존에 없던 완전히 새로운 설명이다. 전문가 3명이 50개 샘플을 평가한 결과 정확도가 93.08%로 나왔다. 

기존의 유명한 데이터인 BABEL은 43.5시간에 91,400개, HumanML3D는 28.6시간에 44,900개였다. 하지만 이들은 신체 부위별 설명이 전혀 없었다. 프랑켄스타인은 같은 시간당 훨씬 더 많고 세밀한 정보를 담고 있다. 

93     AI



최신 AI 모델로 복잡한 동작 만들어… 훈련 때 없던 동작도 생성  

프랑켄모션은 최신 AI 기술을 활용한다. 최근 이미지 생성 AI에서 큰 성공을 거둔 ‘확산 모델’이라는 기술을 사람 동작 만들기에 적용했다. 이 기술은 처음에 뒤죽박죽인 상태에서 시작해서 점점 깨끗한 결과물을 만들어내는 방식이다.

시스템은 인체의 관절 위치, 움직이는 속도, 회전 각도 등을 표현한다. 각 신체 부위에 대한 텍스트 설명은 AI가 이해할 수 있는 숫자 형태로 바뀌고, 이것이 동작 데이터와 합쳐진다. 그런 다음 AI 네트워크를 거쳐서 최종 동작이 만들어진다.  

특히 연구팀은 훈련 과정에서 일부러 일부 정보를 무작위로 지우는 방법을 썼다. 덕분에 시스템이 불완전한 입력에도 잘 대응한다. 사용자가 일부 신체 부위만 지정해도 나머지는 자동으로 추론해서 자연스러운 전체 동작을 만들 수 있다.

연구팀은 NVIDIA H100 GPU 1대로 약 47.5시간 훈련했다.



기존 최고 모델들 제치고 정확도·자연스러움 모두 1위  

연구팀은 프랑켄모션을 기존 최고 성능 모델인 STMC, DART, UniMotion과 비교했다. 평가는 두 가지로 했다. 첫째는 입력한 말과 얼마나 일치하는지(정확도), 둘째는 동작이 얼마나 자연스러운지(현실성)다.

결과는 압도적이었다. 신체 부위별 정확도에서 프랑켄모션은 상위 3개 중 정답이 포함될 확률이 58.97%로 UniMotion의 57.36%를 앞질렀다. 세부 행동에서는 65.79%로 UniMotion의 65.62%를 이겼다. 전체 동작에서는 85.62%로 UniMotion의 82.08%를 크게 앞섰다. 자연스러움을 측정하는 점수에서도 가장 낮은 값(좋은 것)을 기록해 가장 자연스러운 동작을 만들었다. 

STMC는 신체 부위 지시는 잘 따르지만 부위들을 자연스럽게 합치지 못해서 “돌아서기” 같은 세밀한 동작을 놓쳤다. DART는 전체적인 내용은 따르지만 각 순간의 정밀한 제어가 안 돼서 앉기와 서기를 반복하는 오류를 보였다. UniMotion은 현실적인 동작을 만들지만 신체 부위 구조가 명확하지 않아 “돌아서기” 같은 세부를 무시했다. 

특히 주목할 점은 프랑켄모션이 훈련할 때 보지 못한 동작도 만들 수 있다는 것이다. 예를 들어 “앉으면서 왼팔 들기”는 훈련 데이터에 없었지만, 신체 부위별 제어 덕분에 자연스럽게 합성됐다.

93     AI



VR·게임·영화 제작 바꿀 전망… 장시간 동작 생성은 과제  

프랑켄모션은 다양한 분야에서 활용될 수 있다. 가상현실 콘텐츠에서 사용자의 세밀한 동작 요구를 실시간으로 반영할 수 있다. 게임 캐릭터가 환경과 상호작용하면서 계단 난간을 잡는 등의 복잡한 동작을 자동으로 만들 수 있다. 영화나 애니메이션 제작에서는 모션 캡처 비용을 크게 줄이면서 감독이 원하는 정밀한 연기를 구현할 수 있다.

연구팀은 이 기술의 유연성도 강조했다. 사용자는 전체 설명만 줄 수도 있고, 특정 신체 부위만 지정할 수도 있으며, 기존 신호를 수정할 수도 있다. 초보자부터 전문가까지 다양한 사람이 쓸 수 있다. 

다만 한계도 있다. 현재는 한 번에 긴 동작을 만들지 못한다. 1분 이상의 장시간 동작을 한 번에 생성하는 능력을 키우는 것이 앞으로의 과제다. 연구팀은 긴 시간의 동작을 모델링하는 능력을 개선하는 것이 중요한 연구 방향이라고 밝혔다.  

연구팀은 튀빙겐 AI 센터(Tübingen AI Center)와 막스플랑크 정보학 연구소(Max Planck Institute for Informatics) 소속이며, 코드와 데이터는 논문 출판 후 공개될 예정이다.



‘부분 제어 후 합성’ 방식, 다른 AI 분야로도 확산 전망  

프랑켄모션이 보여준 ‘부분별로 나눠서 제어한 뒤 합치기’ 방식은 생성형 AI의 새로운 접근법을 제시한다. 지금까지 대부분의 AI는 전체를 한 번에 만드는 방식이었다. 하지만 프랑켄모션은 복잡한 결과물을 작은 조각들로 나누고, 각각을 따로 제어한 후 자연스럽게 합친다.

특히 대규모 언어모델(LLM)을 활용한 자동 데이터 만들기는 AI 학습 데이터 구축의 새로운 방향이다. 기존 데이터를 AI로 다시 분석해서 더 세밀한 데이터를 만든 것은, 다른 분야에서도 적은 비용으로 좋은 학습 데이터를 확보하는 방법이 될 수 있다. 예를 들어 의료 영상의 간단한 설명을 AI가 장기별, 병변별로 세분화하거나, 법률 문서의 전체 요약을 조항별, 쟁점별로 나누는 식으로 응용 가능하다.  

메타버스와 디지털 휴먼 산업 관점에서 보면, 프랑켄모션은 사용자가 말로 원하는 동작을 정밀하게 지시할 수 있는 가능성을 열었다. 지금까지는 3D 애니메이션 전문가만이 복잡한 프로그램을 다뤄 정밀한 동작을 만들 수 있었다. 이제는 일반인도 “오른손으로 컵 들면서 왼손으로 문 열기” 같은 복잡한 동작을 말로만 지시할 수 있게 될 것이다. 이는 콘텐츠 제작을 누구나 할 수 있게 만들고 생산성을 크게 높일 수 있다.  



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)  

Q1: 프랑켄모션은 기존 기술과 어떻게 다른가요?  

A. 기존 기술은 “걷기”, “앉기” 같은 전체 동작만 제어할 수 있었습니다. 하지만 프랑켄모션은 머리, 팔, 다리를 각각 따로 지정해서 움직일 수 있습니다. 예를 들어 “앉으면서 오른팔은 위아래로 흔들고 왼팔은 가만히”처럼 복잡한 동작을 정밀하게 만들 수 있습니다.  

Q2: AI가 자동으로 데이터를 만든다는 게 무슨 뜻인가요?  

A. 연구팀은 기존 데이터의 간단한 설명(예: “물건 들어 올림”)을 대규모 언어모델에 입력했습니다. 그러면 AI가 자동으로 이를 신체 부위별 세부 동작(팔: 앞으로→위로, 다리: 서기→앉기)으로 나누고 시간 정보까지 만듭니다. 이 방식으로 39시간 분량의 데이터를 93% 정확도로 자동 구축했습니다.  

Q3: 이 기술은 어디에 쓰일 수 있나요?  

A. 게임과 VR에서 캐릭터가 복잡한 동작을 자연스럽게 하도록 만들 수 있습니다. 영화와 애니메이션에서는 모션 캡처 없이도 정밀한 연기를 생성할 수 있습니다. 메타버스에서는 사용자가 말로 아바타의 세밀한 동작을 지시할 수 있어, 전문 지식 없이도 복잡한 동작을 만들 수 있습니다.  

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.  

논문명: FrankenMotion: Part-level Human Motion Generation and Composition  

이미지 출처: FrankenMotion: Part-level Human Motion Generation and Composition

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 




"하야오 보고 있나" 93% 정확도로 사람 움직임 재현하는 AI 등장... 게임·영화 제작 혁명 예고 - AI매터스