머리와 손만으로 전신 동작 만든다…엔비디아의 '마스크드 미믹' 기술 공개

MaskedMimic: Unified Physics-Based Character Control Through Masked Motion Inpainting

하나의 AI로 모든 동작 구현하는 ‘마스크드 미믹’ 기술 공개

엔비디아(NVIDIA)는 다양한 시나리오에서 가상 캐릭터를 자연스럽게 제어할 수 있는 새로운 AI 모델 ‘마스크드 미믹(MaskedMimic)’을 개발했다. 이 시스템은 “앞으로 걸어가면서 양팔을 들어올려라”와 같은 간단한 텍스트 명령이나 VR 헤드셋의 머리와 손 위치 데이터만으로도 자연스러운 전신 동작을 만들어낼 수 있다. 특히 물리 기반 시뮬레이션을 통해 실제 물리 법칙을 따르는 자연스러운 동작을 생성할 수 있어, 게임과 메타버스 등 가상 환경에서 더욱 현실감 있는 캐릭터 구현이 가능하다.

‘각각 따로 학습’ 방식의 벽을 허물다

기존의 물리 기반 캐릭터 애니메이션 시스템들은 걷기, 물체 잡기, VR 트래킹 등 각각의 동작마다 별도의 컨트롤러를 필요로 했다. 이러한 방식은 새로운 동작을 추가할 때마다 추가 학습이 필요했고, 복잡한 보상 함수 설계가 요구되는 한계가 있었다. 마스크드 미믹은 이러한 ‘태스크별 전문화된 컨트롤러’ 문제를 해결하여, 하나의 통합된 시스템으로 다양한 동작을 자연스럽게 구현할 수 있다.

부분만 보고도 전체 동작 예측하는 똑똑한 AI

마스크드 미믹의 가장 큰 특징은 부분적인 정보만으로도 전체 동작을 자연스럽게 생성할 수 있다는 점이다. 예를 들어, VR 환경에서는 사용자의 머리와 손의 위치만으로도 전신 동작을 추론할 수 있다. “천천히 무릎을 굽히며 앉아라”라는 텍스트 명령만으로도 균형 잡힌 앉기 동작을 수행할 수 있으며, 의자나 소파와 같은 물체 정보가 주어지면 해당 물체와 자연스럽게 상호작용하는 동작까지 생성할 수 있다. 이는 자연어 처리 분야의 프롬프트 엔지니어링과 유사한 ‘목표 공학(goal-engineering)’ 기술을 통해 구현되어, 직관적인 캐릭터 제어를 가능하게 한다.

두 단계 학습으로 완성되는 자연스러운 움직임

마스크드 미믹은 완전 구속 컨트롤러와 부분 구속 컨트롤러라는 두 단계의 학습을 거친다. 첫 단계에서는 AMASS, HumanML3D, SAMP 등 대규모 모션 캡처 데이터셋으로 기본적인 동작을 학습하며, 두 번째 단계에서는 무작위로 마스킹된 모션 시퀀스를 학습하여 부분 정보로부터 전체 동작을 추론하는 능력을 획득한다. 트랜스포머 기반 아키텍처와 VAE(Variational Autoencoder) 구조를 활용하여 다양하고 자연스러운 동작 생성이 가능하다.

게임부터 메타버스까지, 무한한 활용 가능성

마스크드 미믹은 테스트 모션에서 99.2%의 높은 성공률을 보여주며, VR 환경에서도 자연스러운 전신 동작을 생성하는 데 성공했다. 특히 PULSE, ASE, CALM 등 기존 모델들과 비교했을 때 우수한 성능을 보였으며, 조인트 스파시티 태스크에서도 뛰어난 결과를 달성했다. 계단이나 경사면 같은 불규칙한 지형에서도 안정적인 움직임을 구현할 수 있으며, 다양한 가구와의 상호작용에서도 96.9%의 높은 성공률을 기록했다. 이러한 기술은 게임, VR, 메타버스 등 다양한 분야에서 활용될 것으로 기대된다.

더 나은 가상 세계를 향한 도전

연구진은 현재 일부 동작에서 발생하는 미세한 떨림 현상을 판별적 보상(discriminative reward)을 통해 개선하는 연구를 진행 중이다. 또한 실제 동적 씬에서의 물체 조작과 도구 사용 기능 개발, 대규모 언어 모델을 활용한 더 직관적인 텍스트 기반 제어 방식, 그리고 다중 캐릭터 간의 상호작용 구현을 위한 연구도 진행하고 있다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.