Search

소라2와 Veo3.1도 무너진 한 가지, 19개 항목으로 본 AI 애니메이션의 진짜 약점

소라2와 Veo3.1도 무너진 한 가지, 19개 항목으로 본 AI 애니메이션의 진짜 약점
소라2와 Veo3.1도 무너진 한 가지, 19개 항목으로 본 AI 애니메이션의 진짜 약점

소라2(Sora2-Pro), 베오3.1(Veo3.1), 클링2.6(Kling2.6)은 실사 영상에서는 이미 사람과 구분이 어려운 수준에 올라섰다. 그러나 같은 모델에 미키마우스나 월리(WALL-E) 같은 캐릭터를 주고 움직이게 하면 상황은 달라진다. 홍콩과기대(HKUST)와 펄 스튜디오(Pearl Studio) 등이 발표한 새 벤치마크 AnimationBench는 19개 항목으로 최신 비디오 생성 모델을 검증한 결과, 모든 모델이 캐릭터의 정체성 유지와 과장된 표정 표현이라는 동일한 지점에서 무너진다는 사실을 밝혀냈다. AI 애니메이션 평가 벤치마크가 본격 등장하면서, 그동안 가려져 있던 캐릭터 중심 영상 생성의 한계가 처음으로 수치화됐다.

그림1. 오픈소스와 폐쇄형 7개 비디오 생성 모델을 AnimationBench의 19개 평가 항목 전체에 걸쳐 측정하고, 항목별로 정규화한 점수를 시각화한 결과다.



19개 항목으로 측정한 첫 애니메이션 전용 벤치마크

AnimationBench는 애니메이션 영상 생성을 위해 만들어진 세계 최초의 체계적 평가 도구다. 홍콩과기대, 홍콩과기대 광저우 캠퍼스, 뉴 AI 랩스(New AI Labs), 난양공과대(NTU), 펄 스튜디오 연구진이 2026년 4월 17일 공개한 이 벤치마크는 디즈니 애니메이터들이 정립한 애니메이션 12원칙(Twelve Basic Principles of Animation)을 측정 가능한 평가 항목으로 변환했다. 기존 비디오 평가 도구들이 픽셀 선명도나 물리적 사실성 같은 실사 기준에 맞춰져 있어, 과장된 동작과 캐릭터 일관성이 생명인 애니메이션의 품질을 제대로 잡아내지 못한다는 문제의식에서 출발했다.

평가는 세 개의 큰 축으로 구성된다. 첫째는 IP 보존(IP Preservation)으로, 캐릭터의 외모와 행동, 성격이 영상 내내 일관되게 유지되는지를 본다. 둘째는 애니메이션 원칙(Animation Principles)으로, 모션 다이내믹스(Motion Dynamics), 변형(Deformation), 표현력(Expressiveness), 인간 선호(Human Preference) 네 가지 하위 영역으로 나뉜다. 셋째는 의미 일관성, 동작 합리성, 카메라 모션 일관성을 포함한 광범위 품질 항목(Broader Quality Dimensions)이다. 이 세 축이 합쳐져 19개 평가 항목을 이룬다. 연구진은 170개의 원본 이미지와 360개의 맞춤형 프롬프트를 만들어 모델당 360개의 영상을 생성하게 한 뒤, 비전 언어 모델(VLM)인 큐원3-VL-MAX(Qwen3-VL-MAX)에 구조화된 예/아니오 질문을 던지는 방식으로 점수를 매겼다.

클링2.6과 베오3.1의 압승, 그러나 모두 같은 항목에서 무너졌다

평가 결과 폐쇄형 모델인 클링2.6, 베오3.1, 시댄스2.0(Seedance2.0)이 전반적으로 가장 높은 점수를 기록했다. 베오3.1은 성격 일관성에서 91.61점, 장면 묘사(Scene)에서 100점을 받았고, 클링2.6은 카메라 모션 일관성에서 94.64점, 의미 일관성 종합에서 86.11점을 얻었다. 시댄스2.0은 카메라 모션 96.42점과 동적 정도(Dynamic Degree) 89.73점으로 강세를 보였다. 오픈소스 진영에서는 완2.2(Wan2.2)가 외모 일관성 67.69점, 성격 일관성 89.58점으로 폐쇄형 모델과 견줄 만한 성능을 보였다.

문제는 점수가 가장 높은 모델조차 동일한 항목에서 일제히 무너졌다는 점이다. 변형(Squash and Stretch) 항목에서는 시댄스2.0이 79.54점으로 1위를 차지했지만, 가장 약한 후난위안비디오(HunyuanVideo)와 프레임팩(Framepack)은 각각 30.82점과 21.37점에 그쳤다. 만화의 핵심 표현 기법인 캐릭터의 찌그러짐과 늘어짐을 절반 이상의 모델이 거의 구현하지 못한다는 의미다. 신규 시도(Novelty)에서는 8개 모델 모두 9.91점부터 19.58점 사이에 머물렀다. 이는 영상 모델들이 학습 데이터의 평균적인 동작을 그대로 따라가는 경향이 강하며, 통념을 벗어난 창의적 움직임을 만들어내는 데 모두 실패하고 있음을 보여준다. 360도 회전 시 캐릭터 외모를 일관되게 유지하는 능력에서도 후난위안비디오와 프레임팩은 회전 자체를 수행하지 못한다고 연구진은 지적했다.

실사는 잘 만드는데 캐릭터는 못 그리는 이유

이 격차의 원인은 학습 데이터와 평가 기준의 불균형에 있다. 대다수 영상 생성 모델은 실사 영상으로 학습되며, 기존 평가 도구도 픽셀 단위 선명도와 물리적 사실성을 기준으로 모델을 다듬어왔다. 그 결과 모델들은 머리카락이 흩날리거나 옷이 펄럭이는 미세한 움직임은 잘 표현하지만, 캐릭터가 절벽에서 떨어질 때 몸이 납작해졌다가 다시 늘어나는 식의 의도적 과장은 학습 신호로 받지 못했다. 연구진은 이를 변형 항목과 신규 시도 항목의 낮은 점수로 입증했다.

IP 보존이라는 개념도 이번 벤치마크가 처음으로 정식 평가 영역으로 끌어올렸다. IP 보존이란 시간이 흘러도 캐릭터가 그 캐릭터답게 행동하는지를 측정하는 기준을 말한다. 무기를 쓰는 캐릭터가 갑자기 맨손으로 싸우거나, 악역 캐릭터가 갑자기 정의로운 표정을 짓는 식의 일관성 붕괴를 잡아낸다. 연구진은 시댄스 프로(Seedance-Pro)가 월리를 생성할 때 캐릭터 고유의 삼각형 캐터필러 트랙이 사라지는 사례를 IP 드리프트(IP Drift) 실패 사례로 제시했고, 같은 입력에서 클링2.6은 외모와 행동, 성격을 모두 유지한 성공 사례를 만들어냈다. AnimationBench의 점수가 사람의 선호도와 실제로 일치하는지를 확인한 보조 실험에서도 두 평가 사이의 스피어만(Spearman) 상관계수가 일관되게 높게 나와, 이 벤치마크가 인간의 시선과 같은 기준으로 모델을 줄세우고 있음이 확인됐다.

콘텐츠 제작자가 읽어야 할 신호, 모델 선택의 기준이 바뀐다

이번 결과는 애니메이션이나 캐릭터 IP를 다루는 콘텐츠 제작자에게 직접적인 시사점을 준다. 단순히 “어느 모델이 가장 좋은가”라는 질문에서 벗어나, “어떤 작업에 어떤 모델을 써야 하는가”라는 질문으로 의사결정 기준이 바뀌어야 한다는 점이다. 카메라 무빙이 중요한 시네마틱 컷에는 카메라 모션 일관성에서 96점대를 기록한 시댄스2.0이나 94점대의 클링2.6이 적합하고, 캐릭터의 표정과 성격이 살아야 하는 장면에는 성격 일관성에서 91점대를 기록한 베오3.1과 클링2.6이 유리할 가능성이 있다. 반면 어떤 모델이든 과장된 변형이나 새로운 동작 창출에서는 한계를 보이므로, 이 부분은 여전히 사람이 직접 키프레임을 그리거나 후처리로 보완해야 할 영역으로 남아 있다.

연구진은 이 한계를 넘기 위한 실용적 도구도 함께 제시했다. 오픈셋(Open-Set) 정제 파이프라인은 임의의 애니메이션 영상에 대해 어느 항목에서 문제가 발생했는지 자동으로 진단한 뒤, 프롬프트를 개선해 다시 영상을 생성하도록 안내한다. 연구진이 완2.2 모델에 이 파이프라인을 적용한 결과, 의미 일관성 문제의 대부분이 자동으로 해결됐다고 보고했다. 이 방식이 향후 콘텐츠 제작 워크플로에 얼마나 빠르게 흡수될지는 두고 볼 필요가 있다. 다만 분명한 것은, 비디오 생성 모델 평가가 더 이상 “그럴듯한가”라는 한 줄 질문으로 끝나지 않는 시대로 들어섰다는 점이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AnimationBench는 어떤 점이 기존 영상 평가 도구와 다른가요?
기존 비디오 평가 도구는 사실적인 영상의 화질이나 물리적 자연스러움을 주로 봅니다. AnimationBench는 디즈니 애니메이터들이 만든 애니메이션 12원칙을 평가 항목으로 옮겨, 과장된 동작이나 캐릭터의 일관된 성격 같은 애니메이션 고유의 품질을 측정하는 첫 번째 도구입니다.

Q2. 어떤 비디오 AI 모델이 가장 좋은 결과를 보였나요?
폐쇄형 모델 중에서는 클링2.6, 베오3.1, 시댄스2.0이 전반적으로 가장 좋은 결과를 보였습니다. 다만 항목마다 강점이 다릅니다. 베오3.1은 장면 묘사와 성격 표현에서, 클링2.6과 시댄스2.0은 카메라 움직임 일관성에서 두드러집니다. 오픈소스 모델 중에서는 완2.2가 가장 좋은 점수를 기록했습니다.

Q3. 캐릭터 영상을 만들 때 AI 도구를 어디까지 믿고 써도 되나요?
일반적인 동작과 카메라 무빙은 신뢰할 만한 수준에 도달했지만, 캐릭터를 의도적으로 찌그러뜨리거나 늘어뜨리는 과장된 표현, 캐릭터 고유의 표정과 성격을 일관되게 유지하는 작업에서는 모든 모델이 약점을 보입니다. 이 부분은 여전히 사람의 보정과 후처리가 필요하다고 보는 것이 안전합니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: AnimationBench: Are Video Models Good at Character-Centric Animation?
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너