바야흐로 대 영상 시대입니다. AI로 영상 제작을 시작한 건 꽤 지난 일이지만, VEO 3가 소리까지 장착하고 나오면서 각종 AI 인플루언서들이 등장하기 시작했는데요. 진돗개부터 햄찌, 조선시대 김씨까지 분야와 종을 막론하고 재밌는 캐릭터들이 등장하기 시작했다는 겁니다. “나도 할 수 있는데…”라고 생각하니 배가 아프군요. 사실 어렵습니다.
문제는 두 가지입니다. 1. 생각보다 프롬프트로 영상 작업이 쉽지 않다는 것 2. 영상 제작 크레딧은 매우 비싸다는 것입니다. 대안으로 Hailuo 같은 비교적 저렴한 중국산 AI를 쓰는 방법도 있는데요. 오늘은 중국산이 아닌 미국산 AI 두 가지로 영상 생성을 비교해 보겠습니다. AI 매터스 독자 여러분의 요청이 있다면 중국산 AI도 비교해 드리도록 하겠습니다.
영상 생성의 핵심은 프롬프트를 얼마나 지치지 않고 열심히 수정하느냐입니다. 프롬프트를 대강 작성해서 영상을 생성하는 순간 크레딧이 훅 날아가기 때문이죠. 프롬프트 작성은 주로 챗GPT나 클로드를 통해 하는데요. 실사 느낌을 줄지, 귀여운 느낌을 줄지, 배경은 명동으로 할지 LA로 할지 등을 사전에 미리 치열하게 고민하고 작성합니다. 또한, 영상 생성이 카메라 워크를 기준으로 하므로 클로즈업, 돌리, 패닝 등 어떤 카메라 워킹을 사용할지도 사전에 고민해 두는 것이 좋습니다.
영상 생성 전 실제 상황에서는 없을 법한 상황을 떠올렸습니다. 요즘은 덥고 습하니 뜨겁게 달궈진 지구를 위스키잔에 담아 치익하고 식히는 건 어떨지 고민해 보았습니다. 지구니까 우주에 위치해 있고, 우주의 검은 배경이 바의 검은 배경과 자연스럽게 연결되는 프롬프트를 작성해 보았습니다. 통 프롬프트를 작성하고, 소라와 비오 2∙비오 3를 사용할 예정이므로 해당 AI에서 쓸 수 있는 스토리보드(4컷)도 작성해달라고 요청했습니다. 챗GPT가 작성해 준 프롬프트는 다음과 같습니다.

In outer space, a red Earth floats — glowing dimly in a surreal cosmic backdrop. A man in a suit reaches out slowly and gently grabs the red Earth with his gloved hand. He turns and places it carefully into a crystal-clear whiskey glass filled with amber liquid.
As the red Earth touches the whiskey, it sizzles and transforms with a steamy “hiss” into its true form — a blue, glowing Earth made of ice. The cosmic background darkens gradually, fading into a deeper, richer black. The man watches the glass, then slowly turns his head toward the camera with a subtle smirk on his face.
Hyper-realistic rendering. Strong cinematic lighting. Slow, deliberate movements. Moody ambient sound implied.
#1
Wide cinematic shot in deep space.
A red, glowing Earth floats gently in a dark red-hued cosmic background. Stars shimmer faintly behind. The planet rotates slowly, its colors fiery and ominous. Photorealistic lighting. No sound, just stillness.
#2
Medium shot
A man in a modern black suit reaches out in zero gravity and carefully picks up the red Earth with his gloved hand. His helmet reflects the reddish glow. The Earth fits perfectly in his palm like a large sphere of ice. Lens flare from distant stars. Floating debris adds realism.
#3
Close-up shot.
A crystal-clear whiskey glass sits floating mid-air, filled with golden-brown whiskey. The man drops the red Earth into the glass. As it touches the liquid, steam bursts out — “chiik!” — and the red fades to a radiant icy-blue globe. Tiny bubbles rise. The lighting shifts darker, more dramatic.
#4
Medium close-up.
The man floats still, observing the glass. Then he slowly turns his head to the camera. A slow, satisfied smirk appears. His visor reflects the blue Earth spinning gently in the whiskey. The background is now pitch black with distant stars.
이 프롬프트를 기반으로 영상을 생성해 보았습니다.
저는 원래 붉은 지구가 나 홀로 타고 있다가 얼음 잔에 담기는 걸 말했습니다만 건방진 우주인이 처음부터 얼음 잔을 들고 있군요. 그런데 다른 일진 우주인이 갑자기 그 컵을 빼앗습니다. 우주인이 일진이면 참 무섭겠군요. “야 빵 사와” “응 3광년만 기다려”
이번엔 우주인이 자기의 피를 뽑아 지구를 만드는 흑마술을 부리고 있습니다. 서민 우주인의 피를 뽑아 마시는 거대하고 사악한 블랙기업의 총수가 된 기분입니다. 생각보다 좋은 기분이군요.
비오 2로도 만들어 봅니다. 비오는 퀄리티 버전과 패스트 버전이 있는데요. 퀄리티 우선을 위해 VEO2-Quality 버전을 사용했습니다.
뭔가 원래의 프롬프트에 다가가긴 했습니다만 지구도 불타고 우주인의 손도 불타고 위스키도 불타고 제 속도 불타고 있습니다. 그러다 뜬금없이 지구에 빙하기가 왔습니다. 공룡들아 안녕. 너희의 뼈는 서울 자연사 박물관에 전시된단다.
이번엔 흑마술이 아닌 일루전이었습니다. 불타는 지구가 우주인의 손에서 뿅하고 사라지더니 얼음 잔에서 뿅하고 나타났습니다. 대체 뭘 학습했길래 마술까지 하는 걸까요?
어쨌든 소라보다는 비오 2가 훨씬 프롬프트에 가까운 영상을 만들어내고 있네요.
VEO3로도 만들어 보았습니다. 퀄리티 버전을 사용했습니다.
결과에 상당히 근접했습니다. 위스키를 따르는 소리도 제대로네요. 그러나 우주인이 지구를 만지라고는 안 했는데, 꼭 저렇게 만지는 거 좋아하는 애들이 있습니다.
두번째 영상도 비슷하게 뽑혔습니다. 왜 자꾸 만져요?
위 프롬프트에서는 두 가지 정도의 문제를 찾을 수 있는데요. 1. 우주에서 자꾸 바로 음료를 만드는 것, 2. 우주인이 등장한다는 것. 처음 제가 의도한 프롬프트는 ‘수트를 입은 남자’였는데, 우주-수트 단어가 조합되더니 우주복이 등장했던 것이었습니다. 처음의 A man in a suit를 A man in a sleek black suit로 바꿔줍니다. Sleek이 들어가면 대부분 수트나 드레스로 바뀝니다. 패션이나 자동차 업계에서 많이 쓰는 용어거든요.
그리고, 의도가 곡해되는 것을 방지하는 좋은 방법이 있는데요. 첫 장면이나 끝 장면 프레임 이미지를 만들어주는 겁니다(이미지 투 비디오). 그래서 첫 장면(붉은 지구)과 끝 장면(바의 남자)을 구글 image FX로 생성해 주었습니다. 이미지 프롬프트도 챗GPT로 작성했습니다.
이미지FX를 쓴 이유는 간단합니다. 1. 실사 출력에서 다른 툴들을 압도하고, 2. 무료입니다. 이렇게 이미지를 출력하고 첫 프레임과 끝 프레임에 넣어주면 의도에서 너무 멀리 가지는 않는 영상이 되죠.

소라의 강점은 스토리보드 모드입니다. 네 신을 모두 텍스트로만 채워도 되고, 이미지를 중간중간 넣어줘도 좋은데요. 사실 오픈 AI만 강점이라고 생각하는 것 같습니다. 이미지 네 컷을 다 스토리보드로만 작성하면 중간중간 말도 안 되는 행동을 할 때가 많아 복장이 터집니다.

하여튼 이런 식으로 첫 프레임과 끝 프레임을 만들고, 중간 장면들을 프롬프트로 작성해 주었습니다. 그 결과물은.
첫프레임과 끝 프레임만 맞추고 중간에 어디서 우주인이 날아와서 잔을 내밉니다. 아니! 그거 아니고! 지구를 잔에 담으라고! 우리 소라 언제 철들래?
이번에는 네 신이 나왔는데 네 신이 모두 따로 놀고 있죠. 아니 왜 춤추냐고! 위스키 왜 불타냐고! 수트 입은 애는 갑자기 어디서 왔어!
그러니까 스토리보드의 네 장면을 다 따로 만든 겁니다. 이럴 거면 스토리보드 기능 왜 제공하는지 묻고 싶네요. 아마 사람들이 게임하는 이유와 비슷할 것 같습니다. 하는 사람 화나라고.
비오 2에 기대를 걸어봅니다. 다만 프레임 삽입 기능은 비오 2 – 패스트 버전에서만 사용할 수 있었습니다. 퀄리티 버전에서는 지원이 어려운 것 같더군요. 비오의 경우 패스트 버전도 퀄리티가 꽤 좋으니 기대해 봅니다.
뭔가 되기 시작합니다. 그러나 두 장면 연결고리가 끊어져 있습니다. 지구와 얼음이 동일하다는 것을 이해하지 못하는 것 같죠?
두 번째 장면도 비슷합니다. 연결고리가 더 끊어져 있는 모습이네요.
마지막 우리의 희망 비오 3로 갑니다. 비오 3 버전도 프레임 추가를 얼마 전 지원하기 시작했는데요. 비오 3 패스트 버전에서 첫 프레임 넣는 것만 가능했습니다. 끝 프레임 넣기는 불가능했어요. 그래도 비오 3를 믿고 프롬프트를 입력해 봅니다.
거의 근접했습니다. 그런데 왜 지구를 자꾸 만지는 건지 모르겠네요. AI는 만지는 걸 좋아하나 봅니다. 만진 지구와 집어 든 지구도 다른 지구 같고요. 결국 얼음 잔에 넣어주진 않았습니다.
완성됐습니다. 우주의 지구를 집어 그대로 얼음 잔에 담그는 의도에서는 벗어났지만, 중간 장면 전환에서 이 문제를 슬기롭게 극복했군요. 특히 첫 장면에서 지구를 잡을 때 지구가 식기 시작하는데, 다음 장면에서 많이 식은 지구가 등장하면서 두 장면 연결고리가 확실해졌습니다. 비오 3의 장점인 소리 생성도 아주 잘 되었네요.
이 영상을 만들면서 소모한 크레딧이 몇만 원쯤 되는 것 같은데, 물론 제 돈은 아니고 회사 돈입니다. 지구도 불타고 제 속도 불탔고 회사 자원이 불탔습니다.
결론은 비오 3가 정말 좋은 해답이다 싶은데, 비싸잖아요. 구글 AI 프로 구독은 월 2만 9,000원입니다. 그런데 한 달은 무료 제공하고 있으니, 한 달 무료 제공이 끝나기 전 빠르게 영상 제작에 뛰어들어 보시는 게 좋겠습니다. AI 프로 사용 시 1000크레딧을 매달 주는데요. 비오 3 영상 2개 제작에 100크레딧입니다. 그러니까 우리는 맛만 볼 수 있습니다. AI 크리에이터들은 정말 많은 돈을 쓰면서 저 작업을 하고 있는 거였어요.
소라는? 이소라 프로포즈나 도수코보다도 못하네요. 그냥 오픈 AI가 “우리 엄청난 발전 이뤘다”고 발표하기 전까지는 잊어버리시는 게 좋겠습니다.
이미지 출처: SORA 생성