베트남 연구팀이 개발한 ‘GenKOL’이라는 AI 시스템이 가상 인플루언서를 자동으로 만들어내며 광고업계에 새로운 가능성을 제시하고 있다. 이 기술은 인물 사진과 참조 이미지들이 있으면 옷을 입히고, 화장을 시키고, 배경까지 합성해 완성된 광고 이미지를 300초(5분) 안에 생성한다. 실제 인플루언서를 고용할 때 드는 높은 비용과 시간 문제를 해결할 수 있다는 평가다.
“마케팅 예산 걱정 끝”… AI가 옷 입히고 화장까지, 254명이 검증했다
유명 인플루언서와 광고 계약을 맺으려면 상당한 재정적 투자가 필요하다. GenKOL은 바로 이 문제를 해결하기 위해 만들어졌다. 베트남 호치민 국립대학교 응우옌 탐 교수 연구진이 개발한 이 시스템은 딥러닝이라는 AI 기술로 마케팅 자료를 자동으로 생성한다. 의상 생성, 메이크업 전이, 배경 합성, 헤어 편집 등 여러 AI 기능을 하나의 직관적인 인터페이스로 통합했다.
기존 이미지 편집 소프트웨어는 전문 지식과 긴 학습 기간이 필요했다. 하지만 GenKOL은 플러그인 기반 프레임워크를 통해 각 작업을 독립적인 서비스로 모듈화했다. 이를 통해 로컬 장치나 클라우드 플랫폼 등 다양한 환경에서 유연하게 배포할 수 있다. 254명을 대상으로 한 사용자 연구에서 대부분의 평가가 4~5점(5점 만점, ‘좋음”매우 좋음’) 범위에 집중되었다.

ChatGPT-4o보다 2배 빠른 이미지 생성 속도
연구팀은 GenKOL의 성능을 구글의 Gemini-2.0-Flash-Preview-Image-Generation과 ChatGPT-4o와 비교했다. 그 결과 GenKOL은 평균 300초 만에 이미지를 만들어 ChatGPT-4o(600초)보다 2배 빠른 것으로 나타났다. Gemini-2.0은 30초로 더 빠르지만, 의상과 메이크업, 환경적 상호작용의 일관성 측면에서 GenKOL이 ‘매우 우수한’ 평가를 받았다.
이 시스템은 ‘확산 모델’이라는 AI 기술을 사용한다. 가우시안 노이즈로 학습 데이터를 점진적으로 손상시킨 후 이를 복원하는 방식으로 이미지를 생성한다. 이 과정에서 데이터 우도의 변분 하한을 최적화하여 정밀한 제어와 높은 품질의 결과물을 일관되게 생성한다. 연구팀은 ControlNet과 PhotoMaker 같은 최신 시스템을 참고하여 인체 포즈 조정, 배경 편집, 얼굴 속성 수정 등을 순차적으로 처리하는 파이프라인을 구축했다.
얼굴 68곳 찾아 자동 정렬… 서비스 충돌 원천 차단하는 비결
GenKOL의 핵심 기술은 작업 순서를 자동으로 정리하는 오케스트레이션 프로세스다. 위상 정렬을 적용해 서비스를 방향성 비순환 그래프(DAG)로 구성하여 모든 서비스가 필수 조건을 충족한 후에만 실행되도록 보장한다. 호환성 매트릭스는 잠재적 연결을 검증하여 비호환 서비스 쌍을 방지하고 실행 오류를 차단한다. 검증이 완료되면 각 서비스에 이전 출력에서 필요한 입력이 자동으로 할당된다.
실제 인간이나 KOL 이미지의 얼굴 포즈, 형태, 외모 변화로 인한 정렬 불일치 문제도 해결했다. 사전 학습된 얼굴 랜드마크 감지 모델이 68개의 주요 얼굴 지점을 식별하여 표준화된 초기 포즈를 설정한다. 이를 통해 파이프라인 내에서 생성된 얼굴의 일관성과 정렬을 크게 개선하며, 합성된 얼굴을 원래 맥락에 자연스럽게 재통합한다.
경쟁 도구 4개 제치고 유일한 통합 플랫폼… 30명 체험단 만족도 압도적
연구팀은 200개의 고품질 가상 KOL 이미지 데이터셋을 구축하여 시스템을 평가했다. 가상 착용(Try-On), 메이크업 적용, 배경 교체, 객체 상호작용이라는 네 가지 기능별로 구글 폼을 통해 테마별 평가를 진행했다. 참가자들은 5점 리커트 척도로 현실감, 관련성, 시각적 품질 등을 평가했으며, 대부분의 평가가 4~5점 범위에 집중되었다.
기능 완성도 측면에서도 GenKOL은 기존 도구들을 앞섰다. KlingAI는 얼굴 편집과 메이크업에, Fitroom은 가상 의상 착용에, Maybelline은 화장품 체험에 각각 특화되어 있다. TRYO는 AR 기반 착용 기능을 제공하지만 AI 생성 능력은 없다. GenKOL은 이 모든 기능을 단일 플랫폼에서 제공한다.
30명을 대상으로 한 사용자 경험(UX) 연구에서도 긍정적인 결과가 나왔다. UI/UX 친화성, 시스템 단순성, 기능 완성도, 사용자 만족도, 재사용성 및 추천 의향 등 다섯 가지 기준 모두에서 대다수 평가가 4~5점 범위를 기록했다.
가짜 모델 홍수 시대, 진짜 승부는 스토리텔링
GenKOL 같은 가상 인플루언서 자동 생성 기술들의 등장은 마케팅 산업의 근본적인 구조 재편을 예고한다. 지금까지 인플루언서 마케팅은 ‘사람’이라는 희소 자원에 의존했다. 수백만 팔로워를 가진 인플루언서는 제한된 수만 존재하고, 그들의 시간과 이미지는 한정적이었다. 이는 자연스럽게 높은 계약 비용과 브랜드의 제한된 선택권으로 이어졌다.
하지만 AI 기술이 이 희소성을 무너뜨리기 시작했다. 브랜드들은 이제 특정 인플루언서에게 의존하는 대신, 타겟 고객층에 최적화된 가상 모델을 무제한으로 생성할 수 있다. 한국 시장엔 K-뷰티 감성의 모델, 미국엔 다양성을 반영한 모델, 중동엔 문화적으로 적합한 모델을 각각 만들어 동시다발적 글로벌 캠페인이 가능해진다. 이는 단순한 비용 절감을 넘어 마케팅 전략 자체를 ‘대량 맞춤화’로 전환시키는 변화이다.
더욱 중요한 변화는 콘텐츠 제작 주도권의 이동이다. 전통적으로 고품질 비주얼 콘텐츠는 대형 광고 대행사나 제작사의 전유물이었다. 하지만 이런 자동화 기술이 보편화되면 중소기업과 1인 크리에이터도 동등한 수준의 비주얼을 생산할 수 있게 된다. 연구팀의 사용자 테스트에서 비전문가들도 높은 만족도를 보인 것처럼, 기술 진입장벽이 급격히 낮아지고 있다. 이는 마케팅 시장의 민주화를 의미하지만, 동시에 콘텐츠 과잉 시대를 가속화할 수 있다.
누구나 가상 인플루언서를 만들 수 있다면, 결국 승부는 ‘얼마나 많은 가상 모델을 보유했는가’가 아니라 ‘얼마나 진정성 있는 스토리를 전달하는가’로 귀결될 것이다. 기술이 평준화될수록 인간적 감성과 창의성의 가치는 오히려 더 높아지는 역설이 펼쳐질 전망이다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: GenKOL이 기존 이미지 편집 도구와 어떻게 다른가요?
A: 기존 포토샵 같은 전문 편집 도구는 전문 지식과 긴 학습 기간이 필요하지만, GenKOL은 AI 기술로 의상, 메이크업, 배경을 자동으로 합성합니다. 플러그인 기반 구조로 각 기능을 독립적으로 관리할 수 있습니다.
Q: 가상 인플루언서 이미지 제작에 실제로 얼마나 걸리나요?
A: GenKOL은 평균 300초(5분)면 완성됩니다. ChatGPT-4o가 600초(10분) 걸리는 것과 비교하면 2배 빠르며, 여러 요소를 조합한 복잡한 이미지도 같은 시간에 만들 수 있습니다.
Q: 이 기술이 마케팅 업계를 어떻게 바꿀 수 있나요?
A: 실제 인플루언서와의 협업에 드는 높은 비용과 시간을 줄일 수 있습니다. 기업들은 다양한 스타일과 콘셉트의 광고 이미지를 빠르게 제작하여 시장 반응을 테스트하고, 절감된 예산을 제품 개발이나 고객 참여 등 다른 분야에 투자할 수 있습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: GenKOL: Modular Generative AI Framework For Scalable Virtual KOL Generation
이미지 출처: GenKOL: Modular Generative AI Framework For Scalable Virtual KOL Generation
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.