Search

중국 텐센트, 구글·오픈AI의 이미지 생성 AI 뛰어넘은 오픈소스 모델로 업계 발칵 

"중국 텐센트 AI, 구글·오픈AI 이미지 AI를 뛰어넘었다... 무료 공개로 업계 발칵"
이미지 출처: 이디오그램 생성

중국의 IT 기업 텐센트(Tencent)가 말만 하면 원하는 이미지를 그려주는 초대형 인공지능 ‘훈위안이미지 3.0(HunyuanImage 3.0)’을 오픈소스로 공개했다. 이 AI는 현재까지 공개된 오픈소스 이미지 생성 AI 중 가장 크고 강력하며, 오픈AI의 GPT-Image, 구글의 나노 바나나 같은 유료 상업용 AI와 맞먹는 성능을 보여준다. 

인간 두뇌처럼 작동하는 800억 개 파라미터 중 130억 개만 사용해 효율 극대화 

훈위안이미지 3.0은 총 800억 개가 넘는 학습 변수를 갖고 있는데, 이는 마치 인간 뇌의 신경 연결망처럼 방대한 지식을 담을 수 있는 공간이다. 하지만 실제로 이미지를 만들 때는 그 중 130억 개만 선택적으로 사용한다. 

구체적으로 설명하면 이 AI는 64명의 전문가 팀과 같다고 볼 수 있다. 하지만 매번 모든 전문가가 나서는 게 아니라, 상황에 맞는 8명의 전문가만 투입된다. 이런 방식을 ‘전문가 혼합(Mixture-of-Experts, MoE)’이라고 부른다. 덕분에 막대한 지식을 보유하면서도 빠르고 효율적으로 작동할 수 있다. 

훈위안이미지 3.0은 효율적으로 작동하도록 설계됐다.

먼저 이미지를 만들 때 ‘VAE’라는 압축 기술을 쓴다. 고화질 사진을 작은 크기로 압축했다가 다시 원래대로 복원하는 방식이다. 기존 AI들보다 더 간단한 한 번의 압축 과정만 거치면서도 더 좋은 품질을 낸다.

또 사용자가 가진 이미지를 참고해서 새 이미지를 만들 때는 두 가지 방식으로 이미지를 분석해서 정보를 합친다. 덕분에 대화하면서 이미지를 만들고 편집하는 복잡한 작업도 자연스럽게 처리할 수 있다.

마지막으로 텍스트는 앞에서 뒤로 순서대로 읽지만, 이미지는 전체를 자유롭게 살펴보는 방식을 쓴다. 마치 책은 순서대로 읽지만 그림은 캔버스 전체를 보며 그리는 것처럼 말이다.



사람처럼 ‘생각하면서 그린다’… 단계별 추론으로 복잡한 요구사항도 정확히 이해 

  AI AI  AI


훈위안이미지 3.0의 가장 혁신적인 기능은 ‘단계별 사고 과정(Chain-of-Thought, CoT)’이다. 이는 사용자가 입력한 명령을 단번에 이미지로 바꾸는 게 아니라, 마치 사람이 그림을 그리기 전에 구상하듯이 중간에 ‘생각하는’ 단계를 거친다. 사용자의 요청을 해석하고, 어떤 개념을 어떻게 표현할지 다듬은 뒤, 최종적으로 이미지를 만드는 전체 과정을 스스로 수행한다. 

이런 능력을 갖추기 위해 텐센트 연구팀은 두 종류의 특별한 학습 데이터를 준비했다.

첫 번째는 ‘텍스트에서 텍스트로(Text-to-Text, T2T)’ 학습 데이터다. 연구팀은 실제로 사람들이 이미지를 만들 때 사용하는 다양한 명령문을 모았다. 여기에는 사진처럼 사실적인 이미지, 예술 작품 스타일 이미지, 포스터나 UI 디자인, 전문 지식이 필요한 시각 자료, 과학·기술 관련 이미지 등이 포함된다. 이렇게 폭넓은 상황을 다루는 데이터로 학습하면서, AI는 애매한 요청도 이해하고 단계별로 명확하게 정리하는 법을 배웠다. 

두 번째는 ‘텍스트에서 텍스트와 이미지로(Text-to-Text-to-Image, T2TI)’ 학습 데이터다. 연구팀은 미적 기준으로 골라낸 고품질 이미지와 위키피디아의 인포그래픽을 모았다. 각 이미지마다 ‘이 이미지를 만들려면 어떤 생각 과정을 거쳐야 하는지’를 상세히 기록했다. 사용자의 요청을 구체적인 시각 설계로 바꾸는 과정을 단계별로 보여준 것이다. AI는 이 데이터로 학습하면서 추론하며 이미지를 만드는 능력을 키웠다. 

100억 장에서 약 50억 장만 골랐다… 3단계 까다로운 선별 과정 

훈위안이미지 3.0의 뛰어난 성능은 철저한 데이터 준비에서 나왔다. 연구팀은 처음 100억 장의 이미지로 시작했지만, 3단계 선별 과정을 거쳐 절반도 안 되는 45%만 남겼다.

1단계에서는 기본적인 문제가 있는 이미지를 걸러냈다. 해상도가 너무 낮거나, 파일이 깨졌거나, 너무 밝거나 어둡거나, 색이 지나치게 진한 이미지를 제거했다. 중복된 이미지도 삭제했다.

2단계가 가장 중요했다. 워터마크나 로고가 있는 이미지, 텍스트가 많은 이미지, 여러 사진을 붙여놓은 콜라주를 걸러냈다. 특히 다른 AI가 만든 이미지는 철저히 제거했다. AI가 만든 이미지로 AI를 학습시키면 오히려 성능이 떨어지기 때문이다. 그다음 이미지가 얼마나 선명하고 아름다운지 점수를 매겨서, 낮은 점수를 받은 이미지는 제외했다.

3단계에서는 비슷한 이미지를 한 번 더 찾아 제거했다. 이렇게 까다로운 선별 과정을 거쳐 최종적으로 약 50억 장의 고품질 이미지만 학습에 사용했다.

이미지마다 설명도 체계적으로 달았다. 짧은 요약부터 아주 상세한 설명까지 4단계로 나눴고, 스타일·조명·구도 같은 특성도 기록했다. 이미지 속 작은 글자를 읽는 프로그램과 유명 인물이나 장소를 알아보는 프로그램도 활용해서 정확한 설명을 만들었다.

실제 사용자 평가에서 구글·오픈AI 제쳐… 무료 AI 중 1위 

훈위안이미지 3.0의 성능은 자동 평가와 실제 사람의 평가 두 가지 방식으로 검증됐다. 연구팀은 기존 평가 방법의 한계를 극복하기 위해 ‘구조화된 의미 정렬 평가(SSAE)’라는 새로운 방법을 만들었다. 이는 고급 AI를 활용해 이미지와 텍스트가 얼마나 잘 맞는지를 평가한다. 연구팀은 500개의 다양한 명령문을 모으고, 그 안에서 3,500개의 핵심 요소를 뽑아냈다. 이 요소들은 명사, 주인공과 배경 인물의 특성과 행동, 장면 묘사, 카메라 각도, 스타일, 구도 등 12가지 세밀한 항목으로 분류됐다. SSAE 평가 결과 훈위안이미지 3.0은 모든 세부 항목에서 경쟁 모델들과 대등하거나 더 나은 성능을 보였다. 

더 중요한 건 실제 사람이 직접 평가한 결과다. 연구팀은 GSB(Good/Same/Bad)라는 평가 방식을 사용했다. 이는 두 AI가 만든 이미지를 직접 비교해서 어느 쪽이 더 나은지 판단하는 방법이다. 1,000개의 다양한 명령문을 준비하고, 각 AI에게 같은 수의 이미지를 만들게 했다. 공정하게 하기 위해 명령문당 딱 한 번만 이미지를 생성했고, 여러 번 만들어서 가장 좋은 것을 고르는 일은 하지 않았다. 100명 이상의 전문 평가자가 이미지를 직접 보고 평가했다. 

평가 결과는 놀라웠다. 훈위안이미지 3.0은 이전 최고의 무료 AI였던 훈위안이미지 2.1(HunyuanImage 2.1)보다 14.10%나 더 나은 평가를 받았다. 더 놀라운 건 유료 상업용 AI들과의 비교에서도 우수한 성적을 거뒀다는 점이다. 시드림 4.0(Seedream 4.0)보다 1.17%, 나노 바나나보다 2.64%, GPT-Image보다 5.00% 더 좋은 평가를 받았다. 무료로 공개된 AI가 최고급 유료 상업용 AI와 맞먹는 품질에 도달한 것이다. 

  AI AI  AI



텍스트투이미지 모델 오픈소스 공개

텐센트는 훈위안이미지 3.0의 텍스트‑투‑이미지 모델과 코드를 오픈소스로 무료 공개했다. 전 세계 개발자와 연구자들이 최첨단 AI로 자유롭게 실험하고 새로운 아이디어를 시도할 수 있도록 한 것이다. 현재 공개된 버전은 텍스트 명령으로 이미지를 만드는 기능에 집중되어 있다. 하지만 이미지를 참고해서 새 이미지를 만드는 기능도 학습 중이며 곧 공개될 예정이다. 

훈위안이미지 3.0은 원래 텐센트가 내부에서 개발한 훨씬 더 큰 멀티모달 AI의 일부다. 원래 모델은 이미지를 이해하는 것과 만드는 것을 모두 할 수 있다. 이미지를 이해할 때는 이미지 인식 AI와 압축 기술이 뽑아낸 이미지 정보를 바탕으로 적절한 대답을 만든다. 이미지를 생성할 때는 확산 방식의 이미지 모델링 기법을 사용한다. 

흥미로운 발견도 있었다. 연구팀이 1,000개의 명령문으로 이미지를 만들고 각 단계에서 어떤 전문가들이 활성화되는지 분석한 결과, 전문가들이 점점 특정 분야에 전문화된다는 사실을 발견했다. 어떤 전문가는 이미지 처리에, 어떤 전문가는 텍스트 처리에 특화되는 식이다. 이는 전문가 혼합 방식이 서로 다른 종류의 데이터를 다루는 데 효과적이라는 걸 보여준다. 

훈위안이미지 3.0의 공개는 무료 AI 커뮤니티에 큰 의미를 갖는다. 800억 개가 넘는 학습 변수를 가진 초대형 이미지 생성 AI가 완전히 무료로 제공되면서, 이제 누구나 최고급 유료 AI에 필적하는 도구로 실험하고 혁신할 수 있게 됐다. 특히 이미지 이해와 생성을 통합한 구조와 단계별 사고 과정 메커니즘은 앞으로 멀티모달 AI 연구의 새로운 방향을 제시할 것으로 보인다. 

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 

Q1. 훈위안이미지 3.0의 800억 개 학습 변수가 모두 사용되나요?

A. 아닙니다. 훈위안이미지 3.0은 총 800억 개가 넘는 학습 변수를 갖고 있지만, 실제로 이미지를 만들 때는 그중 130억 개만 사용합니다. 64명의 전문가 팀 중에서 상황에 맞는 8명만 선택하는 방식으로, 높은 성능을 유지하면서도 빠르고 효율적으로 작동합니다.

Q2. 훈위안이미지 3.0이 ‘생각하면서 그린다’는 게 무슨 뜻인가요?

A. 사람이 그림을 그리기 전에 어떻게 그릴지 머릿속으로 구상하듯이, 이 AI도 바로 이미지를 만들지 않고 중간에 ‘생각하는’ 단계를 거칩니다. 사용자가 입력한 명령을 단계별로 분석하고 다듬은 뒤 최종 이미지를 만듭니다. 덕분에 복잡하거나 애매한 요청도 정확하게 이해하고 고품질 이미지를 만들 수 있습니다.

Q3. 훈위안이미지 3.0은 어떻게 사용할 수 있나요?

A. 텐센트가 코드와 모델 전체를 무료로 공개했기 때문에, 누구나 다운로드해서 자유롭게 사용할 수 있습니다. 개발자나 연구자가 아니더라도 기술에 관심 있는 사람이라면 GitHub 같은 곳에서 받아서 자신의 프로젝트에 활용할 수 있습니다. 현재는 텍스트 명령으로 이미지를 만드는 기능이 제공되고, 이미지 편집 같은 추가 기능은 곧 공개됩니다.

기사에 인용된 리포트 원문은 Hugging Face에서 확인 가능하다.

리포트명: HunyuanImage 3.0 Technical Report 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 




중국 텐센트, 구글·오픈AI의 이미지 생성 AI 뛰어넘은 오픈소스 모델로 업계 발칵  - AI매터스