AI 이미지 생성 모델은 더 좋은 그림을 만들려면 부품(파라미터)을 늘려야 한다는 것이 상식이었다. 그런데 구글(Google) 연구팀이 같은 부품을 여러 번 반복해서 쓰는 방식만으로 4배 적은 부품으로도 동일한 화질을 만드는 기술을 공개했다. 더 놀라운 것은 한 번 학습한 모델이 상황에 따라 빠르게 또는 정밀하게 그림을 그릴 수 있다는 점이다. 모바일 기기와 클라우드 서버에서 같은 모델을 다른 속도로 쓸 수 있다는 뜻이다.
4배 적은 부품으로 같은 화질을 만든 ELT의 핵심 결과
구글 연구진이 발표한 ELT(Elastic Looped Transformers, 탄력 루프 트랜스포머)는 이미지 생성 모델의 부품 수를 4분의 1로 줄이면서도 기존 최고 수준 모델과 같은 품질을 낸 새로운 구조다. 연구팀은 이미지넷(ImageNet) 256×256 화질 평가에서 FID 2.0이라는 점수를 얻었다. FID(Frechet Inception Distance)란 AI가 만든 이미지가 실제 사진과 얼마나 비슷한지를 측정하는 지표로, 숫자가 낮을수록 실제 사진에 가깝다는 뜻이다. 이 점수는 비교 대상인 마스크지트(MaskGIT-XL) 모델과 동일한 수준이다. 마스크지트는 446M(4억 4600만 개) 파라미터를 쓰는데, ELT는 111M(1억 1100만 개)만으로 같은 결과를 냈다.
영상 생성에서도 비슷한 결과가 나왔다. UCF-101 영상 데이터셋에서 ELT는 FVD 72.8을 기록해 기존 매그빗(MAGVIT, 76)을 앞섰는데, 사용한 파라미터는 76M으로 매그빗 306M의 4분의 1 수준이었다. 이 차이가 무엇을 의미하는지를 일상의 비유로 풀자면 이렇다. 똑같은 그림을 그리는 데 컴퓨터 메모리에 들어가는 모델 크기가 4분의 1로 줄어든다는 것이고, 이는 그동안 클라우드 서버에서만 돌릴 수 있던 모델을 일반 스마트폰에서도 돌릴 가능성이 열렸다는 뜻이다.
같은 블록을 반복하는 루프 방식과 그 한계
ELT가 사용하는 기본 아이디어는 루프 트랜스포머(Looped Transformer)다. 루프 트랜스포머란 트랜스포머라는 AI 부품 묶음을 한 번만 만들어 놓고 같은 부품을 여러 번 반복해서 쓰는 구조를 말한다. 보통의 AI 모델은 100층짜리 빌딩처럼 매 층마다 다른 부품을 쌓아 올린다. 반면 루프 트랜스포머는 10층짜리 부품을 10번 반복해서 통과시키는 식으로 100층 효과를 낸다. 부품은 10층어치만 메모리에 두면 된다.

그림1. 반복 횟수(L)별 ELT(왼쪽)와 일반 루프 트랜스포머(오른쪽)의 이미지 생성 품질 비교
문제는 기존 루프 트랜스포머가 학습할 때 정한 반복 횟수에서만 제대로 작동한다는 점이었다. 8번 반복하도록 가르치면 8번에서만 좋은 그림이 나오고, 4번이나 6번처럼 다른 횟수로 쓰면 그림이 망가졌다. 논문에 실린 비교 그림을 보면 일반 루프 트랜스포머는 학습 횟수인 8번에서만 깔끔한 이미지가 나오고, 2번이나 4번에서는 흐릿하거나 색이 깨진 결과가 나왔다. 같은 부품을 재활용한다는 장점이 있는데도 실제 사용 환경에서 유연성이 없어 활용도가 떨어졌다.
선생과 학생을 한 번에 가르치는 ILSD 학습법
ELT의 가장 중요한 기여는 ILSD(Intra-Loop Self Distillation, 루프 내 자가 증류)라는 새로운 학습 방법이다. 자가 증류란 같은 모델 안에서 더 많이 반복한 결과(선생)와 적게 반복한 결과(학생)를 비교해 학생이 선생을 따라잡도록 가르치는 방식을 말한다. 선생과 학생이 같은 부품을 공유하기 때문에 학생을 가르치는 과정이 곧 선생도 더 좋아지게 만든다.
작동 방식은 이렇다. 모델이 학습할 때 매번 두 가지 결과를 동시에 만든다. 하나는 정해진 최대 반복 횟수까지 다 돌린 결과(선생)이고, 다른 하나는 무작위로 정한 중간 횟수에서 멈춘 결과(학생)다. 학생 결과는 정답 데이터와 비교하는 동시에 선생 결과와도 비교한다. 이 두 비교에서 나온 오차를 모두 같은 부품에 반영한다. 결과적으로 부품은 어느 시점에서 멈추든 좋은 그림을 만들도록 압축적으로 학습된다. 일반 증류 방식에서는 선생 모델과 학생 모델을 따로 돌려야 해서 학습 비용이 두 배가 된다. 그러나 ILSD에서는 학생의 계산 과정이 선생 계산의 일부분이라 추가 비용이 거의 없다.
논문에 실린 데이터를 보면 ILSD를 적용한 모델은 학습한 반복 횟수가 4번이었음에도 6번 반복할 때 가장 좋은 결과(FVD 69.20)를 냈다. 학습 시점에 본 적 없는 깊이에서도 어느 정도 작동했다는 의미다. 반면 ILSD 없이 학습한 일반 모델은 4번에서 70대였던 FVD가 학습 횟수에서 벗어나면 1958까지 치솟아 약 26배가량 나빠졌다.
한 번 학습으로 5가지 속도를 쓰는 탄력 추론
ELT가 만들어내는 가장 실용적인 가치는 애니타임 추론(Any-Time Inference)이다. 애니타임 추론이란 모델을 한 번만 학습해 두고 사용 환경에 따라 반복 횟수를 자유롭게 바꾸는 방식을 말한다. 같은 모델로 빠른 결과가 필요할 때는 2번만 반복하고, 정밀한 결과가 필요할 때는 10번까지 반복할 수 있다. 학습은 한 번이면 충분하다.
연구팀은 구글 클라우드 TPU v6e에서 측정한 결과 ELT가 모델 크기에 따라 최대 3.5배까지 빠른 처리 속도를 보였다고 밝혔다. 처리량 향상의 원인은 부품이 적어 칩 안에 모두 들어간다는 점이다. 일반적으로 큰 AI 모델은 부품을 외부 메모리에서 칩으로 계속 옮겨야 해서 속도가 떨어진다. ELT는 부품 자체가 작아 이 이동이 거의 없다. 학습 속도도 빨라져 같은 화질에 도달하는 데 기존 디퓨전 트랜스포머(DiT) 대비 1.4배에서 2배 빠르게 학습이 끝났다.
이 기술이 보여주는 함의는 두 가지다. 하나는 AI 이미지 모델의 효율성을 평가할 때 부품 수가 절대적인 기준이 아닐 수 있다는 점이다. 다른 하나는 같은 모델을 스마트폰의 빠른 미리보기와 서버의 고화질 출력 양쪽에 동시에 쓰는 길이 열렸다는 점이다. 다만 이 결과가 텍스트 입력 기반 이미지 생성 같은 더 큰 규모의 응용에서도 그대로 유지되는지는 추가 연구가 필요해 보인다. 논문에서 실험한 영역은 이미지넷과 UCF-101 같은 정해진 카테고리 기반 생성에 한정돼 있다. 또 한 번 학습으로 여러 속도를 지원한다는 장점이 실제 모바일 기기에서 어떤 사용자 경험으로 이어질지는 두고 볼 필요가 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 루프 트랜스포머가 무엇인가요?
A. 루프 트랜스포머는 AI 모델 안에서 같은 부품 묶음을 여러 번 반복해서 사용하는 구조입니다. 일반적인 AI 모델이 매 층마다 다른 부품을 쓰는 것과 달리, 한 묶음의 부품을 재사용하기 때문에 메모리에 저장해야 할 정보가 훨씬 적습니다.
Q2. ELT가 기존 모델보다 4배 적은 부품을 쓴다는 게 어떤 의미인가요?
A. 같은 화질의 그림을 만드는 데 메모리에 저장하는 모델의 크기가 4분의 1로 줄어든다는 뜻입니다. 클라우드 서버에서만 가능했던 작업을 더 작은 기기에서도 할 가능성이 열리고, 같은 칩으로 더 많은 사용자를 처리할 수 있습니다.
Q3. 애니타임 추론은 일반 사용자에게 어떤 도움이 되나요?
A. 한 번 학습한 모델이 상황에 맞춰 속도와 화질을 바꿔 가며 쓸 수 있다는 의미입니다. 예를 들어 스마트폰에서 빠른 미리보기가 필요할 때는 짧게 반복하고, 최종 결과물이 필요할 때는 길게 반복하는 식으로 한 모델로 두 용도를 모두 쓸 수 있습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: ELT: Elastic Looped Transformers for Visual Generation
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






