중국 틱톡 모회사 바이트댄스(ByteDance)가 새로운 차세대 이미지 생성 모델 ‘시드림(Seedream) 4.0’을 공개했다고 발표했다. 이 모델은 이미지 생성과 편집 기능을 하나의 통합된 아키텍처로 결합해 복잡한 멀티모달 작업을 유연하게 처리할 수 있다.
시드림 4.0은 지식 기반 생성, 복잡한 추론, 참조 일관성을 포함한 다양한 작업을 수행할 수 있으며, 이전 버전보다 훨씬 빠른 추론 속도를 자랑한다. 특히 최대 4K 해상도까지 놀라운 고화질 이미지를 생성할 수 있다는 점이 주목할 만하다.
바이트댄스가 공개한 프롬프트 가이드에 따르면, 시드림 4.0은 “이 사진에서 소년을 제거해 줘”, “‘산티아고 음악 페스티벌’을 ‘시드림 사진전’으로 바꾸고 날짜를 ‘2025.10.01-07’로 변경해 줘. 텍스트의 색상 구성, 폰트, 정렬은 그대로 유지해 줘” 같은 복합적인 편집 요청을 처리할 수 있다. 또한 “조명을 켜서 거실을 밝혀줘. 밖은 여전히 저녁이야.”, “선화를 참조해서 햇빛 아래 적토 테니스 코트에서 빨간 상의와 흰 반바지를 입은 선수가 서브를 준비하며 테니스공을 높이 던지는 장면을 생성해 줘” 같은 세밀한 장면 생성도 가능하다.
이 모델은 단순한 객체 교체부터 복잡한 디자인 작업까지 폭넓은 기능을 제공한다. “이 개를 슈나우저로 바꿔 줘”, “사진의 색을 입히고 긁힌 자국을 복구해 줘” 같은 기본적인 편집은 물론, “고급 미술관을 위한 레트로 웹사이트를 디자인해 줘. 자연스러운 색조를 사용하고 간결하고 깔끔한 레이아웃으로 박물관 소장품들의 대형 이미지 전시에 집중해 줘” 같은 복합적인 디자인 요청도 처리할 수 있다.
교육 분야에서도 활용도가 높다. “칠판에 다음 이진 일차방정식 연립과 해결 단계를 그려줘: 5x + 2y = 26; 2x – y = 5”, “진나라부터 청나라까지 타임라인을 그려줘. 진, 한, 당, 송, 원, 명, 청나라를 명확한 순서로 표시하고 왕조마다 작은 아이콘을 넣어 특징을 중국어로 써줘” 같은 교육용 콘텐츠 생성이 가능하다.
바이트댄스는 MagicBench 다차원 평가에서 시드림 4.0이 다른 모델들과 비교해 프롬프트 준수, 정렬, 미학 등 핵심 차원에서 우수한 성능을 보였다고 밝혔다. 텍스트-투-이미지 작업에서는 프롬프트 준수, 미학, 텍스트 렌더링 부문에서 높은 점수를 기록했으며, 단일 이미지 편집 작업에서는 프롬프트 준수와 원본 이미지와의 정렬 사이에서 좋은 균형을 달성했다. 특히 내부 Elo 평가에서 1위를 차지했다.
이번 시드림 4.0 공개는 생성형 AI 이미지 분야에서 바이트댄스가 오픈AI, 구글 등 글로벌 빅테크와 경쟁하고 있음을 보여준다. 통합된 아키텍처를 통한 생성과 편집의 결합, 그리고 4K 해상도 지원은 향후 창작 도구 시장에 상당한 변화를 볼러올 것으로 예상된다.
해당 서비스에 대한 자세한 사항은 바이트댄스 뉴스룸에서 확인 가능하다.
이미지 출처: 바이트댄스