이미지 출처: 구글 홈페이지
구글이 최신 텍스트-이미지 생성 AI 모델인 ‘이마젠 3(Imagen 3)’를 공개했다. 이마젠 3는 기존 모델들보다 더 뛰어난 품질의 이미지를 생성할 수 있는 능력을 갖췄다고 구글은 밝혔다.
이마젠 3의 주요 특징은 향상된 이미지 품질이다. 더 섬세한 디테일, 풍부한 조명, 적은 노이즈를 구현할 수 있게 되었다. 또한 프롬프트 이해 능력이 크게 개선되어 다양한 시각적 스타일을 생성하고 긴 프롬프트에서 작은 세부 사항을 포착할 수 있게 되었다.
구글은 이마젠 3를 빠른 스케치부터 고해상도 이미지까지 다양한 작업에 최적화된 여러 버전으로 제공한다. 사실적인 풍경부터 풍부한 질감의 유화, 재미있는 클레이메이션 장면까지 광범위한 형식과 스타일의 이미지를 생성할 수 있다.
이마젠 3는 복잡한 프롬프트 엔지니어링 없이도 일상적인 언어로 작성된 프롬프트를 이해할 수 있다. 이를 위해 구글은 학습 데이터의 각 이미지 캡션에 더 풍부한 세부 정보를 추가했다. 이를 통해 긴 복잡한 프롬프트에서 특정 카메라 각도나 구도와 같은 뉘앙스를 더 정확하게 포착할 수 있게 되었다. 생일 카드, 프레젠테이션에서도 이용할 수 있을 정도로 텍스트 렌더링 능력도 크게 향상되었다.
구글은 이마젠 3 개발 과정에서 안전성과 책임성에 큰 주안점을 두었다. 유해한 콘텐츠를 최소화하기 위해 광범위한 필터링과 데이터 라벨링을 사용했으며, 공정성, 편향성, 콘텐츠 안전성 등에 대한 평가를 실시했다.
더불어 구글은 이마젠 3에 ‘신스ID(SynthID)’라는 혁신적인 워터마킹 도구를 적용했다. 이 기술은 이미지의 픽셀에 직접 디지털 워터마크를 삽입해 식별은 가능하지만 육안으로는 감지할 수 없게 만든다.
구글은 앞으로 몇 달 안에 이마젠 2의 인기 있는 편집 기능인 인페인팅(inpainting)과 아웃페인팅(outpainting)을 이마젠 3에서도 사용할 수 있도록 할 예정이다. 또한 이마젠 3를 제미니(Gemini) 앱, 워크스페이스(Workspace), 광고 등 구글의 다양한 제품에서 확대 적용할 계획이라고 밝혔다.
이마젠 3의 공개로 구글은 텍스트-이미지 생성 AI 분야에서의 경쟁력을 한층 강화했다. 향후 이 기술이 구글의 다양한 제품과 서비스에 어떻게 통합되어 사용자 경험을 개선할지 주목된다.
구글 이마젠3에 대한 자세한 정보는 링크에서 확인할 수 있다.
관련 콘텐츠 더보기