구글(Google)이 자사의 AI 모델인 제미나이(Gemini)의 이미지 생성 기능에 대한 포괄적인 가이드를 28일(현지 시간) 공개했다. 특히 ‘나노바나나(Nano Banana)’라는 독특한 프롬프트 예시를 활용해 사용자들이 효과적으로 AI 이미지를 생성할 수 있는 방법을 소개했다. 구글 개발자 문서에 따르면, 제미나이는 텍스트-이미지 변환, 이미지 수정, 다중 이미지 합성, 반복적 개선 등 다양한 이미지 생성 모드를 지원한다. 특히 대화형 방식으로 이미지를 생성하고 처리할 수 있어 사용자가 원하는 결과를 얻을 때까지 지속적으로 수정할 수 있다.
가장 주목할 만한 특징은 고화질 텍스트 렌더링 기능이다. 로고, 다이어그램, 포스터에 적합한 가독성 높은 텍스트가 포함된 이미지를 정확하게 생성할 수 있다. 생성된 모든 이미지에는 AI 생성임을 표시하는 SynthID 워터마크가 자동으로 포함된다.
구글은 효과적인 프롬프팅 전략으로 6가지 카테고리를 제시했다. 실사형 장면의 경우 사진 용어와 카메라 각도, 렌즈 유형, 조명 등을 구체적으로 명시하라고 권장했다. 세련된 삽화 및 스티커 제작에서는 스타일을 명확히 하고 투명한 배경을 요청하는 것이 효과적이라고 설명했다.

이미지 수정 기능에서는 요소 추가 및 삭제, 인페인팅(시맨틱 마스킹), 스타일 전이, 고급 합성 등이 가능하다. 특히 여러 이미지를 결합해 새로운 합성 장면을 만드는 기능은 제품 모형이나 창의적인 콜라주 제작에 적합하다고 소개했다.
구글은 더 나은 결과를 위한 권장사항도 제시했다. 매우 구체적인 묘사를 사용하고, 이미지의 목적과 맥락을 명확히 설명하며, 반복적인 미세 조정을 통해 원하는 결과를 얻을 것을 조언했다. 또한 복잡한 장면의 경우 단계별로 나누어 프롬프트를 작성하라고 권했다.
현재 이 기능은 영어, 스페인어(멕시코), 일본어, 중국어, 힌디어를 지원하며, 최대 3개의 이미지를 입력으로 사용할 때 최적의 성능을 보인다. 다만 유럽경제지역(EEA), 스위스, 영국에서는 아동 이미지 업로드가 제한된다.
구글은 제미나이 네이티브 이미지 생성 기능 외에도 전문 이미지 생성 모델인 이마젠(Imagen)도 함께 제공한다고 밝혔다. 이마젠은 실사형 이미지와 선명도, 맞춤법 및 서체에서 더 뛰어난 성능을 보이지만, 제미나이는 비교할 수 없는 유연성과 멀티턴 대화형 편집이 가능하다는 장점이 있다.
해당 프롬프팅 가이드는 구글 개발자 블로그에서 확인 가능하다.
이미지 출처: 구글