텍스트·이미지·영상·음성을 단일 공간 처리…구글, 제미나이 임베딩 2 출시

구글 딥마인드가 텍스트, 이미지, 영상, 음성, 문서를 단일 공간에서 처리하는 ‘제미나이 임베딩 2’를 출시했다. 크리에이티 AI에 따르면, 3월 10일 제미나이 API와 버텍스 AI(Vertex AI)를 통해 퍼블릭 프리뷰 형태로 공개됐다.

임베딩 모델은 다양한 데이터를 AI가 이해할 수 있는 수치 벡터로 변환하는 기술이다. 기존 구글의 임베딩 모델은 텍스트만 처리할 수 있었지만, 제미나이 임베딩 2는 다섯 가지 데이터 유형을 하나의 통합 공간에서 처리한다. 구글은 “기존 모델을 단순히 개선한 것이 아니라, 멀티모달 깊이에서 새로운 성능 기준을 세우는 모델”이라고 밝혔다.

그동안 AI 업계에서는 음성을 검색하려면 먼저 텍스트로 변환하거나, 이미지를 설명 텍스트로 변환하는 별도의 전처리 과정이 필수였다. 이 과정에서 의미적 뉘앙스가 손실되고 지연 시간과 비용이 증가했다. 제미나이 임베딩 2는 이런 중간 변환 단계 없이 원본 데이터를 바로 처리해 이 문제를 해결한다.

기술 사양을 보면 텍스트 최대 8,192 토큰, 이미지 최대 6장(PNG·JPEG), 영상 최대 120초(MP4·MOV), 음성 최대 80초, PDF 최대 6페이지를 처리할 수 있으며 100개 이상의 언어를 지원한다. 또한 마트료시카 표현 학습(MRL, Matryoshka Representation Learning) 기법을 적용해 출력 벡터의 차원을 3,072·1,536·768 중 선택할 수 있다. 수십억 개의 벡터를 운용하는 기업 환경에서 클라우드 저장 비용을 최대 절반까지 줄일 수 있다.

실제 도입 사례도 나왔다. 리걸테크 기업 에버로(Everlaw)는 소송 자료 분석에 이 모델을 활용해 이미지·영상 증거까지 효율적으로 검색하고 있으며, 크리에이터 이코노미 플랫폼 스파코노미(Sparkonomy)는 혼합 미디어 콘텐츠 추천과 자산 분류에 적용했다.

현재 제미나이 API와 버텍스 AI를 통해 즉시 이용할 수 있으며, 랭체인(LangChain)·라마인덱스(LlamaIndex)·크로마DB(ChromaDB) 등 주요 개발 도구와의 연동도 지원한다. 다만 기존 텍스트 전용 모델과 임베딩 공간이 호환되지 않아, 이전 버전에서 넘어오려면 기존 데이터를 전부 재임베딩해야 한다.

자세한 내용은 크리에이티 AI(Creati.ai)에서 확인할 수 있다.