구글, AI 이미지-텍스트 생성 모델 '팔리제마2 믹스' 6종 출시했다

구글(Google)이 이미지와 텍스트를 함께 처리할 수 있는 새로운 AI 모델군 ‘팔리제마2 믹스(PaliGemma2 Mix)’를 허깅페이스(Hugging Face)를 통해 공개했다. 허깅페이스 모델 허브에 따르면, 이번에 공개된 팔리제마2 믹스는 3가지 크기(3B, 10B, 28B)와 2가지 이미지 해상도(224, 448)를 지원하는 총 6개 모델로 구성됐다. 팔리제마2 믹스는 이미지를 입력받아 텍스트를 생성하거나 이미지 내 객체를 분할할 수 있는 멀티모달 AI 모델이다. 모든 모델은 트랜스포머(Transformers) 기반으로 구현됐으며, JAX 버전도 함께 제공된다.

구글은 이번 공개에서 총 6개의 모델을 선보였다. 3B 규모의 팔리제마2-3B-믹스-224와 팔리제마2-3B-믹스-448, 10B 규모의 팔리제마2-10B-믹스-224와 팔리제마2-10B-믹스-448, 그리고 28B 규모의 팔리제마2-28B-믹스-224와 팔리제마2-28B-믹스-448이 포함됐다.

개발자들은 허깅페이스를 통해 이 모델들을 무료로 다운로드받을 수 있다. 트랜스포머와 JAX 두 가지 프레임워크를 지원해 개발자들의 선택의 폭을 넓혔으며, 특히 448 해상도 모델들은 고품질 이미지 처리가 가능해 정교한 이미지-텍스트 태스크에 활용할 수 있다.

구글의 이번 팔리제마2 믹스 공개는 최근 AI 업계에서 주목받고 있는 멀티모달 AI 개발 경쟁에서 중요한 의미를 갖는다. 오픈소스로 공개된 만큼 AI 연구자들과 개발자들의 활발한 활용이 기대된다.

해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지 출처: 구글

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.