딥마인드의 데미스 하사비스 CEO는 10일(현지 시간) 팟캐스트 ‘Possible’에 출연해 구글이 자사의 다중 모달 인공지능(AI) 모델 제미나이(Gemini)에 영상 생성 AI 비오(Veo)를 결합할 계획이라고 밝혔다. 그는 “우리는 항상 제미나이를 처음부터 멀티모달로 설계했다”며 궁극적으로 현실에서 사용자에게 실제 도움을 주는 디지털 어시스턴트를 목표로 하고 있다고 설명했다.
하사비스에 따르면 양 모델의 결합은 특히 물리적 세상에 대한 제미나이의 이해력을 강화하는 데 주요 목적이 있다. 이를 위해 비오가 학습한 대량의 유튜브 영상을 기반으로, 사물이 움직이는 방식 등 자연 현상의 물리를 파악하도록 돕고 있다는 것이다. 현재 업계에서는 텍스트뿐만 아니라 이미지, 오디오 등 다양한 입력을 처리 가능한 ‘옴니(omni)’형 AI 경쟁이 치열하다. 구글 외에도 오픈AI와 아마존 등이 관련 기능 개발과 출시를 예고하고 있다.
해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 구글
기사는 클로드와 챗gpt를 활용해 작성되었습니다.