최근 AI 업계의 핫 키워드는 단연 ‘멀티모달(Multi-modal)’과 ‘AI 에이전트(AI Agent)’이다. 주요 생성형 AI 기술에 멀티모달 추가되고 정교화되면서 정보 검색의 양상이 크게 달라질 것으로 예상되고 있다.
AI 에이전트, 능동적인 문제 해결사
멀티모달 AI는 텍스트, 이미지, 음성, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 능력을 갖춘 AI 모델을 의미 뜻한다. 이러한 멀티모달 기술의 발전은 단순한 정보 제공을 넘어 사용자의 의도를 파악하고 능동적으로 문제를 해결하는 AI 에이전트의 등장을 가속화하고 있다.
기존 AI 모델은 주로 텍스트 기반으로 작동하여 사용자의 질문에 대한 답변을 제공하는 데 초점이 맞춰져 있었다. 하지만 멀티모달 AI는 텍스트뿐만 아니라 이미지, 음성 등 다양한 정보를 종합적으로 분석하여 사용자의 의도를 더욱 정확하게 파악할 수 있다. 예를 들어, “어제 찍은 사진 중에 바다 사진 보여줘”라는 음성 명령과 함께 특정 사진을 보여주면, AI는 음성과 이미지 정보를 결합하여 사용자가 원하는 사진을 정확하게 찾아낼 수 있다.
이처럼 멀티모달 AI는 사용자의 의도를 더욱 정확하게 이해하고, 이를 바탕으로 사용자에게 필요한 정보를 제공하거나 특정 작업을 수행하는 AI 에이전트 개발의 핵심 기술로 주목 받고 있다.
정보 탐색에서 구매까지 달라지는 소비 여정
AI 에이전트는 사용자의 목표를 달성하기 위해 능동적으로 행동하는 AI 시스템이다. 멀티모달 AI를 기반으로 사용자의 의도를 정확하게 파악하고, 이를 바탕으로 정보 검색, 예약, 구매 등 다양한 작업을 수행할 수 있다.
예를 들어, 여행 계획을 세우는 AI 에이전트는 사용자의 여행 목적지, 예산, 선호하는 활동 등을 고려하여 항공권, 숙소, 투어 등을 예약하고, 여행 중 필요한 정보를 제공할 수 있다. 또한, 쇼핑 AI 에이전트는 사용자의 취향과 예산에 맞는 상품을 추천하고, 구매까지 진행할 수 있다.

출처: 리서치 앤 마켓
AI 에이전트의 시장 규모는 점차 커지고 있다. 시장조사기관 ‘마켓앤마켓’에 따르면 AI 에이전트 시장 규모는 2023년 48억 달러에서 연평균 43% 성장하여 2028년 285억 달러에 달할 것으로 추정된다.
오픈AI와 구글과 같은 대표적인 기업들이 자사의 AI 모델에 멀티모달을 도입하고 대중에 공개함에 따라 사용자의 정보 검색 행태가 변화하고, AI 경쟁력에 따른 검색 점유율 역시 크게 변할 것이라고 업계는 전망하고 있다.
오픈AI의 GPT-4o
오픈AI는 지난 5월 GPT-4o를 출시하며 텍스트·오디오·비디오 AI를 통합한 진보된 멀티모달 AI를 선보였다. GPT-4o 시연을 통해 음성 어시스턴트 기능을 제공해 크게 화재가 되었는데, GPT가 텍스트와 이미지를 동시에 이해하고 상호작용하며 정보 소비 방식을 혁신적으로 변화시킬 것으로 기대되고 있다. 예를 들어, 사용자가 냉장고 속 재료 사진을 찍어 GPT-4에 보여주면, AI는 사진 속 재료를 인식하고 이를 활용한 다양한 요리 레시피를 추천해준다. 텍스트 검색만으로는 얻기 어려웠던 정보를 이미지를 통해 직관적으로 얻을 수 있게 되면서, 사용자는 보다 풍부하고 개인 맞춤화된 정보 소비 경험을 누릴 수 있는 것이다.
구글의 프로젝트 아스트라
구글의 ‘프로젝트 아스트라(Project Astra)’는 구글의 차세대 인공지능 언어 모델인 ‘제미나이(Gemini)’ 기반의 멀티모달 AI 에이전트이다. 이 역시 텍스트 뿐만 아니라 이미지, 영상, 음성 등을 함께 처리할 수 있는 기능을 제공한다. 이를 통해 사용자는 원하는 정보를 신속하게 찾을 수 있다. 사용자가 “오늘 날씨 어때?”라고 음성으로 질문하면, AI 에이전트는 사용자의 위치 정보를 파악하고 현재 날씨 정보를 음성으로 알려주는 것은 물론, 날씨에 맞는 옷차림이나 활동을 추천해 줄 수 있다.
멀티모달 AI 에이전트, 새로운 정보 탐색 시대의 개막
멀티모달 AI의 발전은 단순히 정보를 찾는 행위를 넘어, AI 에이전트를 통해 개인 맞춤형 정보 큐레이션의 시대로 나아갈 것이라는 전망이 우세하다. 사용자들은 더 이상 검색창에 키워드를 입력하는 수동적인 정보 탐색에 머무르지 않고, 능동적으로 소통하며 자신에게 최적화된 정보를 얻을 수 있게 되었다. 텍스트, 이미지, 음성 등 다양한 형태의 정보를 넘나드는 멀티모달 AI 에이전트는 사용자의 의도와 맥락을 정확하게 이해하고, 이에 최적화된 정보를 제공함으로써 정보 탐색의 효율성을 높이고 사용자 경험을 풍부하게 만들어 줄 것이다. 이는 정보 과잉 시대에 사용자들이 진정으로 필요로 하는 정보에 더욱 빠르고 정확하게 접근할 수 있도록 돕는 새로운 정보 탐색 패러다임으로 해석된다.
관련 콘텐츠 더보기