멀티모달AI

구글, ‘제미나이 2.5 Pro’ API 요금 공개… 개발자 접근성 확대한다

4월 7, 2025

구글(Google)이 4일(현지 시간) 자사의 최신 AI 모델인 제미나이 2.5 Pro(Gemini 2.5 Pro)를 공개 프리뷰 버전으로 출시했다. 이로써 더 많은 개발자들이 이 강력한 모델을 활용할…

오픈AI, 챗GPT-5 출시 연기… 대신 o3와 o4-미니 모델 몇 주 내 출시

4월 7, 2025

오픈AI 최고경영자 샘 알트만(Sam Altman)이 4일(현지 시간) 자사 X를 통해, 자사의 대규모 언어 모델 출시 계획을 변경했다고 발표했다. 당초 계획과 달리 O3와 O4-미니를 출시하기로…

아마존, AI 에이전트 ‘노바 액트’ 출시… “가격 대비 성능 업계 최고 수준”

4월 2, 2025

아마존(Amazon)이 1일(현지 시간) 자사 웹사이트를 통해 새로운 기반 모델(foundation models) 시리즈인 ‘노바(Nova)’를 공개했다. 최첨단 지능과 업계 최고 수준의 가격 대비 성능을 갖춘 이 모델들은,…

마누스AI, 클로드 3.7 전면 도입하며 모바일 앱 등 대규모 업데이트 발표

마누스AI, 모바일 앱 출시 등 대규모 업데이트 발표… “클로드 3.7 전면 도입”

4월 2, 2025

마누스AI(ManusAI)가 클로즈드 베타 출시 3주 만에 주요 업데이트를 발표했다. 이번 업데이트에는 모바일 앱 출시와 클로드 3.7(Claude 3.7) 기반 서비스 전환 등 사용자 경험을 크게…

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users

AI는 점자를 읽을 수 있을까? 시각장애인을 위한 언어 모델의 가능성과 한계

4월 1, 2025

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users 87%가 원하는 AI 시각 도우미: 부정확성이 가장 큰 걸림돌 다자간 대규모 언어 모델(Multimodal…

한국형 AI 전략의 갈림길에 선 네이버와 카카오

3월 27, 2025

2025년 3월 26일, 국내 대표 IT 기업 네이버와 카카오가 각각 주주총회를 열었습니다. 네이버가 이번 주총을 통해 AI 전략을 공개하면서 두 회사의 결이 다른 AI…

큐웬, AI 비전-언어 모델 ‘Qwen2.5-VL-32B’ 출시… “주관적 경험과 수학적 추론에 최적화”

3월 26, 2025

알리바바의 Qwen 팀은 24일(현지 시간) 자사 블로그를 통해 새로운 시각-언어 모델인 Qwen2.5-VL-32B-Instruct를 오픈소스로 공개했다. 이 모델은 기존 Qwen2.5-VL 시리즈의 최적화 버전으로, 인간 선호도에 더…

네이버, 검색·숏텐츠·플레이스·쇼핑까지 서비스 전반에 ‘AI 브리핑’ 도입

3월 25, 2025

네이버(NAVER)가 생성형 AI 기술을 적용한 ‘AI 브리핑’을 3월 27일부터 모든 사용자에게 제공한다. 별도 가입 절차 없이 네이버 검색창을 통해 누구나 이용할 수 있으며, 검색·숏텐츠·플레이스·쇼핑…

LLMs can see and hear without any training

AI, 이제 훈련 없이도 사진과 영상을 이해한다? 메타의 MILS 기술 공개

3월 18, 2025

LLMs can see and hear without any training 대형 언어 모델(LLM), 훈련 없이 시각·청각 능력 발휘 메타 AI와 UC 버클리 연구진이 발표한 연구에 따르면,…

구글 딥마인드, 제미나이 2.0 플래시에 네이티브 이미지 생성 기능 탑재

3월 13, 2025

구글 딥마인드(Google DeepMind)가 13일(현지 시간) 자사 X에 발표한 내용에 따르면, 구글 딥마인드가 제미나이 2.0 플래시(Gemini 2.0 Flash) 모델에 네이티브 이미지 생성 기능을 새롭게 추가했다.…

구글, AI 오버뷰 확장 및 새로운 ‘AI 모드’ 출시

3월 6, 2025

구글(Google)이 AI 검색 기능을 대폭 확장하고 있다. 구글 검색의 인기 기능인 ‘AI 오버뷰’가 새로운 ‘제미니 2.0(Gemini 2.0)’ 엔진으로 업그레이드되었으며, 실험적인 ‘AI 모드(AI Mode)’도 새롭게…

마이크로소프트, SLM 시리즈 ‘파이-4’ 신규 모델 출시… 단어 인식 정확도 향상

2월 28, 2025

마이크로소프트가 소형 언어 모델(SLM) 시리즈인 파이(Phi) 제품군의 최신 모델 ‘파이-4-멀티모달(Phi-4-multimodal)’과 ‘파이-4-미니(Phi-4-mini)’를 출시했다. 26일(현지 시간) 마이크로소프트 블로그에 게시된 내용에 따르면, 두 모델은 애저 AI 파운드리(Azure…

AISCIVISION: A FRAMEWORK FOR SPECIALIZING LARGE MULTIMODAL MODELS IN SCIENTIFIC IMAGE CLASSIFICATION

AI, 이제 과학 이미지도 전문가처럼 분석… 코넬대가 만든 새로운 AI 프레임워크

1월 10, 2025

AISCIVISION: A FRAMEWORK FOR SPECIALIZING LARGE MULTIMODAL MODELS IN SCIENTIFIC IMAGE CLASSIFICATION 과학 연구를 위한 맞춤형 AI 시스템의 등장 코넬 대학교 연구진이 과학 연구에서…

GAIA: a benchmark for General AI Assistants

‘AI vs 인간’ 지능 격차 좁혀진다…AI 지능 측정해보니 ‘인간의 70% 수준’

12월 26, 2024

GAIA: a benchmark for General AI Assistants 작년보다 6배 성능 향상…AI 지능 진화 속도 가속 엔드투엔드(End-to-End) 생성형AI 솔루션 기업 H2O.ai가 자사의 AI 에이전트 ‘h2oGPTe’로…

2025년 AI 트렌드의 모든 것, 구글이 전망한 미래를 이끌 5대 트렌드

12월 19, 2024

AI Business Trends 2025 AI, 글로벌 시장의 변화를 이끌다 AI는 전 세계 산업과 비즈니스 모델을 재구성하고 있다. 특히 AI를 조기에 도입한 기업들은 혁신적인 고객…

아마존, 멀티모달모델 '노바' 공개… 비용 절감과 높은 성능으로 경쟁사 추격

아마존, AI 모델 ‘노바’로 시장 진출… 오픈AI·구글에 도전장

12월 4, 2024

아마존 웹서비스(AWS)가 12월 3일(현지시간) 차세대 AI 모델 ‘아마존 노바(Amazon Nova)’를 공개했다. 아마존 노바는 최신 AI 기술을 활용한 기초 모델로, 최상의 지능과 비용 대비 성능을…

“쇼핑의 미래가 온다”… 구글 제미나이가 바꾸는 소매업계 5대 혁신

12월 3, 2024

소매, 유통업계에서 디지털 전환은 더 이상 선택이 아닌 생존을 위한 경쟁이 되고 있다. 이미 많은 소매업체들이 생성형 AI를 도입해 업무 방식을 혁신하고 직원들의 역량을…

Edge AI Technology Report - Generative AI at the Edge Edition

생성형 AI와 엣지 컴퓨팅의 융합이 가져올 기술 혁신

11월 18, 2024

생성형 AI의 발전이 산업 전반의 구조를 재편하고 있는 가운데, 클라우드 기반의 중앙 집중식 AI 모델에서 엣지 기반의 분산형 AI 모델로의 전환이 가속화되고 있다. 엣지…

그록-2 베타 버전 출시, 챗GPT와 클로드 능가하는 성능 선보여

8월 16, 2024

이미지 출처: X 블로그 엑스AI(xAI)가 최신 인공지능 언어 모델인 그록-2(Grok-2)와 그록-2 미니(Grok-2 mini)를 소셜미디어 플랫폼 엑스(𝕏)에서 베타 서비스로 출시했다. 이번에 공개된 그록-2는 채팅, 코딩,…

텐센트, 오픈소스 대화형 멀티모달 AI 모델 ‘VITA’ 공개

8월 14, 2024

텐센트(Tencent) 유투랩(Youtu Lab)은 비디오, 이미지, 텍스트, 오디오를 동시에 처리할 수 있는 오픈소스 멀티모달 대규모 언어 모델(MLLM) ‘VITA(Towards Open-Source Interactive Omni Multimodal LLM)’를 공개했다. VITA는…