Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users 87%가 원하는 AI 시각 도우미: 부정확성이 가장…
2025년 3월 26일, 국내 대표 IT 기업 네이버와 카카오가 각각 주주총회를 열었습니다. 네이버가 이번 주총을 통해 AI 전략을…
알리바바의 Qwen 팀은 24일(현지 시간) 자사 블로그를 통해 새로운 시각-언어 모델인 Qwen2.5-VL-32B-Instruct를 오픈소스로 공개했다. 이 모델은 기존 Qwen2.5-VL…
네이버(NAVER)가 생성형 AI 기술을 적용한 ‘AI 브리핑’을 3월 27일부터 모든 사용자에게 제공한다. 별도 가입 절차 없이 네이버 검색창을…
LLMs can see and hear without any training 대형 언어 모델(LLM), 훈련 없이 시각·청각 능력 발휘 메타 AI와…
구글 딥마인드(Google DeepMind)가 13일(현지 시간) 자사 X에 발표한 내용에 따르면, 구글 딥마인드가 제미나이 2.0 플래시(Gemini 2.0 Flash) 모델에…
구글(Google)이 AI 검색 기능을 대폭 확장하고 있다. 구글 검색의 인기 기능인 ‘AI 오버뷰’가 새로운 ‘제미니 2.0(Gemini 2.0)’ 엔진으로…
마이크로소프트가 소형 언어 모델(SLM) 시리즈인 파이(Phi) 제품군의 최신 모델 ‘파이-4-멀티모달(Phi-4-multimodal)’과 ‘파이-4-미니(Phi-4-mini)’를 출시했다. 26일(현지 시간) 마이크로소프트 블로그에 게시된 내용에…
AISCIVISION: A FRAMEWORK FOR SPECIALIZING LARGE MULTIMODAL MODELS IN SCIENTIFIC IMAGE CLASSIFICATION 과학 연구를 위한 맞춤형 AI 시스템의…
GAIA: a benchmark for General AI Assistants 작년보다 6배 성능 향상…AI 지능 진화 속도 가속 엔드투엔드(End-to-End) 생성형AI 솔루션…