Search

멀티모달AI

피지컬 AI 글로벌 동향 및 대응 전략

아마존·테슬라가 주목한 ‘피지컬 AI’… NIA가 분석한 글로벌 동향 및 한국 대응 전략

10월 29, 2025

디지털 세계를 넘어 물리적 현실과 직접 상호작용하는 피지컬 AI(Physical AI)가 차세대 산업 혁신의 핵심 기술로 부상하고 있다. 한국지능정보사회진흥원(NIA)이 발표한 리포트에 따르면, 피지컬 AI는 센서를…

"Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection

AI 잡는 AI로 생성 이미지 진짜 정체 밝힌다? 예술, 유머, 가짜뉴스는 구분 가능해져

8월 29, 2025

생성형 AI 기술이 급속도로 발전하면서 누구나 손쉽게 사실적인 이미지를 만들 수 있는 시대가 됐다. 어도비 파이어플라이(Adobe Firefly), 달리(DALL·E), 미드저니(Midjourney) 같은 도구들이 널리 보급되면서 기술적…

Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

GPT-5, 공간 감각 테스트에서 사람과 겨뤄보니… “거리 측정은 사람보다 정확해”

8월 20, 2025

오픈AI(OpenAI)에서 내놓은 GPT-5가 ‘공간을 이해하는 능력’에서 놀라운 발전을 보였지만, 여전히 사람만큼은 못 한다는 연구 결과가 나왔다. 홍콩 인공지능 회사 센스타임 연구소에서 진행한 대규모 실험에…

‘K-AI’ 5개 정예팀 발표… LG·네이버·업스테이지·SKT·엔씨

‘K-AI’ 5개 정예팀 발표… LG·네이버·업스테이지·SKT·엔씨

8월 4, 2025

과학기술정보통신부(과기정통부)가 ‘독자 인공지능 기초 모형(AI 파운데이션 모델)’ 사업에 참여할 5개 정예팀을 최종 선정했다고 4일(한국 시간) 발표했다. 선정된 5개 팀은 ▲네이버클라우드 ▲업스테이지 ▲에스케이텔레콤(SK텔레콤) ▲엔씨에이아이(NCAI) ▲엘지경영개발원(LG경영개발원)…

국가대표 AI '독자 AI 파운데이션 모델' 사업 최종 선정 5개 팀 집중분석

독자 AI 파운데이션 모델’ 사업 최종 선정 5개 팀 집중분석 – 각팀 강점과 약점

8월 4, 2025

소버린 AI 실현 위한 ‘네이버클라우드·업스테이지·SK텔레콤·엔씨에이아이·LG경영개발원’ 세부 현황 총정리 2025년 8월 4일, 과학기술정보통신부(장관 배경훈, 이하 과기정통부)가 ‘독자 인공지능(AI) 기초 모형(파운데이션 모델)’ 사업에 참여할 5개 정예팀을…

InSight: AI Mobile Screening Tool for Multiple Eye Disease Detection using Multimodal Fusion

당뇨망막병증부터 녹내장까지, 사진 한 장으로 5가지 눈병 진단하는 AI 앱 등장

7월 21, 2025

전 세계 수억 명이 앓고 있는 눈병을 조기에 발견할 수 있는 혁신적인 AI 기술이 나왔다. 미국 캘리포니아 쿼리 레인 스쿨(Quarry Lane School)과 존스홉킨스대학교, 캘리포니아대학교…

그게 왜 갤럭시 AI인가 싶지만 가장 뛰어난 AI 폰, 갤럭시 Z 폴드 7·플립 7

[AI 매터스 뉴스레터 #92] 그게 왜 갤럭시 AI인가 싶지만 가장 뛰어난 AI 폰, 갤럭시 Z 폴드 7·플립 7

7월 14, 2025

안녕하세요, AI 매터스 입니다.​​​​​​​AI 매터스는 생성형 AI 분야에서 수없이 쏟아져 나오는 소식 중에서 꼭 참고해야 할 내용을 엄선해 매일 기사를 발행하고 있습니다. 그 가운데 놓치지 말아야 할 중요한…

그게 왜 갤럭시 AI인가 싶지만 가장 뛰어난 AI 폰, 갤럭시 Z 폴드 7·플립 7

그게 왜 갤럭시 AI인가 싶지만 가장 뛰어난 AI 폰, 갤럭시 Z 폴드 7·플립 7

7월 11, 2025

갤럭시 Z 폴드 7과 플립 7이 삼성 언팩에서 공개됐다. 삼성은 지난 해부터 갤럭시가 ‘AI 폰’임을 끊임없이 강조해 왔다. 이번 발표 핵심도 여전히 AI였는데, 삼성은…

Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM Grading

AI로 조교들 쉬게 만든다… 손글씨도 채점하고 피드백도 주는 AI 채점 인기

7월 7, 2025

30만 학생 답안 채점한 AI 플랫폼, 20개 대학에서 실전 활용 펜시브(Pensieve)라는 이름의 AI 채점 플랫폼이 미국 대학가에서 조용한 혁명을 일으키고 있다. 이 시스템은 이미…

DO THEY SEE WHAT WE SEE?

“웃음소리에서 슬픔을 읽어낸다” 감정 읽는 AI 공개… 40가지 미묘한 감정 구분

6월 30, 2025

DO THEY SEE WHAT WE SEE? Building Emotionally Intelligent AI with EmoNet 인공지능 연구 관련 비영리 단체 라이온(LAION)이 인텔(Intel)과의 협력을 통해 개발한 EmoNet은 AI가…

딜로이트 글로벌 금융서비스산업 트렌드 - 미래 금융의 축을 바꾸는 8가지 메가트렌드

“AI로 송금·EFT 설계” 딜로이트가 분석한 금융 AI 트렌드 5가지

6월 24, 2025

딜로이트 글로벌 금융서비스산업 트렌드 – 미래 금융의 축을 바꾸는 8가지 메가트렌드 딜로이트가 공개한 보고서에 따르면, 인공지능(AI)과 토큰화(tokenization)가 글로벌 금융산업에 구조적인 변화를 일으키고 있다. 특히…

Large language models without grounding recover non-sensorimotor but not sensorimotor features of human concepts

“감정은 이해·촉각과 후각은 이해 못해” LLM의 감각에 대한 연구 결과 공개

6월 16, 2025

Large language models without grounding recover non-sensorimotor but not sensorimotor features of human concepts GPT-4와 제미나이(Gemini) 같은 거대언어모델(LLM)들이 감각-운동 경험 없이도 감정이나 추상적 개념에서는…

캐릭터AI, 씬·아바타FX·스트림 등 멀티모달 창작 기능 대거 공개

내 캐릭터로 애니메이션 제작 가능… 캐릭터AI, 씬·아바타FX·스트림 등 멀티모달 창작 기능 공개

6월 4, 2025

캐릭터AI(Character.AI)가 창작자들의 창의적 잠재력을 끌어내는 새로운 기능 모음을 공개했다고 2일(현지 시간) 자사 블로그를 통해 발표했다. 캐릭터AI는 특정 페이소스를 갖고 있는 캐릭터들과 대화할 수 있는…

일레븐랩스, 차세대 대화형 AI 2.0 출시… 기업용 음성 에이전트 시장 공략

일레븐랩스, 차세대 대화형 AI 2.0 출시… 기업용 음성 에이전트 시장 공략

6월 4, 2025

일레븐랩스(ElevenLabs)가 대화형 AI 2.0(Conversational AI 2.0)을 출시했다고 지난달 30일(현지 시간) 발표했다. 이번 새로운 플랫폼은 기존 버전 출시 5개월 만에 선보이는 것으로, 세계에서 가장 정교하고…

What's Next After ChatGPT? Tesla and Google's Physical AI War

“챗GPT 다음은 ㅇㅇㅇㅇㅇ” 테슬라·구글이 뛰어든 ‘움직이는 AI’ 전쟁… 5년새 시장 350% 폭증

5월 26, 2025

피지컬 AI의 현황과 시사점 생성형 AI를 넘어선 차세대 AI 혁명, 글로벌 시장 350% 급성장 SPRi가 발표한 리포트에 따르면, 피지컬 AI(Physical AI)가 차세대 AI 기술…

[MS 빌드 2025] 오픈AI CEO "AI 코딩 에이전트는 프로그래밍 역사상 가장 큰 변화"

[MS 빌드 2025] 오픈AI CEO “AI 코딩 에이전트는 프로그래밍 역사상 가장 큰 변화”

5월 20, 2025

마이크로소프트 빌드 2025 컨퍼런스에서 오픈AI(OpenAI)의 CEO 샘 알트만(Sam Altman)이 가상으로 참여해 AI 코딩 에이전트가 소프트웨어 개발 방식을 혁신적으로 변화시키고 있다고 강조했다. 사티아 나델라(Satya Nadella)…

OpenVision : A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

구글과 오픈AI 넘어선 오픈소스 AI 비전 기술 ‘OpenVision’ 등장

5월 19, 2025

OpenVision : A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning 독점에서 개방으로: OpenVision, 25종 이상의 완전 공개형 비전 인코더로 멀티모달 AI…

Multimodal generative AI for interpreting 3D medical images and videos

의사 없이도 CT 촬영 결과를 해석할 수 있을까? MRI와 내시경 영상을 텍스트로 해석하는 AI의 등장

5월 15, 2025

Multimodal generative AI for interpreting 3D medical images and videos 비디오-텍스트 AI로 수천 장의 의료 이미지를 한 번에 처리 의료 분야에서 인공지능의 활용은 이미…

구글, 제미나이 1억 5천만 다운로드 돌파하며 인기 증명

구글, 오픈소스 AI 모델 ‘젬마’ 1억 5천만 다운로드 돌파하며 인기 증명

5월 13, 2025

구글(Google)의 오픈소스 인공지능 모델 젬마(Gemma)가 출시 후 약 1년 만에 1억 5천만 다운로드를 돌파하는 쾌거를 이뤘다. 이는 오픈소스 AI 모델 시장에서 구글의 입지가 강화되고…

Multimodal Mistral Red Teaming Report

미스트랄 AI 모델, 유해 콘텐츠 생성 위험 GPT-4보다 60배 높아… 엔크립트 AI 보고서

5월 12, 2025

Multimodal Mistral Red Teaming Report 미스트랄 AI의 픽스트랄 모델, GPT-4o와 클로드3.7보다 60배 더 위험하다 미국의 AI 전문 보안기업 엔크립트 AI(Enkrypt AI)가 발표한 미스트랄(Mistral)의 멀티모달…

구글, 젬마 3와 제미나이 2.5로 게임개발 AI 혁신 본격화

구글, 젬마 3와 제미나이 2.5로 게임개발 AI 혁신 본격화

5월 12, 2025

생성형 AI가 게임 산업의 판도를 바꾸고 있다. AI를 통해 게임 개발자들은 이전에는 상상할 수 없었던 역동적으로 진화하는 게임과 전례 없는 플레이어 경험을 제공하고 있다.…

구글, 코드 작성 특화 AI 모델 ‘제미나이 2.5 Pro’ 프리뷰 공개

구글, 코드 작성 특화 AI 모델 ‘제미나이 2.5 Pro’ 프리뷰 공개

5월 7, 2025

구글이 6일(현지 시간) 제미나이 2.5 Pro 프리뷰(I/O 에디션)를 조기 출시했다. 이번 버전은 특히 코딩과 대화형 웹 앱 개발 능력이 크게 향상됐다. 구글은 원래 몇…

구글, 제미나이에 AI 이미지 편집 기능 추가… 이제 내 사진도 AI로 편집 가능

구글, 제미나이에 AI 이미지 편집 기능 추가… 이제 내 사진도 AI로 편집 가능

5월 7, 2025

지난달 30일(한국 시간) 구글코리아 블로그에 발표된 내용에 따르면, 구글(Google)이 제미나이(Gemini) 앱에 이미지 업로드와 AI 편집 기능을 새롭게 추가했다. 이용자들은 이제 자신의 기기에 저장된 사진뿐…

함샤우트 글로벌, PR & 마케팅 전문가 위한 생성형 AI 지형도 3.0 공개

함샤우트 글로벌, PR & 마케팅 전문가 위한 ‘생성형 AI 지형도 3.0’ 공개

5월 6, 2025

AI 마케팅 혁신으로 디지털 딥택트를 선도하는 종합 커뮤니케이션 기업 ㈜ 함샤우트 글로벌이 생성형 AI 시장의 급격한 변화 흐름을 반영한 ‘생성형 AI 지형도 3.0’을 새롭게…

바이두 창업자 "텍스트 기반 AI 시장 축소 중"... 딥시크 겨냥한 발언 주목

바이두 창업자 “텍스트 기반 AI 시장 축소 중”… 딥시크 겨냥한 발언 주목

4월 28, 2025

파이낸셜타임스(FT)의 보도에 따르면, 중국 검색 기업 바이두(Baidu)의 창업자가 자국 생성형 AI 기업 딥시크(DeepSeek)가 개발하는 텍스트 기반 모델에 대한 수요가 “축소되고 있다”고 발언해 관심을 모으고…

오픈AI, AI 추론 모델 'o3'·'o4-mini' 발표… 이미지 기반 사고 가능해져

오픈AI, AI 추론 모델 ‘o3’·’o4-mini’ 발표… 이미지 기반 사고 가능해져

4월 17, 2025

오픈AI(OpenAI)가 16일(현지 시간) 기존보다 더 똑똑하고 강력한 성능을 갖춘 최신 AI 모델인 ‘o3’와 ‘o4-mini’를 출시했다. 이번에 공개된 모델들은 더 오래 생각한 후 응답하도록 훈련된…

구글, AI 모델 ‘제미나이’와 ‘비오’ 통합 계획… 물리 세계 이해 높인다

구글, AI 모델 ‘제미나이’와 ‘비오’ 통합 계획… 물리 세계 이해 높인다

4월 11, 2025

딥마인드의 데미스 하사비스 CEO는 10일(현지 시간) 팟캐스트 ‘Possible’에 출연해 구글이 자사의 다중 모달 인공지능(AI) 모델 제미나이(Gemini)에 영상 생성 AI 비오(Veo)를 결합할 계획이라고 밝혔다. 그는…

[Next 2025] 구글, 109조 규모 인프라 투자 발표… “TPU '아이언우드'는 올해 말 출시”

[Cloud Next 25] 구글, 109조 규모 인프라 투자 발표… “TPU ‘아이언우드’는 올해 말 출시”

4월 10, 2025

구글이 9일(현지 시간) 라스베이거스에서 열린 ‘클라우드 넥스트 25’ 행사에서 약 750억 달러(한화 약 109조원) 규모의 인프라 투자 계획과 함께 차세대 AI 기술을 대거 공개했다.…

구글, AI 모드에 구글 렌즈 통합… 이미지 검색 기능 대폭 강화

구글, AI 모드에 구글 렌즈 통합… 이미지 검색 기능 대폭 강화

4월 8, 2025

구글(Google)이 8일(현지 시간) 자사 X를 통해, 자사의 검색 서비스 내 AI 모드에 구글 렌즈(Google Lens)를 통합하여 사용자들이 이미지에 대해 복잡한 질문을 할 수 있는…

메타, '라마 4' 시리즈 공개... GPT-4.5와 클로드 3.7 뛰어넘는 성능 선보여

메타, ‘라마 4’ 시리즈 공개… GPT-4.5와 클로드 3.7 뛰어넘는 성능 선보여

4월 7, 2025

메타(Meta)가 새로운 라마 4(Llama 4) 시리즈를 발표했다. 5일(현지 시간) 메타 공식 블로그에 올라온 내용에 따르면, 이번에 공개된 ‘라마 4 스카우트(Llama 4 Scout)’와 ‘라마 4…

멀티모달AI – AI 매터스