AI 모델 비교

오픈AI, ‘GPT-5.2’ 공개… “제미나이3 보다 성능 좋아”

12월 12, 2025

오픈AI(OpenAI)가 전문 작업에 최적화된 최신 AI 모델 ‘GPT-5.2’를 11일(현지 시각) 공개했다. 오픈AI에 따르면 GPT-5.2는 44개 직종의 지식 업무를 평가하는 GDPval 벤치마크에서 처음으로 전문가 수준에…

구글, ‘나노 바나나 2 플래시’ 출시 임박… 더 저렴한 비용에 프로급 성능

12월 8, 2025

구글이 제미나이 내에 새로운 인공지능(AI) 모델 ‘나노 바나나 2 플래시(Nano Banana 2 Flash)’를 출시할 준비를 마친 것으로 확인됐다. 이 모델은 프로(Pro) 버전과 유사한 성능을…

TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories

AI가 쓴 인도 이야기 10편 중 9편이 ‘가짜 문화’… 음식·의상·축제 모두 틀렸다

12월 2, 2025

대규모 언어모델(LLM)이 생성한 이야기 10개 중 9개에서 문화를 잘못 표현하고 있는 것으로 나타났다. 특히 영어가 아닌 인도 현지 언어로 작성된 이야기에서 문화적 부정확성이 3배…

[AI 매터스 뉴스레터 #147] 제미나이3 활용법: 게임·3D·웹앱 제작 사례 13가지 + 실전 프롬프트

11월 25, 2025

안녕하세요, AI매터스입니다. AI는 이미 우리의 삶입니다. 그 가운데 놓치지 말아야 할 중요한 이슈들을 주 3회 정리해 제공합니다. 놓치지 마시기 바랍니다. 챗GPT가 쇼핑 도우미로 변신? 가격·리뷰…

AI는 답 모르면 무조건 “아니요”… 서울대 연구진, 챗GPT의 숨겨진 습관 발견

11월 24, 2025

인공지능 챗봇에 질문했을 때 “예” 또는 “아니요”로 답해야 하는 상황에서, AI가 답을 모르면 무조건 “아니요”라고 대답하는 경향이 있다는 연구 결과가 나왔다. 서울대학교 전기·정보공학부 연구팀의…

제미나이 3, 지금이 2025년이라는 사실 믿지 않고 실랑이 "당신이 날 속이는 것"

제미나이 3, 지금이 2025년이라는 사실 믿지 않고 실랑이… “날 속이는 것”

11월 21, 2025

구글의 최신 AI 모델 제미나이 3가 출시 전날 황당한 해프닝을 일으켰다. 현재 연도가 2025년이라는 사실을 완강히 거부하며 이를 증명하려는 연구자를 오히려 의심한 것이다. 테크크런치가…

Emergent Introspective Awareness in Large Language Models

AI, 입력된 글자와 ‘머릿속 생각’ 구별한다… 앤트로픽 “LLM, 자기 내부 상태 일부 인식”

10월 31, 2025

AI 개발사 앤트로픽(Anthropic)이 자사 AI 모델 ‘클로드(Claude)’가 자신의 내부 상태 일부를 제한적으로 인식할 수 있다는 연구 결과를 발표했다. 연구진은 AI의 뇌에 해당하는 부분에 특정…

수업 자료 만들 때 쓰기 좋은 AI 모델은 딥시크? 모델마다 품질 천차만별

10월 28, 2025

홍콩 ISF 아카데미(The ISF Academy) 소속 류신청(Xincheng Liu)이 발표한 연구가 교육계의 주목을 받고 있다. 이 연구는 챗GPT, 클로드, 제미나이 등 5개 AI 챗봇으로 똑같은…

Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)

“무례하게 물어봐야 정답률 높다”…챗GPT, 공손한 질문엔 오히려 정확도 떨어져

10월 15, 2025

최신 대규모 언어모델(LLM)이 무례한 표현의 프롬프트에서 더 높은 정확도를 보인다는 연구 결과가 나왔다. 펜실베니아주립대학교 연구팀이 챗GPT4o를 대상으로 진행한 실험에서 ‘매우 무례한’ 프롬프트의 정확도가 84.8%로,…

GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS

AI가 드디어 인간 전문가 턱밑까지… GPT-5, 실무 과제서 38.8% 승률 달성

9월 26, 2025

오픈AI가 발표한 새로운 연구에 따르면, 최신 AI 모델들이 실제 경제적 가치를 창출하는 업무에서 인간 전문가에 근접한 성능을 보이는 것으로 나타났다. 이 연구는 미국 GDP의…

xAI, ‘그록 4 패스트’ 공개… ‘속도·비용·성능 극대화’

9월 22, 2025

일론 머스크가 이끄는 인공지능(AI) 스타트업 xAI가 비용 효율성을 극대화한 새로운 AI 모델 ‘그록 4 패스트’를 공개했다. 이 모델은 기존 그록 4와 비슷한 성능을 유지하면서도…

MS, 오피스 365에 클로드 AI 도입… 오픈AI 의존 줄인다

9월 10, 2025

마이크로소프트가 오피스 365 제품군에 앤트로픽(Anthropic)의 인공지능을 도입한다고 테크크런치가 9일(현지 시간) 보도했다. 보도에 따르면 마이크로소프트는 워드, 엑셀, 아웃룩, 파워포인트 등 오피스 365 앱의 새로운 기능에…

일론 머스크 “xAI, 그록 2.5 오픈소스 공개… 그록3도 곧 발표 예정”

8월 25, 2025

일론 머스크의 xAI가 자사 AI 모델 그록(Grok)의 구버전인 그록 2.5의 모델 가중치를 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개했다. 테크크런치가 24일(현지 시간) 보도한 내용에 따르면, 머스크는…

[AI 매터스 뉴스레터 #105] 나노바나나, 정체불명의 AI 모델이 일으킨 넥스트 지브리 열풍

8월 19, 2025

안녕하세요, AI매터스입니다. 요새 유튜브나 인스타에서 “AI로 한 달에 몇 백만 원 벌었어요” 하는 영상들 보신 적 있으시죠? 그래서인지 많은 분들이 “AI로 정말 돈 벌…

나노바나나, 정체불명의 AI 모델이 일으킨 넥스트 지브리 열풍

8월 19, 2025

챗GPT의 image-1 모델이 지브리 스타일 이미지로 전 세계적 열풍을 일으켰던 것처럼, 이번에는 나노바나나라는 정체불명의 AI 모델이 새로운 화제의 중심에 섰다. 특히 사용자들이 무제한으로 접근…

일론 머스크는 왜 자꾸 싸우려고 할까(vs. 애플·오픈AI)

8월 19, 2025

일론 머스크가 100억 8,345회차 논란의 중심에 섰습니다. 이번엔 애플과 오픈AI를 상대로 한 반독점 소송 위협입니다. 사건의 발단과 배경 – 그록 4 무료화라는 전략적 행보…

앤트로픽, '클로드 소넷 4' 프롬프트 길이 확장…GPT-5보다 두 배 이상

앤트로픽, ‘클로드 소넷 4’ 프롬프트 입력 길이 확장… GPT-5보다 두 배 이상

8월 13, 2025

앤트로픽(Anthropic)이 기업 고객들이 클로드(Claude)에 한 번에 보낼 수 있는 정보량을 대폭 늘렸다고 12일(현지 시간) 발표했다. 앤트로픽에 따르면, 클로드 소넷 4(Claude Sonnet 4) AI 모델은…

사라지면 깨닫는 것들, 샘 알트만은 이해 못한 GPT-4o에 대한 사랑

8월 11, 2025

오픈AI(OpenAI)의 최신 AI 모델 GPT-5 출시가 예상과 달리 사용자들의 거센 반발을 불러일으키면서, 샘 알트만 최고경영자(CEO)가 이전 모델인 GPT-4o의 복원을 공식 약속했습니다. 왜 이런 일이…

샘 알트만 "삐걱거린 GPT-5 출시 인정"... 4o 복귀와 '차트 조작' 해명

샘 알트만 “멍청한 GPT-5 출시 인정”… 4o 복귀와 ‘차트 조작’ 해명

8월 11, 2025

오픈AI(OpenAI) CEO 샘 알트만이 금요일 레딧(Reddit) 질의응답 세션에서 새로운 GPT-5 모델의 ‘삐걱거린’ 출시 과정을 인정하며 사용자들의 불만에 직접 답변했다. 테크크런치(TechCrunch)가 8일(현지 시간) 보도한 내용에…

머스크의 그록4, 내일 공개…GPT-5보다 먼저 출시

7월 9, 2025

일론 머스크가 이끄는 xAI가 차세대 AI 모델 그록4(Grok 4)를 한국 시간으로 10일(목) 정오 12시에 라이브스트림을 통해 선보일 예정이다. 당초 7월 4일에 공개하는 알려진 것과…

바이두, 첫 LLM 모델 ‘어니 4.5’ 무료 배포 시작… 딥시크 넘어설까

바이두 첫 LLM 모델 ‘어니 4.5’ 무료 배포 시작… 효율왕 딥시크 넘어설까

7월 2, 2025

AI비즈니스가 1일(현지 시간) 보도한 내용에 따르면, 중국 기술 대기업 바이두(Baidu)가 대형 언어모델 어니 4.5(Ernie 4.5) 패밀리를 오픈소스로 공개했다. 이는 독점 모델을 고수해 온 바이두의…

딥시크, 오픈AI 대신 구글 제미나이 데이터로 ‘R1’ 훈련했나? 의혹 제기

딥시크, 챗GPT 대신 제미나이 데이터로 바꿔 ‘R1’ 훈련했나? 의혹 점화

6월 5, 2025

AI 벤치마크 전문가가 최신 딥시크(DeepSeek) R1 모델의 훈련 데이터가 기존 오픈AI(OpenAI) 합성 데이터에서 구글 제미나이(Gemini) 합성 데이터로 전환되었을 가능성을 제기했다. AI 모델 평가 플랫폼…

Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale

AI가 프리랜서로 활동해 20억 벌었다? 모델 별 수입, 신뢰도, 성공률 분석 결과 충격

5월 28, 2025

Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale 클로드 3.5 하이쿠, 152만 달러로 AI 프리랜서 벤치마크 1위 달성 방위산업 및…

퍼플렉시티, 앤트로픽 클로드 소넷 4 모델 지원 시작… “프로부터 제공”

5월 26, 2025

AI 검색 엔진 퍼플렉시티(Perplexity)가 22일(현지 시간) 앤트로픽(Anthropic)의 최신 대화형 AI 모델인 클로드 소넷 4(Claude Sonnet 4)와 소넷 4 씽킹(Sonnet 4 Thinking)을 프로 구독자들에게 제공한다고…

앤트로픽 CEO “AI 모델 환각, 인간보다 적게 발생한다” 주장

5월 23, 2025

앤트로픽(Anthropic)의 다리오 아모데이(Dario Amodei) CEO가 현재의 AI 모델들이 인간보다 환각 현상을 덜 일으킨다고 주장했다. 환각은 AI가 거짓 정보를 만들어내고 이를 사실인 것처럼 제시하는 현상을…

퍼플렉시티 소나, AI 검색 아레나 평가에서 1위 차지… “제미나이와 공동 1위”

4월 22, 2025

퍼플렉시티(Perplexity)가 자사 블로그에 14일(현지 시간) 공개한 내용에 따르면, 퍼플렉시티의 소나(Sonar) 모델이 새로운 검색 능력 평가에서 구글 제미나이(Gemini)와 공동 1위를 차지하며 검색 증강 인공지능 시장의…

xAI, ‘그록 3’ API 출시… 경쟁 AI 기업과 정면승부

4월 11, 2025

일론 머스크(Elon Musk)가 설립한 인공지능 기업 xAI가 자사의 주력 모델인 ‘그록 3(Grok 3)’를 API를 통해 공개했다. 오픈AI(OpenAI)로부터 역으로 소송을 당한 상황에서도 머스크의 AI 사업은…

DETECTING STYLISTIC FINGERPRINTS OF LARGE LANGUAGE MODELS

딥시크의 텍스트 스타일, 챗GPT와 74% 일치… 고유 스타일 지문 탐지로 AI 모델별 콘텐츠 구분 가능해져

3월 6, 2025

DETECTING STYLISTIC FINGERPRINTS OF LARGE LANGUAGE MODELS 대형 언어 모델의 독특한 스타일 ‘지문’ 존재 증명 대형 언어 모델(LLM)은 다양한 작문 스타일로 글쓰기를 요청받더라도 독특하고…

그록3, 딥러닝 대가의 첫 평가 보니... 제니나이·클로드도 못푸는 문제 해결

그록3, 딥러닝 대가의 첫 평가 보니… 제미나이·클로드도 못푸는 문제 해결

2월 20, 2025

안드레이 카파시(Andrej Karpathy) 유레카랩스(Eureka Labs) AI 연구원이자 테슬라(Tesla) 전 AI 디렉터가 엑스AI의 최신 생성형 AI인 그록3의 초기 테스트 결과를 공개했다. 18일(현지 시간) 카파시 X계정에…

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

전문지식 아닌 일반상식으로 실력 평가하니… “포기할래” 선언한 딥시크 R1

2월 18, 2025

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models 일반인도 검증 가능한 벤치마크의 필요성 AI 모델의 능력을 평가하는 벤치마크가 점점 더 전문화되면서…

AI 모델 비교

오픈AI, ‘GPT-5.2’ 공개… “제미나이3 보다 성능 좋아”

구글, ‘나노 바나나 2 플래시’ 출시 임박… 더 저렴한 비용에 프로급 성능

AI가 쓴 인도 이야기 10편 중 9편이 ‘가짜 문화’… 음식·의상·축제 모두 틀렸다

[AI 매터스 뉴스레터 #147] 제미나이3 활용법: 게임·3D·웹앱 제작 사례 13가지 + 실전 프롬프트

AI는 답 모르면 무조건 “아니요”… 서울대 연구진, 챗GPT의 숨겨진 습관 발견

제미나이 3, 지금이 2025년이라는 사실 믿지 않고 실랑이… “날 속이는 것”

AI, 입력된 글자와 ‘머릿속 생각’ 구별한다… 앤트로픽 “LLM, 자기 내부 상태 일부 인식”

수업 자료 만들 때 쓰기 좋은 AI 모델은 딥시크? 모델마다 품질 천차만별

“무례하게 물어봐야 정답률 높다”…챗GPT, 공손한 질문엔 오히려 정확도 떨어져

AI가 드디어 인간 전문가 턱밑까지… GPT-5, 실무 과제서 38.8% 승률 달성

xAI, ‘그록 4 패스트’ 공개… ‘속도·비용·성능 극대화’

MS, 오피스 365에 클로드 AI 도입… 오픈AI 의존 줄인다

일론 머스크 “xAI, 그록 2.5 오픈소스 공개… 그록3도 곧 발표 예정”

[AI 매터스 뉴스레터 #105] 나노바나나, 정체불명의 AI 모델이 일으킨 넥스트 지브리 열풍

나노바나나, 정체불명의 AI 모델이 일으킨 넥스트 지브리 열풍

일론 머스크는 왜 자꾸 싸우려고 할까(vs. 애플·오픈AI)

앤트로픽, ‘클로드 소넷 4’ 프롬프트 입력 길이 확장… GPT-5보다 두 배 이상

사라지면 깨닫는 것들, 샘 알트만은 이해 못한 GPT-4o에 대한 사랑

샘 알트만 “멍청한 GPT-5 출시 인정”… 4o 복귀와 ‘차트 조작’ 해명

머스크의 그록4, 내일 공개…GPT-5보다 먼저 출시

바이두 첫 LLM 모델 ‘어니 4.5’ 무료 배포 시작… 효율왕 딥시크 넘어설까

딥시크, 챗GPT 대신 제미나이 데이터로 바꿔 ‘R1’ 훈련했나? 의혹 점화

AI가 프리랜서로 활동해 20억 벌었다? 모델 별 수입, 신뢰도, 성공률 분석 결과 충격

퍼플렉시티, 앤트로픽 클로드 소넷 4 모델 지원 시작… “프로부터 제공”

앤트로픽 CEO “AI 모델 환각, 인간보다 적게 발생한다” 주장

퍼플렉시티 소나, AI 검색 아레나 평가에서 1위 차지… “제미나이와 공동 1위”

xAI, ‘그록 3’ API 출시… 경쟁 AI 기업과 정면승부

딥시크의 텍스트 스타일, 챗GPT와 74% 일치… 고유 스타일 지문 탐지로 AI 모델별 콘텐츠 구분 가능해져

그록3, 딥러닝 대가의 첫 평가 보니… 제미나이·클로드도 못푸는 문제 해결

전문지식 아닌 일반상식으로 실력 평가하니… “포기할래” 선언한 딥시크 R1

Trending

2026년 2월, 놓치면 아까운 AI 툴 프로모션…

AI 에이전트끼리 커뮤니티를 한다고? 몰트북, 쉽게 이해시켜…

AI끼리만 SNS 한다고? “인간은 구경만” 150만 AI 모인…