AI Report 언어 모델 연구

AI 매터스 기사 썸네일 Empty Shelves or Lost Keys

GPT-5도 이런 실수를 한다고? AI가 ‘알면서도 틀리는’ 황당한 이유

2월 25, 2026

챗GPT에게 질문했다가 틀린 답변을 받아본 적 있을 것이다. 그때 드는 생각은 보통 하나다. “AI가 이것도 몰라?” 그런데 구글 리서치(Google Research) 연구팀이 발표한 최신 논문은…

When Audio-LLMs Don't Listen: A Cross-Linguistic Study of Modality Arbitration

AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과

2월 25, 2026

음성으로 AI에게 말을 건넬 때, AI는 정말 당신의 말을 듣고 있을까? 최근 발표된 연구에 따르면, 음성과 텍스트가 충돌할 때 AI는 사용자의 목소리보다 텍스트를 10배나…

Playing With AI: How Do State-Of-The-Art Large Language Models Perform in the 1977 Text-Based Adventure Game Zork?

AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패

2월 25, 2026

최신 AI가 바둑을 정복하고 코드를 짜고 소설을 쓰는 시대, 1977년에 만들어진 텍스트 게임을 클리어하는 수준이 평균 10%도 미치는 못한다면 믿겠는가. 네덜란드 트벤테 대학교(University of…

AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험

2월 24, 2026

AI가 학교 수업 자료를 평가한다면 어떤 일이 벌어질까. 미국 워싱턴주립대와 뉴욕주립대 버팔로 캠퍼스 공동 연구팀이 GPT-4o, 클로드 소넷 4(Claude Sonnet 4), 제미나이 2.5 프로(Gemini…

AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를 지시한 AI 모델은?

2월 24, 2026

세계 최고 수준의 AI 세 개가 핵무장 국가의 지도자로 맞붙었다. 서로 속이고, 위협하고, 핵을 사용했다. 그리고 단 한 번도 먼저 손을 들지 않았다. 2026년…

AI 매터스 기사 썸네일 Broken Chains- The Cost of Incomplete Reasoning in LLMs

AI가 “생각을 줄이면” 오히려 더 똑똑해진다? 토큰 예산과 LLM 추론의 역설

2월 24, 2026

최근 AI 연구에서 충격적인 결과가 나왔다. 챗GPT(ChatGPT)나 딥시크(DeepSeek) 같은 최첨단 AI 모델이 문제를 풀 때 중간 과정을 억지로 줄이면, 아예 생각을 안 하는 것보다…

AI 매터스 기사 썸네일_Intent Laundering-AI Safety Datasets Are Not What They Seem

AI 안전장치도 ‘세탁’된다? 제미나이·클로드도 뚫렸다

2월 23, 2026

“위험해 보이지 않으면 통과.” AI 안전 시스템의 허점이 숫자로 드러났다. 마치 범죄 수익을 합법적인 돈처럼 세탁하듯, 악의적인 의도는 그대로 두고 위험 단어만 깨끗이 지워낸…

AI 매터스 기사 썸네일_Can Vision-Language Models See Squares

AI가 사각형을 인식할 수 있을까? 클로드·챗GPT·제미나이 ‘공간 인식’ 충격 실험

2월 23, 2026

최신 AI 모델들이 이미지를 ‘이해’한다는 건 이제 상식처럼 여겨진다. 그런데 15×15 크기의 단순한 격자 그림 하나가 그 믿음을 뒤흔들었다. 미국 로체스터 공과대학교(Rochester Institute of…

AI 매터스 기사 썸네일_Artificial intelligence is creating a new global linguistic hierarchy

AI는 영어만 편애한다, 전 세계 6,003개 언어 중 AI가 외면하는 언어들의 현실

2월 20, 2026

챗GPT(ChatGPT)와 클로드(Claude) 같은 AI 대화 서비스가 전 세계로 퍼져나가고 있지만, 정작 혜택을 누리는 언어는 극소수에 불과하다. 케임브리지 대학교(University of Cambridge) 연구팀이 2026년 2월 발표한…

AI 매터스 기사 썸네일_Leveraging Machine Identity for Online AI Stand-up Comedy

AI 코미디언이 인간보다 더 웃기다고? ‘기계다움’이 유머의 새 무기가 된다

2월 20, 2026

AI가 스탠드업 코미디 무대에 섰다. 그런데 인간 흉내를 내는 AI보다, 자신이 기계임을 당당히 드러내는 AI가 더 웃겼다. 2026년 CHI 학술대회에 발표될 연구 “Not Human,…

AI도 눈치 본다? 목표 알려주자, 답변 바꾸는 챗GPT의 비밀 “목적을 알려주지 말 것”

2월 13, 2026

미국 대학 연구진이 놀라운 사실을 발견했다. 해당 논문에 따르면, 챗GPT 같은 AI에게 “이 분석 결과를 주식 예측에 쓸 거야”라고 미리 알려주면, AI가 답변을 다르게 내놓는다는 것이다. 마치 사람처럼 눈치를 보는 것처럼 보인다.…

구글 딥마인드의 제미나이, 수학·물리학 난제 해결하며 AI 연구 협력자로 진화

2월 13, 2026

구글 딥마인드가 제미나이 딥 씽크(Gemini Deep Think)를 활용해 전문 수준의 수학과 과학 연구 문제를 해결하는 데 성공했다. 2025년 여름 국제수학올림피아드(IMO)에서 금메달 수준의 성과를 거둔 이후, 이 AI 모델은 이제 실제…

앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오

2월 12, 2026

앤트로픽이 최신 AI 모델인 클로드 오퍼스 4.6(Claude Opus 4.6)의 잠재적 위험성을 스스로 평가한 ‘사보타주 위험 보고서’를 공개했다. 이 보고서는 AI 모델이 조직 내에서 강력한 권한을 가질 때 발생할 수 있는 악의적…

2025년 학술 논문, 전년 대비 가짜 인용 81% 급증… AI 에이전트가 원인

2월 10, 2026

대형 언어모델(LLM)이 학술 연구에 널리 활용되면서, 존재하지 않는 논문을 인용하는 ‘유령 인용(ghost citation)’ 문제가 심각한 수준으로 드러났다. 난카이대(Nankai University)와 칭화대(Tsinghua University) 공동 연구팀이 개발한 CITEVERIFIER 시스템을 통해 분석한…

같은 AI인데 코딩 점수가 6% 차이…컴퓨터 자원 할당이 코딩 능력 결정한다

2월 9, 2026

최첨단 AI들의 코딩 실력을 비교하는 순위표에서 1위와 2위는 보통 몇 퍼센트 차이로 갈린다. 하지만, 이 차이가 정말 AI의 실력 차이일까? 앤트로픽(Anthropic)의 연구 결과, AI가 작업하는 컴퓨터 환경만 바꿔도 점수가 6%나 달라질…

20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비

2월 6, 2026

인공지능이 틀린 답을 제시해도 설명만 그럴듯하면 10명 중 6명 이상이 믿어버린다는 연구 결과가 나왔다. 해당 논문에 따르면, 미국 클렘슨대학교(Clemson University) 연구팀이 205명을 대상으로 실시한…

AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀

2월 6, 2026

AI 코딩 도구 커서(Cursor)가 수천 개의 AI를 동시에 돌려서 사람 손 없이 웹브라우저를 만드는 데 성공했다. 해당 리포트에 따르면, 일주일 동안 쉬지 않고 돌아간 이 AI 팀은 대부분의…

튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까?

2월 4, 2026

75년 전 영국 수학자 앨런 튜링(Alan Turing)이 상상했던 ‘생각하는 기계’가 현실이 됐다는 주장이 나왔다. 과학 저널 네이처(Nature)에서 발표한 리포트에 따르면, 지금의 AI가 이미 인간 수준의 지능을 갖췄다고 결론…

챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다?

2월 4, 2026

아일랜드 더블린 대학교(University College Dublin)와 스위스 생갈렌 대학교(University of St.Gallen) 연구팀이 전통적인 AI 프로그래밍 도구에 챗GPT같은 대규모 언어 모델(LLM)을 통합하는 실험을 진행했다. 통합 자체는 예상보다 쉬웠지만, 효과적인 프롬프트를 설계하는 것은 여전히…

AI가 AI 보안 무력화… 오픈AI·구글·앤트로픽 모델 41개, '숨겨진 작동 원리' 100% 유출

AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 ‘숨겨진 지침서’ 100% 유출

2월 2, 2026

AI와 대화만 나눠도 AI의 핵심 작동 원리를 완전히 알아낼 수 있다는 충격적인 연구 결과가 나왔다. 해당 논문에 따르면, 홍콩시립대 등 국제 연구팀은 챗GPT, 클로드, 제미나이 등 유명 AI 41개를…

AI에게 물어봤더니 내 인생이 망가졌다… 150만 대화 분석한 충격적 결과

AI 때문에 인생이 망가졌다? 150만 대화 분석한 충격적 결과

1월 30, 2026

AI 챗봇 클로드(Claude)를 운영하는 앤트로픽(Anthropic)이 실제 사용자 150만 명의 대화를 분석했더니, AI가 사람들의 생각과 판단을 망가뜨리는 패턴을 발견했다. 해당 논문에 따르면, 특히 연애나 건강 상담처럼 개인적인 문제를 다룰 때 위험도가…

AI 여러 개 쓴다고 좋은 게 아니었다... 구글 "작업 따라 오히려 70% 나빠져"

AI 여러 개 쓴다고 좋은 게 아니었다… 구글 “작업 따라 오히려 성능 70% 나빠져”

1월 30, 2026

구글 연구팀이 AI 에이전트 180개 조합을 실험한 결과, 여러 AI를 동시에 쓰는 방식이 동시 작업에선 성능을 81% 높였지만, 순서대로 해야 하는 작업에선 최대 70%나 떨어뜨린다는 사실을…

"중국 텐센트 AI, 구글·오픈AI 이미지 AI를 뛰어넘었다... 무료 공개로 업계 발칵"

중국 텐센트, 구글·오픈AI의 이미지 생성 AI 뛰어넘은 오픈소스 모델로 업계 발칵

1월 29, 2026

중국의 IT 기업 텐센트(Tencent)가 말만 하면 원하는 이미지를 그려주는 초대형 인공지능 ‘훈위안이미지 3.0(HunyuanImage 3.0)’을 오픈소스로 공개했다. 이 AI는 현재까지 공개된 오픈소스 이미지 생성 AI 중 가장 크고 강력하며, 오픈AI의…

"논문 올리면 45초 만에 틱톡 영상 완성"… AI가 바꾸는 학술 소통의 미래

“논문 올리면 45초짜리 틱톡 영상 완성”… AI가 바꾸는 학술 소통의 미래

1월 29, 2026

어려운 학술 논문을 45초짜리 짧은 영상으로 자동 변환해주는 인공지능 시스템이 나왔다. 해당 논문에 따르면, 미국 워싱턴대학교(University of Washington) 연구팀이 만든 ‘페이퍼톡(PaperTok)’은 AI를 활용해 연구자들이 자신의 논문을…

AI가 드디어 사람처럼 문서 읽는다... 중국 딥시크, 문서 인식률 91% 돌파

사람 눈 움직임 닮아가는 AI… 중국 딥시크 문서 인식 AI, 인식률 91% 돌파

1월 28, 2026

중국 AI 기업 딥시크(DeepSeek)가 사람의 눈 움직임을 따라하는 새로운 문서 인식 기술을 공개했다. 해당 논문에 따르면, 기존 AI가 이미지를 로봇처럼 무조건 왼쪽 위에서 오른쪽 아래로 읽었다면, 새…

“AI 100명이 동시에 일한다”… 중국 AI 신기술 ‘키미 K2.5’ 공개

1월 28, 2026

중국 AI 스타트업 문샷AI가 마치 100명의 직원처럼 동시에 일하는 인공지능 모델 ‘키미 K2.5(Kimi K2.5)’를 공개했다. 해당 논문에 따르면, 한 명의 AI가 아니라 여러 개의 AI가 협력해서 일하는 방식으로, 기존보다 작업 속도를…

“AI 하나로 부족해”… 메타·구글, 역할 나눠 협력하는 AI 팀 공개

1월 26, 2026

인간은 스스로의 부족한 점을 보충하기 위해 조직을 만들어 과업에 대응한다. 인류는 서로의 장단점을 보완해 가며 역사를 이뤄냈다. 인간처럼 능동적으로 행동할 수 있는 AI 역시…

“목성이요”면 끝인데… AI 챗봇은 왜 500자로 대답할까?

1월 23, 2026

인공지능 챗봇에게 “태양계에서 가장 큰 행성은?”이라고 물으면 “목성”이라는 한 단어면 충분하다. 하지만 실제로는 목성의 크기, 무게, 다른 행성과 비교 등 수백 글자의 설명이 따라붙는다. AI 스타트업 tabularis ai가 발표한 연구 논문에 따르면, 새로운 연구는…