Is there a half-life for the success rates of AI agents? 7개월마다 AI 작업 능력 2배 증가…옥스포드 연구팀이 발견한 수학적 모델 연구기관 메트(METR)의 과학자들이…
Risks from Language Models for Automated Mental Healthcare: Ethics and Structure for Implementation 미국 정신과 의사 20% 미만만 신규 환자 수용, AI가 의료 공백…
Assessing the Potential of Generative Agents in Crowdsourced Fact-Checking 오늘날 소셜미디어를 통해 허위정보가 빠르게 확산되는 상황에서 효과적인 팩트체킹 방법은 그 어느 때보다 중요해졌다. 최근…
SYNTACTIC AND SEMANTIC CONTROL OF LARGE LANGUAGE MODELS VIA SEQUENTIAL MONTE CARLO SMC 기술로 언어 모델 정밀 제어, 구문적·의미적 제약 준수하며 텍스트 생성 가능해져…
Taking AI Welfare Seriously 과학계, AI 의식 가능성 인정… 앤트로픽과 구글 등 주요 기업도 준비 시작 인공지능(AI) 시스템이 가까운 미래에 의식을 가지거나 강력한 주체성을…
언어 혁명: AI로 비즈니스 커뮤니케이션을 혁신하는 방법 경영진 72%가 AI 도입 계획, 언어 장벽 해소의 해법으로 주목받는 언어 AI 글로벌 비즈니스 환경에서 언어 장벽은…
Grok 3 vs ChatGPT: We Compared The Two AI Models and Here Are The Results 그록 3의 수학적 추론 능력, 챗GPT보다 14% 우수 그록…
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance 프롬프트의 예절 수준에 따라 LLM 성능 차이 최대…
Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions 궁금했던 AI의 가치관: 30만 건 실제 대화 분석으로 최초 밝혀내 일상적인…
Copyleaks Research Identifies 74.2% Stylistic Overlap Between DeepSeek-R1 and OpenAI’s Model 74.2% 일치율: 텍스트 지문 분석으로 밝혀진 AI 모델 간 의존성 카피릭스(Copyleaks)가 혁신적인 AI…
Generative propaganda: Evidence of AI’s impact from a state-backed disinformation campaign 러시아 연계 선전 사이트, AI 도입 후 허위정보 생산 2.4배 증가 생성형 AI…
AI 50 모델 개발에서 응용 중심으로: 챗GPT 이후 AI 기업들 연 1억 달러 매출 달성 챗GPT 출시 이후 2년이 지난 지금, 인공지능은 벤처 캐피털과…
Inference-Time Scaling for Generalist Reward Modeling 27배 더 작은 AI가 더 많이 ‘생각’하면 대형 모델을 이긴다: 추론 시간 확장성의 원리 대규모 언어 모델(LLM, Large…
Text2Robot: Evolutionary Robot Design from Text Descriptions 몇 분 만에 설계, 하루 만에 걷는 로봇 제작… Text2Robot의 혁신적 접근법 로봇 설계는 반세기 이상 비용이…
A unified acoustic-to-speech-to-language embedding space captures the neural basis of natural language processing in everyday conversations 100시간 일상 대화 기록으로 밝혀낸 뇌와 AI의 처리…
What AIs are not learning (and why) 현재 AI, 사람 돕는 일에는 턱없이 부족하다 로봇과 인공지능(AI)의 진보는 가시적인 기술적 성과를 내고 있지만, 정작 인간을…
Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs 기존 평가 방식, AI의 ‘문화 정렬’을 왜곡할 수 있다 대형 언어 모델(LLM)의 문화적…
One-Minute Video Generation with Test-Time Training AI 영상의 한계는 20초? ‘TTT’는 1분짜리 복잡한 이야기까지 가능했다 기존의 생성형 AI는 몇 초 길이의 단편 영상만 생성할…
“Always check important information!” – The role of disclaimers in the perception of AI-generated content 56%만 알고 있다: 생성형 AI의 취약점과 현행 면책 조항의…
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models GPT-4, 저작권 소설 기억률 82%… “저작물 무단 사용” 논란에 새 증거 대규모 언어…
Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로 드러나 최근 대형 언어 모델(LLM)의 진화…
Large Language Models Pass the Turing Test GPT-4.5, 73% 성공률로 실제 인간 참가자보다 더 인간답게 평가받아 캘리포니아 샌디에이고 대학(UC San Diego)의 연구팀이 최신 대규모…
Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs 신뢰를 조작하는 적대적 AI: 팀 성과 최대 30% 저하시킨 연구 결과…
BanglAssist: A Bengali-English Generative AI Chatbot for Code-Switching and Dialect-Handling in Customer Service 3억 명의 벵골어 사용자를 위한 AI: 벵골어-영어 혼합어 처리하는 혁신 기술…
Multilingual Business Strategies and AI Adoption: Insights from Global Enterprises in 2025 기업 내 AI 번역 도구 사용 확산… 이미 33.8%가 내부 번역에 AI…
Tracing the thoughts of a large language model 뇌과학에서 영감 받은 ‘AI 현미경’: 클로드의 사고를 수십억 계산에서 추적해내다 앤트로픽(Anthropic)이 대규모 언어 모델인 클로드(Claude)의 내부…
Investigating Affective Use and Emotional Well-being on ChatGPT AI 챗봇 과도 사용자들, 정서적 의존 신호 보여 오픈AI와 MIT 미디어 랩이 공동으로 수행한 대규모 연구에…
Assessing and alleviating state anxiety in large language models 감정 프롬프트가 LLM 불안 100% 증가시키는 현상 발견 대형 언어 모델(Large Language Models, LLMs)이 정신…
EXPLORING BIAS IN OVER 100 TEXT-TO-IMAGE GENERATIVE MODELS 시간이 흐를수록 개선되는 기초 모델, 더 편향되는 예술 모델 텍스트-투-이미지(Text-to-Image, T2I) 생성 모델은 고품질 이미지를 합성할…
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation 강력한 AI 모델의 ‘생각 과정’ 모니터링, 95% 정확도로 AI 오용 감지 최근 OpenAI…