신비로운 AI 이미지 생성 모델 ‘나노 바나나(Nano Banana)’가 압도적인 성능으로 AI 전문가들 사이에서 큰 화제를 모으고 있다. 이 정체불명 모델의 배후에 구글(Google)이 있다는 추측이…
오픈AI(OpenAI) CEO 샘 알트만이 금요일 레딧(Reddit) 질의응답 세션에서 새로운 GPT-5 모델의 ‘삐걱거린’ 출시 과정을 인정하며 사용자들의 불만에 직접 답변했다. 테크크런치(TechCrunch)가 8일(현지 시간) 보도한 내용에…
앤트로픽(Anthropic)이 5일(현지 시간) 클로드 오푸스 4.1(Claude Opus 4.1)을 출시했다고 발표했다. 이번 업그레이드는 에이전틱 작업, 실제 코딩, 추론 능력에서 기존 클로드 오푸스 4 대비 상당한…
오픈AI(OpenAI)가 8월 5일(현지시간) 오픈소스 언어모델 ‘gpt-oss-120b’와 ‘gpt-oss-20b’를 공개했다. 이는 GPT-2 이후 오픈AI가 내놓은 첫 번째 오픈 웨이트 언어모델이다. 두 모델은 아파치 2.0 라이선스(Apache 2.0…
구글이 자사의 가장 지능적인 AI 모델인 제미나이(Gemini) 2.5 프로의 업그레이드된 미리보기 버전을 출시했다고 발표했다. 5일(현지 시간) 구글 키워드 블로그에 발표된 내용에 따르면, 이 모델은…
허깅페이스(Hugging Face)가 로봇공학을 위한 경량 오픈소스 비전-언어-액션(Vision-Language-Action) 모델 ‘스몰VLA(SmolVLA)’를 3일(현지 시간) 공개했다. 허깅페이스 블로그에 공개된 내용에 따르면, 스몰VLA-450M은 4억 5천만 개의 매개변수를 가진 컴팩트한…
Introducing the OECD AI Capability Indicators 5년 연구 끝에 탄생한 AI 능력 평가의 글로벌 표준 경제협력개발기구(OECD)가 인공지능(AI) 능력을 체계적으로 측정할 수 있는 종합 프레임워크를…
28일(현지 시간) 중국 기술기업 알리바바가 새로운 AI 모델 패밀리 ‘큐웬3(Qwen3)’를 공개했다. 플래그십 모델 ‘큐웬3-235B-A22B’는 코딩, 수학, 일반 능력 등의 벤치마크에서 딥시크-R1(DeepSeek-R1), o1, o3-mini, 그록-3(Grok-3),…
일론 머스크(Elon Musk)가 설립한 인공지능 기업 xAI가 자사의 주력 모델인 ‘그록 3(Grok 3)’를 API를 통해 공개했다. 오픈AI(OpenAI)로부터 역으로 소송을 당한 상황에서도 머스크의 AI 사업은…
Position: Levels of AGI for Operationalizing Progress on the Path to AGI 챗GPT는 시작에 불과했다: 구글 딥마인드가 밝힌 인공지능의 5단계 발전 로드맵 인공일반지능(Artificial General…
오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이 평가에서 오픈AI의 자체 모델이 아닌 경쟁사…
테크크런치가 25일(현지 시간) 보도한 내용에 따르면, A앤트로픽(Anthropic)의 인공지능 비서 ‘클로드(Claude)’가 포켓몬 레드 게임에 도전하고 있다. 느린 속도로 진행되지만, 현대 AI 기술의 능력과 이에 대한…
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling 테스트 시간 확장이 작은 언어 모델의 성능을 비약적으로 향상 테스트 시간 확장(Test-Time Scaling, TTS)은…
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models 일반인도 검증 가능한 벤치마크의 필요성 AI 모델의 능력을 평가하는 벤치마크가 점점 더 전문화되면서…
CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction 수학·코드 넘어선 AI 추론력 강화의 새 길 제시 딥시크AI(DeepSeek-AI)의 연구에 따르면, 대규모 언어모델(LLM)의 추론 능력을 향상시키기…
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs 스탠포드 대학교 연구진이 발표한 논문 “차이를 인식하는 공정성: LLM에서 집단 간 차별의 측정”에 따르면,…
테크크런치가 20일(현지 시간)에 보도한 내용에 따르면, 중국의 인공지능 연구소 딥시크(DeepSeek)가 자사의 추론 AI 모델 ‘딥시크-R1(DeepSeek-R1)’을 공개했다. 이 모델은 특정 AI 벤치마크에서 오픈AI(OpenAI)의 O1 모델을…
테크 미디어 CIO 코리아에 따르면, 오픈AI(OpenAI)의 샘 알트만(Sam Altman) CEO가 인공일반지능(AGI) 개발 여부를 두고 상반된 발언을 해 혼선이 커지고 있다. 알트만 CEO는 소셜미디어 X(구…
생성형 인공지능(Generative AI)은 텍스트, 이미지, 영상, 오디오 등 새로운 콘텐츠를 생성하는 기술로, 최근 몇 년간 급격한 발전을 이루며 다양한 산업에 혁신을 가져왔다. 특히 대형…
인공지능 대형언어모델의 한국어 능력을 평가하는 ‘수능 국어 LLM 리더보드’가 공개됐다. 평가 결과 ‘o1-프리뷰’ 모델이 97점으로 1등급을 기록하며 주목받고 있다. 이번 리더보드는 한국교육과정평가원(KICE)이 개발한 최근…
일리노이 대학교 어바나-샴페인과 마이크로소프트 연구소가 공동 개발한 MEGA-BENCH가 AI 모델 평가 방식에 혁신을 가져올 것으로 기대를 모으고 있다. MEGA-BENCH는 500개 이상의 다양한 실제 작업을…
일리노이 대학교 어바나-샴페인과 몬트리올 대학교 연구진이 개발한 AFLOW(Automating Agentic Workflow Generation)가 대규모 언어 모델(LLM)의 활용 방식을 혁신적으로 개선할 가능성을 보여주고 있다. AFLOW는 복잡한 작업을…