GPQA - AI매터스

GPQA

Why language models hallucinate

오픈AI, 챗GPT가 거짓말하는 이유 직접 밝혀… “훈련-평가 방식이 문제”

9월 8, 2025

챗GPT, 제미나이, 퍼플렉시티 등 생성형 AI가 일상에 널리 퍼지면서 이들이 만들어내는 그럴듯한 거짓 정보 때문에 골치를 앓는 사용자들이 늘고 있다. 특히 최신 AI 모델들조차…

머스크 “그록4, 내년에는 새로운 물리학 발견할 것”… 코딩 전용 모델도 곧 공개

머스크 “그록4, 내년에는 새로운 물리학 발견할 것”… 코딩 전용 모델도 곧 공개

7월 10, 2025

일론 머스크(Elon Musk)의 인공지능 기업 xAI가 9일(현지 시간) 라이브스트림을 통해 차세대 AI 모델 그록-4(Grok-4)와 그록-4 헤비(Grok-4 Heavy)를 공개했다. 이번 발표에서 가장 주목받은 것은 그록-4가…

구글, 제미나이 2.5 프로 업그레이드 버전 프리뷰 공개... “코딩 능력 향상”

“코딩도 AI가”, 구글, 제미나이 2.5 프로 업그레이드 버전 프리뷰 공개

6월 9, 2025

구글이 자사의 가장 지능적인 AI 모델인 제미나이(Gemini) 2.5 프로의 업그레이드된 미리보기 버전을 출시했다고 발표했다. 5일(현지 시간) 구글 키워드 블로그에 발표된 내용에 따르면, 이 모델은…

LIMO: Less is More for Reasoning

추론 모델 훈련에 일반 데이터 10만개보다 고급 데이터 817개가 더 강력… 수학능력 57%↑, 기존 모델의 100배 효율

2월 17, 2025

LIMO: Less is More for Reasoning 817개 학습 데이터로 AIME 57.1% 정확도 달성한 LIMO의 혁신 상하이교통대학교(SJTU) 연구진이 발표한 ‘LIMO: Less is More for Reasoning’…

1
2
3

Trending

"온 디바이스 AI폰의 종결자"…갤럭시 S26, 이제는 'AI 에이전트폰'이다

“온 디바이스 AI폰의 종결자”…갤럭시 S26, 이제는 ‘AI…

이종철 수석 에디터 3월 9, 2026

AI가 만든 코드, AI가 검수한다…앤트로픽, 코드 리뷰 툴 정식 출시

AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽,…

이시안 에디터 3월 10, 2026

챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다

챗GPT 사용자 2293만 명, 그록 AI는 출시…

이시안 에디터 3월 10, 2026