Search

LLM성능

그록, 챗GPT 제치고 LLM 성능 1위… 2, 3위는 챗GPT 모델

그록, 챗GPT 제치고 LLM 성능 1위… 2· 3위는 챗GPT o3·o4 모델

8월 7, 2025

일론 머스크의 xAI가 개발한 그록(Grok) 모델이 최신 AI 성능 평가에서 68점을 기록하며 1위를 차지했다고 아티피셜 애널리시스(Artificial Analysis)가 발표했다. 아티피셜 애널리시스 인텔리전스 인덱스(Artificial Analysis Intelligence…

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

메타, 기존 통념 뒤집는 연구 결과 공개… “추론 시간 짧으면 LLM 정확도 34.5% 향상”

6월 2, 2025

Don’t Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning 기존 통념을 뒤집는 발견: 짧은 추론이 34.5% 더 정확 복잡한 수학 문제를 해결하는…

LLMs Get Lost In Multi-Turn Conversation

AI, 대화가 길어질수록 성능 급락… “답변 한 번 잘못 나오면 계속 잘못된 방향으로 답변해”

5월 21, 2025

LLMs Get Lost In Multi-Turn Conversation 대화가 길어질수록 39% 성능 급락: 최신 AI도 피해가지 못하는 ‘대화 길 잃기’ 현상 대형 언어 모델(LLM)들이 다중 대화(multi-turn…

LLM성능 보관 - AI매터스