LLM성능 - AI매터스

LLM성능

그록, 챗GPT 제치고 LLM 성능 1위… 2, 3위는 챗GPT 모델

그록, 챗GPT 제치고 LLM 성능 1위… 2· 3위는 챗GPT o3·o4 모델

8월 7, 2025

일론 머스크의 xAI가 개발한 그록(Grok) 모델이 최신 AI 성능 평가에서 68점을 기록하며 1위를 차지했다고 아티피셜 애널리시스(Artificial Analysis)가 발표했다. 아티피셜 애널리시스 인텔리전스 인덱스(Artificial Analysis Intelligence…

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

메타, 기존 통념 뒤집는 연구 결과 공개… “추론 시간 짧으면 LLM 정확도 34.5% 향상”

6월 2, 2025

Don’t Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning 기존 통념을 뒤집는 발견: 짧은 추론이 34.5% 더 정확 복잡한 수학 문제를 해결하는…

LLMs Get Lost In Multi-Turn Conversation

AI, 대화가 길어질수록 성능 급락… “답변 한 번 잘못 나오면 계속 잘못된 방향으로 답변해”

5월 21, 2025

LLMs Get Lost In Multi-Turn Conversation 대화가 길어질수록 39% 성능 급락: 최신 AI도 피해가지 못하는 ‘대화 길 잃기’ 현상 대형 언어 모델(LLM)들이 다중 대화(multi-turn…

1
2
3

Trending

구글, 이미지 생성 모델 '나노 바나나(Nano Banana) 2' 공개…4K 해상도에 속도까지 잡았다

구글, 이미지 생성 모델 ‘나노 바나나 2’…

이종철 수석 에디터 2월 27, 2026

제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다... 한국서도 적용

제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다……

이종철 수석 에디터 2월 26, 2026

갤럭시 S26 AI 기능, 갤럭시에서 아이폰의 향기가 난다

갤럭시 S26 AI 기능, 갤럭시에서 아이폰의 향기가…

이종철 수석 에디터 2월 26, 2026

LLM성능 - AI매터스