추론최적화

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

메타, 기존 통념 뒤집는 연구 결과 공개… “추론 시간 짧으면 LLM 정확도 34.5% 향상”

6월 2, 2025

Don’t Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning 기존 통념을 뒤집는 발견: 짧은 추론이 34.5% 더 정확 복잡한 수학 문제를 해결하는…

Lower Latency and Higher Throughput with Multi-Node DeepSeek Deployment

AI 응답 지연 없앤 퍼플렉시티, 처리량 8배 높인 멀티노드 기술 공개

4월 22, 2025

Lower Latency and Higher Throughput with Multi-Node DeepSeek Deployment 8개 A100 GPU로 지연시간 20% 단축, 처리량 8배 증가한 퍼플렉시티의 멀티노드 전략 퍼플렉시티(Perplexity)가 멀티노드 환경에서…

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

AI 모델의 추론 단계 최적화로 모델 크기 확장보다 더 나은 성능 달성 가능

10월 23, 2024

대규모 언어 모델(Large Language Model, LLM)의 성능을 향상시키기 위해 지금까지는 주로 모델의 크기를 키우는 방식이 사용되어 왔다. GPT-4나 PaLM과 같은 거대 언어 모델들은 수천억…

생성형 AI의 추론 능력, 테스트 시 연산 최적화로 크게 향상

8월 28, 2024

생성형 AI 모델의 추론 능력을 높이는 방법으로 모델 크기를 키우는 것 외에도 추론 시 연산을 최적화하는 방법이 주목받고 있다. 최근 연구에 따르면, 테스트 시…