Don’t Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning 기존 통념을 뒤집는 발견: 짧은 추론이 34.5% 더 정확 복잡한 수학 문제를 해결하는…
Lower Latency and Higher Throughput with Multi-Node DeepSeek Deployment 8개 A100 GPU로 지연시간 20% 단축, 처리량 8배 증가한 퍼플렉시티의 멀티노드 전략 퍼플렉시티(Perplexity)가 멀티노드 환경에서…
대규모 언어 모델(Large Language Model, LLM)의 성능을 향상시키기 위해 지금까지는 주로 모델의 크기를 키우는 방식이 사용되어 왔다. GPT-4나 PaLM과 같은 거대 언어 모델들은 수천억…
생성형 AI 모델의 추론 능력을 높이는 방법으로 모델 크기를 키우는 것 외에도 추론 시 연산을 최적화하는 방법이 주목받고 있다. 최근 연구에 따르면, 테스트 시…