추론최적화

Lower Latency and Higher Throughput with Multi-Node DeepSeek Deployment

AI 응답 지연 없앤 퍼플렉시티, 처리량 8배 높인…

4월 22, 2025

Lower Latency and Higher Throughput with Multi-Node DeepSeek Deployment 8개 A100 GPU로 지연시간 20% 단축, 처리량 8배 증가한…

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

AI 모델의 추론 단계 최적화로 모델 크기 확장보다…

10월 23, 2024

대규모 언어 모델(Large Language Model, LLM)의 성능을 향상시키기 위해 지금까지는 주로 모델의 크기를 키우는 방식이 사용되어 왔다. GPT-4나…

생성형 AI의 추론 능력, 테스트 시 연산 최적화로…

생성형 AI의 추론 능력, 테스트 시 연산 최적화로…

8월 28, 2024

생성형 AI 모델의 추론 능력을 높이는 방법으로 모델 크기를 키우는 것 외에도 추론 시 연산을 최적화하는 방법이 주목받고…

추론최적화 – AI 매터스 l AI Matters