구글 클라우드(Google Cloud)가 20일(현지 시간) 자사 블로그에 발표한 내용에 따르면, 구글 클라우드가 엔비디아(NVIDIA) GB200 NVL72를 탑재한 A4X VM(가상머신)을 프리뷰로 공개했다. 이는 AI 추론 모델의 성능을 획기적으로 향상시키는 새로운 인프라 솔루션이다.A4X VM은 72개의 엔비디아 블랙웰(Blackwell) GPU와 36개의 ARM 기반 엔비디아 그레이스(Grace) CPU로 구성됐다. 이 시스템은 5세대 엔비디아 엔브이링크(NVLink)로 연결되어 있어 대규모 데이터셋과 컨텍스트 윈도우를 처리할 수 있다.
구글 클라우드는 현재 엔비디아 B200 GPU를 탑재한 A4 VM과 GB200 NVL72를 탑재한 A4X VM을 모두 제공하는 유일한 클라우드 서비스 제공업체다.
A4X VM은 72개의 블랙웰 GPU를 단일 컴퓨팅 유닛으로 통합해 공유 메모리와 고대역폭 통신을 실현했다. 엔비디아 그레이스 CPU는 블랙웰 GPU와 직접 연결되어 체크포인팅과 모델 상태 관리의 효율성을 높였다. 특히 이번 시스템은 기존 A3 VM과 비교해 LLM 학습 성능이 4배 향상됐으며, RDMA over Converged Ethernet(RoCE) 기술을 적용한 고성능 네트워킹으로 수만 개의 GPU까지 확장할 수 있다.
구글 클라우드는 A4X VM을 위한 독자적인 인프라 환경을 구축했다. 하이퍼컴퓨트 클러스터(Hypercompute Cluster)를 통해 대규모 VM을 효율적으로 관리하며, 타이타늄 ML(Titanium ML) 네트워크 어댑터를 도입해 28.8Tbps의 GPU 간 트래픽을 처리한다. 또한 3세대 액체 냉각 시스템을 적용해 안정적인 성능을 유지하고, 파이토치(PyTorch)와 잭스(JAX) 같은 주요 프레임워크와의 최적화된 호환성을 제공한다.
매직(Magic)의 에릭 스타인버거(Eric Steinberger) CEO는 “구글 클라우드의 A4X VM은 우리의 모델 추론과 학습 효율성을 크게 향상시킬 것”이라고 평가했다.
해당 기사의 원문은 링크에서 확인할 수 있다.
이미지 출처: 구글
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기