“같은 AI 작업인데 지역 따라 탄소배출 15배 차이” 연구진이 밝혀낸 충격적 진실

WattsOnAI: Measuring, Analyzing, and Visualizing Energy and Carbon Footprint of AI Workloads
이미지 출처: 이디오그램 생성

WattsOnAI: Measuring, Analyzing, and Visualizing Energy and Carbon Footprint of AI Workloads


홍콩과기대(광저우), 빅토리아대학교, 국방기술대학교 등 국제 공동 연구진이 AI 워크로드의 환경 영향을 체계적으로 측정하고 분석하기 위한 종합적인 소프트웨어 툴킷을 개발했다고 발표했다. 이 연구는 급속히 발전하는 AI 기술의 지속가능성 문제를 해결하고 ‘Green AI’ 실천을 촉진하기 위한 목적으로 진행되었다.

현대 LLM 훈련, 소도시 연간 전력 사용량 수백 메가와트시 소모

해당 연구 논문에 따르면, 대규모 언어 모델(LLM)의 급속한 발전과 함께 AI 분야의 에너지 소비와 탄소배출 문제가 심각한 우려사항으로 대두되고 있다. 최신 대규모 언어 모델들의 훈련 과정에서는 수백 메가와트시의 전력이 소모되며, 이는 소도시 한 곳의 연간 전력 사용량과 맞먹는 수준이다. GPT-4, PaLM, LLaMA와 같은 수천억 개 또는 수조 개의 매개변수를 가진 모델들이 대규모 GPU 클러스터를 사용해 방대한 데이터셋으로 훈련되면서 환경적, 경제적 비용이 크게 증가하고 있다.

상업적 배포와 웹 스케일 운영 환경에서의 LLM 추론 과정 또한 시간이 지날수록 에너지 사용량을 더욱 가중시키고 있다. 이러한 상황은 전 지구적 탈탄소화 목표와 자원 제약적 인프라 환경에서 AI의 지속가능성에 대한 시급한 우려를 불러일으키고 있다. 단일 LLM 아키텍처 탐색이나 미세 조정 실험 하나만으로도 수천 달러의 클라우드 컴퓨팅 비용이 발생할 수 있으며, 이 중 상당 부분이 에너지 집약적인 GPU 사용에 기인한다.

NVIDIA-SMI, DCGM 등 기존 도구들의 탄소배출 측정 한계점

현재 AI 연구 커뮤니티는 주로 정확성, 확장성, 지연시간 개선에 집중하고 있으며, 에너지와 탄소발자국은 부차적으로 취급되거나 완전히 무시되고 있다. 이러한 접근 방식은 실용적, 경제적, 윤리적 결과를 초래한다. 특히 EU의 기업 지속가능성 보고 지침과 같은 지속가능성 보고 프레임워크가 운영 배출량의 투명성을 의무화함에 따라, AI 개발과 배포에서 에너지와 탄소 영향을 1급 지표로 다루는 것이 필수적이 되었다.

기존의 에너지 및 전력 소비 측정 도구들은 심각한 한계점들을 보여주고 있다. NVIDIA-SMI, DCGM, Nsight와 같은 다양한 도구들이 전력 소비, 에너지 사용량, 하드웨어 활용률과 같은 지표들을 수집할 수 있지만, 탄소배출량을 간과하고 이러한 차원들 간의 통합이 부족하다. 이러한 파편화는 AI 워크로드의 진정한 환경 비용을 반영하는 포괄적이고 해석 가능한 보고서 생성을 방해한다.

최대 26개 지표 통합 측정하는 3계층 아키텍처 시스템

이러한 문제점들을 해결하기 위해 개발된 WattsOnAI는 AI 워크로드의 에너지 사용량, 전력 소비, 하드웨어 성능, 탄소배출량을 측정, 분석, 시각화하는 포괄적인 소프트웨어 툴킷이다. WattsOnAI는 실시간 에너지, 전력, 하드웨어 지표 모니터링과 탄소배출량 추정을 통합하여 AI 워크로드 실행 전반에 걸쳐 동기화된 추적을 제공한다.

이 시스템은 3계층 아키텍처로 구성되어 있다. 소스 인터페이스 계층에서는 사용자 구성에 따라 동적으로 샘플링할 지표를 선택하며 최대 26개의 개별 지표를 지원한다. 데이터 처리 및 지속성 계층에서는 정규화와 탄소배출량 변환 과정을 통해 원시 데이터를 처리한다. 데모 계층에서는 처리된 데이터를 다양한 형태로 시각화하여 사용자에게 제공한다.

WattsOnAI는 기존 AI 프레임워크와의 원활한 통합을 통해 표준화된 보고서를 제공하고 벤치마킹과 재현성을 지원하기 위해 세분화된 시계열 데이터를 내보낸다. 높은 시간 해상도를 통해 연구자들은 AI 작업 실행 내의 서로 다른 세분화된 단계에서 에너지 소비와 전력 소비의 미묘한 변화를 관찰할 수 있다.

WattsOnAI Measuring Analyzing and Visualizing Energy and Carbon Footprint of AI Workloads


캐나다 인접 지역서도 같은 AI 작업 탄소배출량 15배 차이 발생

WattsOnAI의 주요 특징 중 하나는 탄소배출량 추정 기능이다. 이 시스템은 운영상 탄소배출량에 초점을 맞추어 하드웨어 제조 등의 체화 탄소는 제외하고 작업 실행 중 생성되는 직접적인 탄소배출량만을 측정한다. 탄소배출량 = 에너지 × 강도라는 공식을 사용하며, 지리적 좌표를 기반으로 Electricity Maps 및 WattTime과 같은 서비스에서 필요한 강도 인자를 검색한다.

실제 실험에서 캐나다의 서스캐처원주와 매니토바주에서 동일한 AI 작업을 실행했다고 가정했을 때, 생성된 탄소배출량에서 1.03g 대 0.07g로 인접한 주 사이에서도 약 15배의 차이가 나타났다. 이는 지리적 위치가 AI 작업의 환경 발자국을 평가할 때 결정적인 요소임을 명확히 보여준다. 격자 탄소 강도가 지리와 시간에 따라 크게 달라지기 때문에 이러한 현상이 발생한다.

Llama2-7b 추론에서 Prefill 단계가 Decode보다 90W 높은 전력 소비

Llama2-7b 모델을 사용한 추론 실험을 통해 WattsOnAI는 의미 있는 통찰력을 제공했다. LLM 추론 작업에서 Prefill 단계는 Decode 단계보다 현저히 높은 피크 전력 소비를 보였으며, Decode 단계를 거의 90W 초과하고 더 큰 전력 변동을 보였다. 결과적으로 Prefill 단계가 피크 전력 수요의 주요 기여자이며, FlashAttention과 같은 기술을 사용한 계산 효율성 최적화가 전체 피크 전력 감소에 중요하다는 것이 밝혀졌다.

두 단계의 주요 성능 병목 현상도 다르게 나타났다. Prefill 단계는 주로 계산 집약적인 반면 Decode 단계는 주로 메모리 집약적이다. 이러한 차이의 근본적인 이유는 운영 특성에서 비롯된다. Prefill은 전체 입력을 병렬로 계산 집약적으로 처리하는 반면, Decode는 다음 토큰을 예측하기 위해 더 작은 계산을 위해 대용량 KV 캐시에 자주 액세스하면서 순차적으로 토큰을 생성한다.

FAQ

Q: WattsOnAI와 기존 모니터링 도구들의 주요 차이점은 무엇인가요?

A: WattsOnAI는 기존 도구들과 달리 에너지, 전력, 하드웨어 지표와 함께 탄소배출량을 통합적으로 측정하고 시각화할 수 있습니다. 또한 다차원 상관관계 분석과 실시간 모니터링 대시보드를 제공하여 AI 워크로드의 환경 영향을 종합적으로 파악할 수 있습니다.

Q: 지역별로 같은 AI 작업의 탄소배출량이 다른 이유는 무엇인가요?

A: 각 지역의 전력 그리드가 사용하는 에너지원(재생에너지, 화석연료 등)의 비율이 다르기 때문입니다. 예를 들어 수력발전 비율이 높은 지역은 석탄발전 비율이 높은 지역보다 같은 전력량 대비 탄소배출량이 현저히 낮습니다.

Q: WattsOnAI를 사용할 때 시스템 성능에 미치는 영향은 어느 정도인가요?

A: WattsOnAI는 매우 낮은 오버헤드로 설계되었습니다. 0.1초 샘플링 간격에서도 시스템 오버헤드는 4.77% 이하로 유지되며, 메모리 사용량 차이는 무시할 수 있는 수준입니다. 샘플링 빈도가 높을수록 오버헤드는 증가하지만 여전히 실용적인 범위 내에 있습니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

이미지 출처: arxiv

해당 기사는 챗GPT와 클로드를 활용해 작성되었다.




“같은 AI 작업인데 지역 따라 탄소배출 15배 차이” 연구진이 밝혀낸 충격적 진실 – AI 매터스 l AI Matters