An Empirical Study of Production Incidents in Generative AI Cloud Services
“잘못된 추론” 등 생성형 AI만의 독특한 장애, 전체 장애의 38.3%는 여전히 사람이 발견
마이크로소프트의 생성형 AI 클라우드 서비스에서 발생한 장애를 분석한 결과, 성능 저하(49.8%), 배포 실패(35.7%), 잘못된 추론(14.5%) 세 가지 주요 유형으로 나타났다. 특히 잘못된 추론이나 유해 콘텐츠 필터 오작동과 같은 생성형 AI 특유의 장애는 서비스 신뢰성과 사용자 경험에 직접적인 영향을 미치는 것으로 확인됐다. 예를 들어, 모델이 단순한 사용자 프롬프트에도 낮은 품질의 콘텐츠를 생성하거나, 사용자의 질문을 이해하지 못하는 경우가 있었다.
또한 생성형 AI 클라우드 서비스 장애의 38.3%는 자동화된 시스템이 아닌 엔지니어나 고객과 같은 사람에 의해 보고되었는데, 이는 일반 클라우드 서비스(13.7%)에 비해 상당히 높은 수치다. 자동 모니터링 시스템으로 감지된 생성형 AI 장애의 허위 경보율도 11.0%로, 일반 클라우드 서비스(3.8%)보다 높게 나타났다. 이러한 차이는 생성형 AI 클라우드 서비스와 모니터링 도구가 아직 초기 단계에 있음을 보여준다.
인프라 문제가 최대 원인(27.2%), 인공지능 특유의 코드 버그도 21.5% 차지
생성형 AI 클라우드 서비스 장애의 근본 원인을 분석한 결과, 인프라 문제(27.2%), 구성 문제(24.5%), 코드 버그(21.5%), 외부 사용 문제(14.1%), 운영 오류(12.7%) 등으로 나타났다. 인프라 문제는 주로 성능 저하와 배포 실패의 주요 원인으로, GPU와 같은 하드웨어 구성 요소의 고장이나 네트워크 연결 문제, 스토리지 장애 등이 포함된다. 특히 생성형 AI 서비스는 방대한 매개변수 규모와 높은 하드웨어 요구 사항으로 인해 인프라 문제에 더 취약한 것으로 분석됐다.
구성 문제는 잘못된 설정이나 구성 업데이트 충돌, 구성 누락 등이 주된 원인이다. 예를 들어, 시스템 유지보수 중 필요한 모델 인스턴스보다 훨씬 적게 구성하여 서비스 중단이나 성능 저하가 발생하는 경우가 있었다. 코드 버그는 데이터 제약 조건 위반, 콘텐츠 필터 버그, 예외 처리 버그, 교차 시스템 버그 등으로 분류되었다. 특히 미세 조정 API 실패와 같은 문제는 코드 버그에서 기인하는 경우가 많았다.
생성형 AI 장애 해결 시간 1.12시간, 일반 클라우드(0.65시간)보다 83% 더 길어
연구에 따르면 생성형 AI 클라우드 서비스 장애는 일반 클라우드 서비스 장애보다 해결하는 데 더 많은 시간이 소요되는 것으로 나타났다. 생성형 AI 장애의 평균 해결 시간은 1.12 시간 단위로, 일반 클라우드 서비스(0.65 시간 단위)보다 83% 더 길었다.
이러한 차이는 생성형 AI 시스템의 복잡성에서 비롯된 것으로 분석됐다. 생성형 AI 클라우드 시스템은 방대하고 상호 연결된 인프라 레이어, 종속성, 구성 등을 포함하고 있어 문제 해결이 더 복잡하다. 연구 결과에 따르면 생성형 AI 클라우드 시스템은 일반 클라우드 서비스에 비해 인프라 수정이 2.5배, 코드 변경이 3배, 구성 업데이트가 3배 더 필요한 것으로 나타났다.
또한 일반 클라우드 서비스 장애의 54.7%는 임시 수정으로 해결되는 반면, 생성형 AI 장애는 22.4%만이 임시 수정으로 해결되었다. 이는 생성형 AI 시스템에서는 더 복잡하고 시간이 많이 소요되는 수정 방법이 필요함을 보여준다.

자동 모니터링·장애 처리 개선 필요, 일반 클라우드보다 인프라·코드 수정 각각 2.5배와 3배 더 필요
연구진은 생성형 AI 클라우드 서비스의 안정성을 높이기 위한 여러 제안을 제시했다. 먼저 자동화된 모니터링 도구의 개선이 필요하다. 현재 생성형 AI 서비스의 많은 부분이 개발 중이거나 프리뷰 단계(45.9%)에 있으며, 모니터 유형이 부족하다. 서비스 제공업체는 문제를 더 효과적으로 감지하고 진단할 수 있도록 서비스 관찰 가능성을 향상시켜야 한다.
또한 장애 완화 과정의 자동화가 필요하다. 연구진은 다양한 완화 접근 방식에 대한 자동화 도구 또는 에이전트 구현, 복잡한 생성형 AI 클라우드 인프라를 더 효과적으로 관리하기 위한 코드형 인프라(Infrastructure-as-code) 관행 채택, 호환성 문제를 신속하게 해결하기 위한 자동화된 롤백 메커니즘 통합 등을 제안했다.
개발자들을 위해서는 입력 유효성 검사와 동적 속도 제한이 중요한 개선 영역으로 지적됐다. 특수 문자, 단편화된 프롬프트, 과도한 토큰 사용 등은 모델 처리를 방해할 수 있어, 개발자는 이러한 문제를 방지하기 위한 엄격한 입력 유효성 검사 프로세스를 구현하고 실시간 조건에 맞게 조정되는 동적 속도 제한 전략을 채택해야 한다.
FAQ
Q: 생성형 AI 클라우드 서비스의 장애는 일반 클라우드 서비스와 어떻게 다른가요?
A: 생성형 AI 클라우드 서비스는 잘못된 추론이나 유해 콘텐츠 필터 오작동과 같은 AI 특유의 장애가 발생하며, 일반 클라우드보다 사람에 의한 보고 비율(38.3% vs 13.7%)과 허위 경보율(11.0% vs 3.8%)이 높습니다. 또한 장애 해결 시간도 일반 클라우드보다 83% 더 길게 소요됩니다.
Q: 생성형 AI 클라우드 서비스 장애의 주요 원인은 무엇인가요?
A: 주요 원인은 인프라 문제(27.2%), 구성 문제(24.5%), 코드 버그(21.5%), 외부 사용 문제(14.1%), 운영 오류(12.7%) 등입니다. 특히 인프라 문제는 방대한 매개변수 규모와 높은 하드웨어 요구 사항을 가진 생성형 AI 서비스에서 성능 저하와 배포 실패의 주된 원인으로 작용합니다.
Q: 생성형 AI 클라우드 서비스의 안정성을 높이려면 어떻게 해야 하나요?
A: 자동화된 모니터링 도구 개선, 장애 완화 과정 자동화, 코드형 인프라 관행 채택, 자동화된 롤백 메커니즘 통합, 개발자의 엄격한 입력 유효성 검사 프로세스 구현, 실시간 조건에 맞게 조정되는 동적 속도 제한 전략 채택 등이 필요합니다.
해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.
이미지 출처: Microsoft
기사는 클로드와 챗GPT를 활용해 작성되었습니다.