• Home
  • AI Report
  • 생성형 AI로 레거시 은행 시스템의 반복적 장애 해결한다

생성형 AI로 레거시 은행 시스템의 반복적 장애 해결한다

Breaking the Cycle of Recurring Failures: Applying Generative AI to Root Cause Analysis in Legacy Banking Systems
이미지출처: 이디오그램

Breaking the Cycle of Recurring Failures: Applying Generative AI to Root Cause Analysis in Legacy Banking Systems

레거시 시스템의 디지털 전환 과제

전통적인 은행들은 레거시 시스템과 분산된 소유권 구조로 인해 디지털 전환에 큰 어려움을 겪고 있다. 레거시 시스템은 시장 변화에 유연하게 적응하기 어렵고, 리스크 회피 문화는 혁신을 더욱 저해한다. 최근 싱가포르 통화청(MAS)이 DBS 은행의 비핵심 활동을 6개월간 중단시킨 사례에서 볼 수 있듯이, 레거시 시스템에서 발생하는 반복적인 장애는 은행 운영에 심각한 영향을 미치고 있다. 빠르게 변화하는 고객 중심의 금융 시장에서 경쟁력을 유지하기 위해서는 더 유연하고 통합된 기술 전략이 필요한 시점이다.

기존 근본 원인 분석의 한계

레거시 시스템에서는 사고 관리가 여러 팀의 협업을 필요로 한다. 팀들은 누가 사고에 책임이 있는지 논쟁하는 데 많은 시간을 소비하고, 실제 근본 원인보다는 표면적인 증상에만 집중하는 경향이 있다. 대규모 IT 운영에서는 증상 해결에만 초점을 맞추어 더 깊은 체계적 문제를 놓치기 쉽다. 시스템이 더욱 복잡해지고 상호 연결됨에 따라 실패의 근본 원인을 찾는 것이 더욱 어려워졌다. ‘5 Why’ 같은 전통적인 근본 원인 분석(RCA) 방법은 이러한 시스템의 다층적 특성을 놓치기 쉽고, 인적 판단에 크게 의존하여 편향과 변동성을 초래한다. 복잡한 환경에서 발생하는 대량의 사고 데이터는 전통적 RCA 방법의 확장성을 제한하며, 사고들이 개별적으로 처리되어 대응적 문제 해결로 이어지고 기술 부채를 증가시킨다.

생성형 AI 기반의 혁신적 접근법

연구진은 전통적인 “5 Why” RCA를 생성형 AI와 통합한 새로운 접근법을 개발했다. 이 시스템은 소프트웨어 개발 수명 주기(SDLC) 전체에서 자동화된 절차를 통해 지식을 수집하는 지식 그래프를 기반으로 하며, React 패턴을 활용한 모듈화된 아키텍처로 세 가지 핵심 에이전트를 구성했다. 이는 다양한 데이터 소스의 통합을 최적화하고 데이터셋 통합과 과거 데이터 검색을 통해 분석의 심도를 높인다.

첫째로, 증상 분석 에이전트는 IT 서비스 관리(ITSM) 시스템에서 사고 데이터를 수집하고 지식 그래프를 조회하여 주요 증상과 문제 영역을 식별하며, 5 Why 분석을 위한 기초를 설정한다.

둘째로, 5 Why 분석 에이전트는 GPT-4o 모델을 활용하여 체계적 분석을 수행하고, 지식 그래프의 실시간 데이터로 조사를 지원하며, 문제 설명과 증거 소스 모두를 분석한다.

셋째로, 근본 원인 분류 에이전트는 과거 패턴과 비교하여 근본 원인을 검증하고, 향후 운영을 위한 전략적 문제 해결을 지원하며, 95%의 정확도로 실행 가능한 근본 원인을 파악한다.

획기적인 성과 도출

연구 결과는 여러 주목할 만한 발견과 개선을 보여줬다. 원인 재분류에서는 이전에 관리나 외부 공급업체 실패로 여겨졌던 장애의 약 70%가 실제로는 내부 코드 결함이나 자동화 격차에서 기인한 것으로 밝혀졌다. 대규모 분석을 통해 5,535개 프로젝트를 검사했으며, 226개의 동일 결함 프로젝트와 415개의 동일 결함 파일을 발견했다.

성능 개선 측면에서는 주목할 만한 성과를 달성했다. 주요 장애가 45% 감소했고, 변경 실패율이 45.5% 줄었으며, 배포 소요 시간이 46.3% 단축되었다. 시스템 응답 시간은 구현 전 1,200ms를 초과하던 것에서, 구현 후 모든 요청이 800ms 이내로 처리되도록 개선되었다. 또한 잦은 서비스 실패가 발생하던 상황에서 완전한 무장애 상태를 달성했다.

지식 기반 AI 에이전트의 확장 가능성

이 시스템은 소프트웨어 개발 수명 주기의 여러 단계에서 광범위한 적용이 가능하다.

요구사항 수집 단계에서는 과거 데이터를 분석하여 프로젝트 범위 설정과 추정을 자동화하고, 사용자 스토리의 모호성을 줄이며, 이해관계자 간 정렬을 개선한다. 이를 통해 잠재적 설계 및 테스트 문제를 조기에 식별하여 재작업을 최소화할 수 있다.

설계 및 개발 단계에서는 자동화된 설계 제안을 통해 모범 사례를 준수하고, 코드 생성 및 테스트를 자동화하며 초기 버그를 탐지한다. 이는 개발 과정을 가속화하고 일관성을 보장하여 테스트 주기와 결함 가능성을 줄인다.

배포 및 유지보수 단계에서는 배포 프로세스를 자동화하고 시스템 성능을 실시간으로 모니터링하며, 예측적 분석을 통해 잠재적 실패를 예측한다. 배포 중 실시간 이상 탐지는 실패 위험을 더욱 감소시키고, 수집된 데이터는 향후 프로젝트의 계획과 설계를 개선하는 데 활용된다.

미래 발전 방향과 과제

이 연구는 생성형 AI를 활용한 소프트웨어 관리의 새로운 가능성을 제시했으나, 몇 가지 중요한 과제가 남아있다.

확장성 연구 측면에서는 다양한 산업 분야와 다른 시스템 아키텍처에 대한 적용 가능성을 탐구해야 한다. 결함 관리의 자동화를 통해 개발자들이 더 가치 있는 업무에 집중할 수 있게 되었지만, 이를 더욱 확장할 필요가 있다.

잠재적 한계 극복을 위해서는 AI 편향을 해결하고 엣지 케이스에서의 효과성을 개선하며, 더 복잡한 시스템에서의 성능을 검증해야 한다. 패치의 일관성과 신뢰성을 향상시켜 전반적인 코드 품질을 높이는 것도 중요한 과제다.

지속적인 개선을 위해서는 예측적 유지보수 기능을 강화하고 실시간 보안 모니터링을 개선하며, 소프트웨어의 신뢰성과 복원력을 향상시켜야 한다. AI 기술이 발전함에 따라 예측적 유지보수와 실시간 보안 분야에서의 역할이 더욱 증가할 것으로 예상되며, 이는 소프트웨어의 신뢰성과 복원력을 더욱 향상시킬 것이다.

이 시스템의 성공은 AI를 활용한 결함 관리 자동화의 광범위한 잠재력을 보여준다. SDLC에 AI를 통합함으로써 조직은 수작업을 줄이고 인적 오류를 최소화하면서 지속적인 코드 개선을 보장할 수 있다.

기사에 인용된 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




생성형 AI로 레거시 은행 시스템의 반복적 장애 해결한다 – AI 매터스 l AI Matters