AI가 AWS 클라우드 해킹을 탐지, RAG 기술이 보안 정확도를 70% 끌어올렸다

기업의 클라우드 환경이 사이버 공격의 주요 표적이 되면서 보안 위협 탐지의 중요성이 어느 때보다 커지고 있다. 버밍엄 시티 대학교(Birmingham City University)와 드 몽포르 대학교(De Montfort University) 공동 연구팀이 발표한 논문은 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기술을 활용해 아마존 웹 서비스(AWS, Amazon Web Services) 클라우드 환경의 보안 위협을 자동으로 탐지하고 분류하는 시스템을 개발해 기존 AI 단독 방식 대비 정확도를 70% 이상 향상시켰다.

클라우드 보안의 핵심 과제, 쏟아지는 로그 속 위협을 어떻게 찾아내는가

AWS를 비롯한 클라우드 환경에서는 수많은 사용자와 시스템이 매 순간 다양한 작업을 수행하며 방대한 기록을 남긴다. AWS 클라우드트레일(CloudTrail)은 이 모든 활동을 로그 형태로 기록하는 감사 서비스로, 보안 분석가들이 이상 징후를 파악하는 핵심 도구다. 그러나 문제는 규모다. 기업 클라우드 환경에서는 수 테라바이트에 달하는 로그가 쌓이며, 이를 수작업으로 분석하는 것은 사실상 불가능하다. 기존의 서명 기반 보안 시스템은 이미 알려진 공격 패턴만 탐지할 수 있고, 머신러닝 모델은 방대한 레이블 학습 데이터가 필요하며, 위협 환경이 빠르게 변하면 금세 낡은 탐지 능력을 가지게 된다. 대형 언어 모델(LLM, Large Language Model) 단독으로 보안 위협을 탐지하려는 시도도 있었지만, 학습 데이터의 시간적 한계와 환각(hallucination, AI가 사실이 아닌 내용을 사실처럼 생성하는 현상) 문제로 오탐지율이 높았다. 기준 모델인 제미나이(Gemini) 2.5 프로의 단독 탐지 정확도는 46%에 불과했다.

RAG가 AI에게 최신 보안 지식을 실시간으로 공급한다

연구팀이 제안한 해법은 RAG 기술을 통해 AI 모델에 외부 보안 지식을 실시간으로 공급하는 2단계 파이프라인(pipeline, 여러 처리 단계를 순서대로 연결한 구조)이다. 1단계에서는 클라우드트레일 로그 이벤트를 입력받은 AI가 해당 이벤트의 보안 관련 속성을 요약한 자연어 검색 쿼리를 생성한다. 2단계에서는 이 쿼리를 바탕으로 외부 지식 데이터베이스에서 가장 관련성 높은 정보를 검색해 AI의 분석에 맥락 정보로 제공한다. 외부 지식 베이스는 사이버 공격 전술과 기법을 체계적으로 정리한 마이터 에이티티앤씨케이(MITRE ATT&CK) 프레임워크, AWS 위협 기법 카탈로그, 최신 보안 위협 보고서, 보안 블로그 등으로 구성됐다. 이 정보들은 벡터 데이터베이스(vector database, 텍스트를 수치 형태로 변환해 의미적 유사도를 기준으로 검색하는 데이터 저장소)에 저장되어 검색 시 의미적으로 가장 유사한 정보를 즉시 반환한다. 이를 통해 AI 모델은 자신의 학습 데이터 한계를 넘어 최신 공격 기법에 대한 정보를 바탕으로 이벤트를 판단할 수 있다.

정확도 78%, 치명적 위협은 100% 탐지

연구팀은 스트라투스 레드팀(Stratus Red Team)이라는 공격 에뮬레이션 도구로 실제 해킹 공격을 시뮬레이션해 생성한 200개의 클라우드트레일 이벤트로 시스템을 평가했다. 이 중 122개는 악성 이벤트, 78개는 정상 이벤트였다. RAG가 적용된 제미나이 2.5 프로는 78%의 정확도, 85%의 정밀도, 79%의 F1 스코어를 기록했다. 이는 RAG 없이 단독으로 작동한 기준 모델의 정확도 46%, F1 스코어 45%에 비해 각각 70.5%, 76.4% 향상된 수치다. 특히 주목할 만한 점은 위협 심각도별 성능이다. 계정 즉시 탈취로 이어지는 치명적(Critical) 위협과 높은 심각도(High) 위협에서는 각각 100%와 97.2%의 정확도를 보였다. 자격증명 탈취, 지속성 확보, 권한 상승, 데이터 수집, 초기 침투 등 핵심 공격 전술에서도 100% 정확도를 달성했다. 처리 비용은 이벤트 1건당 약 0.00376달러, 처리 시간은 4.1초로 상용 보안 정보 이벤트 관리(SIEM, Security Information and Event Management) 솔루션과 비슷한 수준이면서 공격 전술 분류 능력은 더 뛰어났다.

오류의 60%는 검색 품질 문제, 앞으로 해결해야 할 과제

연구팀은 시스템의 오탐지 사례를 체계적으로 분석해 세 가지 실패 유형을 도출했다. 오류의 60%는 검색-생성 간 격차에서 발생했다. 관련 정보는 잘 검색됐지만 AI가 이를 올바르게 통합하지 못해 잘못된 분류를 내리는 경우다. 예를 들어 S3 버킷 접근 정책을 수정하는 이벤트를 분석할 때 더 적합한 데이터 유출 관련 기법 대신 로그 무력화 기법으로 잘못 분류했다. 나머지 각 20%는 지식 베이스의 정보 부족과 근본적으로 판단이 모호한 이벤트에서 비롯됐다. 예를 들어 접근 권한 생성 같은 작업은 정상적인 운영 활동일 수도 있고 공격자의 지속성 확보 시도일 수도 있어, 단일 이벤트 분석만으로는 구분이 어렵다. 연구팀은 향후 보안 도메인 전용 임베딩 모델 개발, 지식 베이스의 자동 업데이트 체계 구축, 단일 이벤트를 넘어 시간 순서에 따른 다중 이벤트 연쇄 분석 기능 추가를 핵심 과제로 제시했다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. RAG 기술이 클라우드 보안에서 왜 중요한가요? 일반 AI 모델은 학습 시점 이후 등장한 새로운 공격 기법을 알지 못합니다. RAG는 외부 최신 보안 지식을 AI에게 실시간으로 공급해 이 한계를 극복하며, 이번 연구에서 단독 AI 대비 정확도를 70% 이상 향상시키는 효과를 보였습니다.

Q. 이 시스템이 보안 전문가를 대체할 수 있나요? 연구팀은 이 시스템이 보안 전문가를 대체하는 것이 아니라 보조하는 도구라고 명확히 밝히고 있습니다. 치명적 위협은 높은 정확도로 자동 탐지하되, 판단이 모호한 이벤트는 전문가 검토 대상으로 분류해 협업하는 구조입니다.

Q. AWS 외 다른 클라우드 환경에도 적용할 수 있나요? 현재 연구는 AWS 클라우드트레일 로그에 집중됐지만, 연구팀은 마이크로소프트 애저(Azure)와 구글 클라우드 플랫폼(GCP) 등 다른 클라우드 환경으로의 확장을 향후 과제로 제시하고 있습니다.

기사에 인용된 리포트 원문은 Tech Science Press에서 확인할 수 있다.

리포트명: Retrieval-Augmented Large Language Model for AWS Cloud Threat Detection and Modelling: Cloudtrail Mitre ATT&CK Mapping

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.