Data Governance in the Age of Generative AI
생성형 AI 도입 기업의 최대 난관은 ‘데이터 품질’
기업들의 경쟁력 확보를 위한 생성형 AI 도입이 가속화되는 가운데, 실제 구현 과정에서 가장 큰 걸림돌은 데이터 거버넌스의 부재인 것으로 나타났다. AWS의 2025년 최고데이터책임자(CDO) 연구에 따르면, 응답자의 39%가 데이터 정제, 통합, 저장과 같은 데이터 관리 문제를 지적했으며, 49%는 데이터 품질 향상에, 46%는 데이터 통합에 주력하고 있다고 답했다. 특히 응답자의 59%는 “생성형 AI 구현을 위한 데이터 준비 작업이 부담스러울 정도로 방대하다”고 인정했다.
이러한 문제의 근본적인 원인은 부서와 시스템 전반에 걸쳐 데이터가 분산되어 있어, 리더들이 보유한 데이터의 현황, 저장 위치, 소유권 등을 제대로 파악하지 못하는 데 있다. 디지털 도구의 증가, 기업 합병, IoT 데이터의 폭발적 증가는 이러한 데이터 분산 현상을 더욱 악화시키고 있으며, 이는 결과적으로 데이터 중복, 불일치, 데이터 발견 및 준비 과정에서의 추가 작업으로 이어지고 있다.
AWS가 제시하는 데이터 거버넌스 4대 핵심 전략
AWS는 이러한 문제를 해결하기 위한 4가지 핵심 전략을 제시했다.
첫째는 ‘데이터 가시성’으로, 의사결정에 필요한 데이터 자산을 명확히 파악하는 것이다. AWS는 이를 위해 AWS 글루(AWS Glue)와 같은 관리형 데이터 통합 서비스를 활용해 온프레미스 데이터베이스, 데이터 레이크, SaaS 애플리케이션의 데이터를 자동으로 카탈로그화할 것을 제안했다.
둘째는 ‘접근 제어’로, 보안과 접근성의 균형을 맞추는 것이다. AWS는 모든 상황에 일괄 적용되는 접근 제어 대신, 연합형(Federated) 데이터 거버넌스 모델을 채택할 것을 권장한다. 이 모델에서는 데이터에 대해 가장 잘 알고 있는 데이터 소유자와 관리자가 접근 권한을 관리하게 된다. AWS 레이크 포메이션(AWS Lake Formation)과 같은 도구를 활용하면 세분화된 권한을 중앙에서 정의하고 시행할 수 있으며, 전체 데이터 생태계에서의 데이터 접근을 모니터링하고 감사할 수 있다.
셋째는 ‘품질 보증’으로, 정확한 분석을 위한 데이터 신뢰성을 확보하는 것이다. AWS는 각 주요 데이터 도메인에 데이터 품질 관리자를 지정하여 표준을 설정하고, 자동화된 점검을 구현하며, 데이터 건전성을 모니터링하도록 권장한다. 이들은 정확성, 완전성, 일관성, 적시성과 같은 핵심 지표를 식별하고, AWS 글루 데이터 품질(AWS Glue Data Quality)과 같은 도구를 활용해 이러한 지표들을 자동으로 모니터링하고 검증해야 한다.
마지막으로 ‘소유권’은 리더십의 의지와 조직의 참여를 이끌어내는 것이다. AWS는 데이터를 독점적 자산으로 보는 ‘데이터 소유권’ 개념에서 벗어나, 적절한 관리와 공유의 책임을 강조하는 ‘데이터 책임관리’ 개념으로의 전환을 강조했다.
AI 윤리위원회 구성과 책임있는 AI 실천 방안
생성형 AI의 급속한 발전은 혁신의 기회와 함께 상당한 위험도 동반한다. AWS는 이러한 위험을 관리하기 위해 30일 이내에 AI 윤리위원회를 구성할 것을 권고했다. 법무, 윤리, IT, 데이터 사이언스, 주요 사업부서 대표들로 구성된 위원회는 90일 이내에 조직 내 생성형 AI의 윤리적 사용을 위한 가이드라인을 수립해야 한다.
이 가이드라인은 프라이버시, 공정성, 투명성, 책임성과 같은 핵심 원칙을 포함하며, AI 개발 또는 배포에 관련된 모든 직원에 대한 AI 윤리 교육을 의무화해야 한다. 또한 90일 이내에 외부 사이버보안 기업을 고용하여 윤리적 해킹 연습을 포함한 데이터 보안 독립 검토를 수행하고, 이를 바탕으로 향상된 접근 제어와 모니터링을 위한 로드맵을 수립할 것을 권장했다.
데이터 거버넌스의 성공적 구현을 위한 조직 문화 혁신
효과적인 데이터 거버넌스 구현을 위해서는 기술이나 프로세스 변화를 넘어선 조직 문화의 근본적 변화가 필요하다. 직원들이 데이터 통제를 필수적인 부담이 아닌 전략적 이점으로 인식하도록 만드는 것이 중요하다.
이를 위해 AWS는 직관적인 셀프 서비스 데이터 플랫폼과 카탈로그를 배포하여, 직원들이 필요한 정보를 쉽게 발견하고 접근할 수 있도록 하는 동시에, 보안, 프라이버시, 규정 준수 통제를 백그라운드에서 통합할 것을 제안했다. 거버넌스 정책의 시행을 자동화하고 그 메커니즘을 사용자에게 보이지 않게 함으로써, 데이터 거버넌스를 생산성의 장애물이 아닌 혁신의 촉매제로 전환할 수 있다.
또한 모든 직원을 대상으로 한 데이터 리터러시 교육을 통해 데이터의 가치와 데이터 품질 및 무결성 유지에 있어 각자의 역할에 대한 공통된 이해를 형성해야 한다. 데이터 기반 성공 사례를 공유하고, 데이터 거버넌스 이니셔티브에 적극적으로 기여하는 이들을 인정하는 것도 중요하다.
기사에 인용된 리포트 원문은 AWS 블로그에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기