챗GPT가 내 정보를 알고 있다?...생성형 AI 시대의 개인정보 보호 전쟁

Data Protection and Generative AI – Policy, Regulation, and the Way Forward

데이터가 석유가 된 시대: 4차 산업혁명의 새로운 도전

캠브리지 대학의 AI 저널(Journal of AI Vol. 1 Issue 2)에 게재된 논문에 따르면, 산업혁명은 물과 증기의 힘으로 시작된 1차 혁명, 전기의 시대를 연 2차 혁명, 컴퓨터와 가전제품으로 대표되는 3차 혁명을 거쳐 현재는 4차 산업혁명 시대에 이르렀다. 세계경제포럼(WEF)의 클라우스 슈밥(Klaus Schwab) 회장이 언급했듯이, 현재는 기술의 융합으로 실제, 디지털, 생물학적 세계의 경계가 모호해지는 시대다. 이러한 시대에 데이터는 새로운 ‘석유’로 불릴 만큼 중요한 자원이 되었다.

GDPR의 탄생: 기업들의 무분별한 데이터 사용을 막아라

인터넷 초기 시대에 만들어진 규칙들이 25년 만에 큰 변화를 맞이했다. 유럽 데이터보호감독관(EDPS)은 기술이 우리의 삶을 상상할 수 없을 정도로 변화시켰다고 평가하며, 2010년대 초반 유럽연합의 일반개인정보보호법(GDPR)을 제정했다. 후프나글, 슬룻, 보르게시우스의 분석에 따르면, GDPR은 “기업들이 진지하게 받아들이는 다른 법률들과 동등한 수준으로 프라이버시를 끌어올렸다”는 점에서 획기적인 의미를 가진다.

이전에는 기업들이 낮은 과징금만 부과받았고 개인정보의 무분별한 사용을 억제할 효과가 거의 없었다. 싱가포르도 이러한 흐름에 발맞춰 개인정보보호법(PDPA)을 제정했으며, 데이터 최소화 원칙을 도입하여 필요한 최소한의 개인정보만을 수집하도록 규정했다.

알파고에서 챗GPT까지: AI가 바꾸는 개인정보의 개념

AI 기술은 단순한 데이터 분석을 넘어 콘텐츠 생성으로 진화했다. 2016년 알파고의 바둑 세계챔피언 승리, 챗GPT의 고도화된 대화 능력, 미드저니(Midjourney)의 콜로라도 주 예술 대회 수상작 “Théâtre D’opéra Spatial” 등은 AI 발전의 대표적 사례다.

생성형 AI의 핵심 기술인 GAN(Generative Adversarial Networks)은 생성자 모델과 판별자 모델로 구성된다. 생성자 모델이 데이터셋을 기반으로 새로운 콘텐츠를 만들면, 판별자 모델이 이를 진짜와 가짜로 구분한다. 이 과정은 판별자가 약 50% 정도만 진위를 구분할 수 있을 때까지 반복되며, 이를 통해 AI는 점차 더 정교한 콘텐츠를 생성할 수 있게 된다.

AI의 개인정보 추론: 당신의 식습관이 건강 정보가 될 때

AI는 개인의 일상적인 데이터로부터 민감한 정보를 추론할 수 있다. 예를 들어, 식료품 구매 기록과 음식의 품질 및 영양 정보를 결합하여 개인의 건강 상태를 추론할 수 있다. 이러한 추론 데이터(inferred data)가 개인정보로 보호받아야 하는지가 새로운 쟁점으로 떠올랐다.

AI는 어떻게 우리 정보를 학습하나: OpenAI의 데이터 처리 방식 공개

논문에서 밝힌 OpenAI의 사례를 살펴보면, 생성형 AI는 인터넷에서 공개적으로 이용 가능한 데이터를 수집하고, 제3자로부터 라이선스를 받은 데이터를 활용하며, 사용자나 인간 트레이너로부터 데이터를 얻어 처리한다. GPT-2의 경우, 출력된 정보의 최소 0.1%가 이름, 주소 등 개인정보를 포함하고 있는 것으로 나타났다. OpenAI의 개인정보처리방침은 사용자가 동의를 철회할 수 있음을 명시하고 있으나, 이미 학습된 데이터에 대한 통제는 현실적으로 어려운 상황이다.

정신적 고통도 배상받을 수 있다: 개인정보 침해 구제책의 확대

유럽사법재판소(ECJ)는 여러 판례를 통해 개인정보의 범위에 대한 기준을 제시했다. 한 사례에서는 법무장관의 법적 분석은 개인정보가 아니라고 판단한 반면, 다른 사례에서는 시험 채점자의 코멘트를 개인정보로 인정했다. 이는 AI가 추론한 정보의 개인정보 해당 여부를 판단할 때 중요한 선례가 된다.

GDPR 제82조는 개인정보 침해에 대한 손해배상을 규정하고 있다. 단순한 법규 위반만으로는 보상을 받을 수 없으며, 구체적인 손해와 위반 행위 사이의 인과관계가 입증되어야 한다. 싱가포르 대법원도 Reed, Michael v Bellingham 사건에서 정신적 고통에 대한 배상을 인정했다.

AI 혁신과 프라이버시의 공존

2024년 초 이탈리아 개인정보보호당국은 ChatGPT가 GDPR의 여러 조항을 위반했다고 판단했다. 구체적으로 제5조(개인정보 처리 원칙), 제6조(처리의 적법성), 제8조(아동의 동의), 제13조(정보주체로부터 개인정보 수집 시 제공되는 정보), 제25조(설계 및 기본설정에 의한 개인정보보호) 위반 혐의가 제기되었다.

개인정보 수집의 법적 근거로 ‘정당한 이익’이 제시되고 있으나, 이는 정보주체의 기본권과 자유를 침해하지 않는 범위 내에서만 인정된다. 특히 아동의 개인정보가 관련된 경우 더욱 엄격한 기준이 적용된다.

싱가포르 개인정보보호위원회(PDPC)의 AI 거버넌스 프레임워크는 AI의 설명 가능성, 투명성, 공정성, 인간 중심적 접근을 강조한다. 이는 생성형 AI의 혁신을 저해하지 않으면서도 개인의 프라이버시를 보호할 수 있는 균형점을 제시한다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.