펜타곤, AI 기업에 기밀 데이터 학습 허용 검토 중

미국 국방부(펜타곤)가 생성형 AI 기업들이 군사 특화 모델을 기밀 데이터로 직접 훈련할 수 있는 보안 환경 구축을 논의 중인 것으로 확인됐다. MIT 테크놀로지 리뷰가 단독으로 보도했다.

앤트로픽의 클로드 같은 AI 모델은 이미 이란 공격 목표 분석을 포함한 기밀 환경에서 질문에 답하는 용도로 활용되고 있다. 그러나 기밀 데이터로 모델을 직접 훈련하는 것은 전혀 다른 차원의 문제다. 감시 보고서나 전장 평가 같은 민감한 정보가 모델 자체에 내재화되고, AI 기업들이 기밀 데이터에 이전보다 훨씬 깊이 관여하게 되기 때문이다.

익명을 요청한 미국 국방 관계자는 MIT 테크놀로지 리뷰에 기밀 데이터로 훈련한 AI 모델이 특정 임무에서 더 정확하고 효과적일 것으로 기대한다고 밝혔다. 현재 펜타곤은 오픈AI, 일론 머스크의 엑스에이아이와 기밀 환경에서 모델을 운용하는 계약을 체결한 상태다. 피트 헥세스 국방장관이 1월에 서명한 메모를 바탕으로 ‘AI 우선 전투 전력’ 구축을 목표로 빠르게 움직이고 있다.

훈련은 기밀 정부 프로젝트를 수용할 수 있도록 인증된 보안 데이터센터에서 진행될 예정이며, AI 모델 사본과 기밀 데이터가 결합되는 방식으로 운영된다. 데이터 소유권은 국방부가 유지하지만, 보안 허가를 받은 AI 기업 직원이 드물게 데이터에 접근할 수 있다고 관계자는 전했다.

다만 펜타곤은 기밀 데이터 훈련에 앞서 상업용 위성 이미지 같은 비기밀 데이터로 모델의 정확도와 효과를 먼저 검증할 계획이라고 관계자는 밝혔다.

전문가들은 이 같은 시도가 새로운 보안 위험을 수반한다고 경고한다. 전략국제문제연구소(CSIS) 와드와니 AI 센터의 알록 메타 소장은 기밀 정보로 훈련된 모델이 해당 정보에 접근 권한이 없는 이용자에게도 그 내용을 노출할 수 있다는 점을 가장 큰 우려로 꼽았다. 메타 소장은 “특정 민감한 인간 정보, 예를 들어 공작원의 이름을 학습한 모델이 해당 정보에 접근해서는 안 되는 국방부 내 다른 부서에 그 정보를 유출할 수 있다”고 경고했다.

반면 외부 인터넷으로 정보가 유출되거나 AI 기업으로 데이터가 역류하는 위험은 상대적으로 낮다고 메타 소장은 설명했다. 보안 전문 기업 팔란티어는 이미 기밀 주제에 대해 AI 모델에 질문할 수 있는 보안 환경을 구축하는 계약을 수주한 바 있다. 그러나 훈련 목적으로 이 시스템을 활용하는 것은 여전히 새로운 도전 과제다.

군이 AI 모델에 기밀 데이터 학습을 요구할 수 있는 임무는 분석가처럼 이미지에서 미묘한 단서를 파악하거나 새로운 정보를 과거 맥락과 연결하는 작업 등이 포함될 수 있다. 정보기관이 수집한 방대한 분량의 텍스트, 음성, 이미지, 영상이 훈련 데이터로 활용될 수 있다.

자세한 내용은 MIT 테크놀로지 리뷰에서 확인할 수 있다.

이미지 출처: 이디오그램 생성