SoK: On the Role and Future of AIGC Watermarking in the Era of Gen-AI
AI 워터마크의 개념과 정의
생성형 AI 기술이 급속도로 발전하면서 AI가 생성한 콘텐츠(AIGC)의 안전한 활용을 위한 워터마크 기술이 주목받고 있다. AI 워터마크는 기존의 디지털 워터마크와 달리 AI 모델의 생성 과정에 직접 삽입되어 콘텐츠의 출처를 추적하고 불법 사용을 방지하는 기술이다. 이는 단순한 사후 처리가 아닌 공급망의 흐름과 같이 생성 과정 전반에 걸쳐 작동하는 것이 특징이다.
워터마크의 기본 속성
AI 워터마크의 기본 속성은 크게 은닉성, 견고성, 정확성, 취약성, 효율성, 용량, 가역성, 블라인드니스로 구성된다. 은닉성은 워터마크가 원본 콘텐츠와 구별되지 않아야 하며, 견고성은 다양한 변형과 수정에도 워터마크가 유지되어야 함을 의미한다. 정확성은 워터마크의 위조가 불가능해야 하고, 취약성은 콘텐츠 무결성 검증을 위해 변경 사항을 감지할 수 있어야 한다. 효율성 측면에서는 워터마크 삽입과 추출이 computationally efficient 해야 하며, 용량 면에서는 충분한 정보를 담을 수 있어야 한다. 가역성은 필요시 워터마크를 제거하고 원본을 복원할 수 있어야 하며, 블라인드니스는 원본 없이도 워터마크를 추출할 수 있어야 한다는 특성을 의미한다.
AIGC 워터마크의 고급 특성
AIGC 워터마크는 기존 워터마크와 구별되는 고유한 특성을 가지고 있다. 먼저 내생성은 워터마크가 생성 과정에 내재되어 있음을 의미하며, 크로스모달 특성은 다양한 미디어 형식 간에 일관된 워터마크 적용이 가능하다는 것을 나타낸다. 플러그앤플레이 기능을 통해 모델 재학습 없이도 워터마크 삽입이 가능하며, 접근성 측면에서는 인증된 사용자만 워터마크를 확인할 수 있는 보안성을 제공한다.
미디어 유형별 워터마크 기술
텍스트 워터마크 기술은 로짓 기반, 샘플링 기반, 학습 기반으로 나뉘며, 각각 토큰 예측 시 로짓값을 직접 수정하거나 샘플링 방법을 수정하여 간접적 영향을 주거나, 워터마크된 텍스트로 모델을 미세조정하는 방식을 사용한다.
이미지 워터마크는 학습이 불필요한 방식과 학습에 의존하는 방식으로 구분된다. 전자는 확산 모델의 노이즈에 특정 패턴을 주입하고, 후자는 워터마크 모듈을 추가하거나 모델 파라미터를 조정한다.
오디오 워터마크는 워터마크 인코더/디코더를 사전학습하거나, 특징 추출 네트워크를 활용하거나, 사전 워터마크된 오디오로 학습하는 방식을 채택한다.
비디오 워터마크는 주로 프레임별 이미지 워터마크 기술을 적용하며, SynthID와 같이 프레임 픽셀을 직접 수정하는 방식도 사용된다.
크로스모달 워터마크는 여러 미디어 형식 간의 특징 정렬을 활용하고, 딥러닝 기반 특징 추출을 통해 워터마크의 견고성을 강화한다.
워터마크의 주요 기능

워터마크의 탐지 기능은 두 가지 방식으로 구현된다. 첫째는 생성 과정 중에 워터마크를 삽입하는 방식이고, 둘째는 이미 생성된 콘텐츠에 직접 워터마크를 삽입하는 방식이다.
귀속 기능은 모델 귀속과 사용자 귀속으로 구분된다. 모델 귀속은 어떤 생성 모델이 해당 콘텐츠를 생성했는지 식별하는 것이며, 사용자 귀속은 콘텐츠를 생성한 사용자를 식별하는 기능이다.
저작권 보호는 데이터셋, 모델, AIGC 각각에 대해 이루어진다. 데이터셋 저작권 보호는 학습 데이터의 무단 사용을 방지하고, 모델 저작권 보호는 AI 모델의 지적 재산권을 보호하며, AIGC 저작권 보호는 생성된 콘텐츠의 저작권을 보호한다.
스테가노그래피는 텍스트, 이미지, 오디오/비디오 각각의 미디어 특성을 활용하여 데이터를 은닉하는 기술이다. 텍스트 기반 은닉은 자연어 패턴을 활용하고, 이미지 기반 은닉은 시각적 특성을 이용하며, 오디오/비디오 기반 은닉은 시청각적 특성을 활용한다.
위변조 탐지는 샘플 레벨에서의 전반적인 위변조 여부를 확인하고, 더 나아가 구체적으로 어느 영역이 위변조되었는지 지역화하는 기능을 제공한다.
보안 위협과 도전 과제
워터마크 탐지 공격은 워터마크의 존재 여부를 탐지하려 시도하며, 이를 위해 오프셋 학습 등의 기술을 활용한다. 워터마크 위조 공격은 토큰 분포를 분석하여 워터마크를 위조하거나 적대적 학습을 통해 가짜 워터마크를 생성한다.
워터마크 제거 공격은 다양한 방식으로 이루어진다. 재생성 공격은 워터마크가 삽입된 콘텐츠를 다시 생성하여 워터마크를 제거하고, 적대적 공격은 적대적 교란을 통해 워터마크를 무력화한다. 그린 토큰 최소화 공격은 워터마크 관련 토큰을 최소화하며, 편집 공격은 콘텐츠 편집을 통해 워터마크를 훼손한다.
미래 연구 방향
워터마크 기술의 기능적 측면에서는 공개적으로 검증 가능한 워터마크 개발이 필요하며, 무단 학습을 방지하는 기술과 모델/데이터셋의 위변조를 탐지하는 기술 개발이 요구된다.
보안 측면에서는 내생적 워터마크에 대한 효과적인 방어 메커니즘 개발이 필요하며, 크로스모달 환경에서의 보안 강화와 의미론적 워터마크에 대한 공격 대응 방안 연구가 중요하다.
각국의 AIGC 규제 현황
미국은 AI 권리장전을 발표하고 AI 위험관리 프레임워크를 수립하였으며, 악의적 딥페이크 금지법을 제정하여 AI 기술의 오남용을 방지하고 있다. EU는 AI법을 통과시켜 AI 기술의 안전성, 윤리성, 공정성을 강조하고 있으며, 개인정보 보호와 데이터 보안에 대한 규제를 강화하고 있다. 중국은 생성형 AI 서비스 관리 규정을 시행하고 워터마크 의무화를 추진하는 등 사회 거버넌스와 공공안전 중심의 규제를 실시하고 있다.
AIGC 규제 요소별 현황
데이터셋 규제에서는 개인정보 보호와 데이터 품질 관리가 중요시되며, 국경 간 데이터 이동에 대한 제한이 강화되고 있다. 생성 모델 규제는 오픈소스 정책과 모델 투명성 요구사항을 중심으로 이루어지고 있다.
AI 생성 콘텐츠에 대해서는 민감 콘텐츠 필터링과 콘텐츠 품질 관리가 강조되고 있으며, 워터마크 규제는 명시적 표시 요구와 AIGC 추적 기능 의무화를 중심으로 진행되고 있다. 사용자 규제는 콘텐츠 준수 요구사항과 지적재산권 보호를 핵심으로 한다.
기사에 인용된 논문의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기