Search

피싱에서 딥페이크까지, 생성형 AI가 지키는 당신의 온라인 안전

Gen-AI for User Safety: A Survey
이미지출처: 이디오그램

Gen-AI for User Safety: A Survey

생성형 AI, 기존 머신러닝의 한계를 뛰어넘다

생성형 AI(Gen-AI)가 사용자 안전 보호의 새로운 패러다임을 제시하고 있다. 구글(Google) 연구진이 발표한 최신 연구에 따르면, 생성형 AI는 기존 머신러닝과 데이터 마이닝 기술이 가진 자연어 이해의 한계를 극복하고 있다. 특히 문맥과 뉘앑스 파악, 다국어 번역, 다양한 작업과 도메인 간 미세조정 능력에서 큰 강점을 보이고 있다.

디지털 영역의 포괄적 보안 강화

디지털 공간에서 생성형 AI는 다양한 보안 위협에 대응하고 있다. 온라인 위협 방지 분야에서는 코이데(Koide) 등의 연구를 통해 생성형 AI가 새로운 피싱 공격을 효과적으로 탐지하고 차단할 수 있음이 입증되었다. 특히 다국어 지원과 멀티모달 기능을 통해 기존 시스템보다 우수한 성능을 보여주고 있다. 악성코드 탐지 영역에서는 페라그(Ferrag) 등이 반양자화(HQQ), 직접 선호도 최적화(DPO) 등 고급 기술을 활용해 더 효과적인 위협 탐지가 가능함을 증명했다.

허위정보 대응 분야에서는 장(Zhang) 등이 개발한 계층적 프롬프팅 방식이 뉴스 진위 검증에서 기존 지도학습 방식을 능가하는 성능을 보였으며, 첸(Chen) 등의 확산 재구성 대조 학습(DRCT) 프레임워크는 딥페이크 이미지 탐지 정확도를 10% 이상 향상시키는 성과를 거두었다.

콘텐츠 조절 영역에서 생성형 AI는 대규모 온라인 플랫폼의 콘텐츠 조절을 효율화하고 있다. 문맥 학습 능력을 활용해 플랫폼 정책을 이해하고 위반 사항을 탐지하며, 텍스트, 이미지, 비디오에 걸친 복합적 맥락 파악이 가능하다는 장점을 보여주고 있다.

물리적 안전 영역으로의 확장

생성형 AI는 디지털 공간을 넘어 물리적 안전 영역까지 그 응용 범위를 넓히고 있다. 위기 대응 지원 분야에서 리스캄프(Rieskamp) 등의 연구는 생성형 AI가 비상상황에서 신속한 정보 제공과 의사소통 지원이 가능함을 보여줬으며, 오탈(Otal) 등은 라마2(LLama2) 모델을 활용해 사용자 지원과 당국 정보 전달을 효율화하는데 성공했다.

접근성 향상 측면에서는 왕(Wang) 등이 개발한 비전GPT(VisionGPT)가 실시간 영상을 분석해 시각장애인의 안전한 이동을 돕는 혁신적인 성과를 보여주었다. 정신 건강과 웰빙 분야에서는 VITA 시스템이 다중모달 생성형 AI를 활용해 사용자의 표정과 음성을 분석하고 맞춤형 코칭을 제공하고 있으며, 반페치(Vanpech) 등은 GPT-4를 활용해 이미지 기반 사이버불링을 탐지하는 시스템을 성공적으로 개발했다.

데이터 모달리티별 혁신

텍스트 처리 영역에서는 GPT-4, 제미니(Gemini), 라마(LLaMA) 등의 모델이 텍스트 분류, 개체명 인식, 번역 등에서 뛰어난 성능을 보이고 있으며, 다국어 처리에서도 우수한 성능을 보이면서 저자원 언어에 대한 지원까지 가능해졌다.

이미지 분석 분야에서는 GPT-4v와 같은 대규모 다중모달 모델이 이미지 이해와 처리에서 혁신을 이끌고 있으며, PaLI-X 모델은 복잡한 시각 작업에서 최고 성능을 달성하는 성과를 보여주었다.

비디오 처리 기술은 실시간 딥페이크 식별, 유해 콘텐츠 탐지 등에서 새로운 가능성을 보여주고 있다. 특히 판(Pang) 등이 개발한 잠재 변수 방어(LVD) 접근법은 안전하지 않은 비디오 생성을 효과적으로 차단하는데 성공했다.

오디오 분석 영역에서는 FakeAVCeleb, WaveFake 등의 데이터셋이 오디오 딥페이크 탐지 연구를 촉진하고 있으며, 컨포머(Conformer) 모델은 2% 미만의 단어 오류율로 음성 인식을 획기적으로 개선하는데 성공했다.

적대적 활용에 대한 대응

생성형 AI의 위협적 활용 가능성에 대한 대응도 활발히 연구되고 있다. 대규모 공격 위협 측면에서는 생성형 AI가 대규모 스팸 발송, 가짜 웹사이트 제작 등에 악용될 수 있는 위험이 있으며, 외국어 콘텐츠 생성을 통한 지역 타겟팅도 가능해졌다는 우려가 제기되고 있다.

피드백 기반 공격과 관련해서는 강화학습을 통해 더 효과적인 공격 모델을 만들 수 있다는 점이 확인되었으며, 캡차(CAPTCHA) 시스템도 생성형 AI로 우회될 수 있다는 취약점이 발견되었다.

개인화된 공격 분야에서는 개인 정보를 활용한 맞춤형 피싱 공격이 가능해졌으며, 프리텍스팅(Pre-texting) 기반의 사기도 자동화될 수 있다는 위험이 확인되었다.

미래 전망

생성형 AI의 사용자 안전 기술은 지속적으로 발전할 것으로 전망된다. 콘텐츠 이해 고도화 측면에서 모하메드(Mohammed) 등의 연구는 기성 모델만으로도 효과적인 콘텐츠 이해가 가능함을 입증했으며, 소수 클래스와 이상치 탐지에서도 우수한 성능을 보이고 있다.

파운데이션 앙상블 기술은 단일 모델로 다양한 보안 위협에 대응할 수 있는 가능성을 보여주고 있으며, 디톡스벤치(Detoxbench)는 다양한 안전 위반 탐지 능력을 측정하는 벤치마크를 제공함으로써 이 분야의 발전을 가속화하고 있다.

멀티모달리티 활용 측면에서는 양(Yang) 등의 연구를 통해 다중모달 모델이 보험 사기 탐지를 획기적으로 개선할 수 있음이 입증되었으며, 아카레(Akhare) 등은 다중모달 다목적 진화 알고리즘의 확장성을 성공적으로 입증했다.

2차 피해 예방과 관련해서는 데위테(Dewite)의 연구를 통해 챗봇의 장기적 사용이 가져올 수 있는 부작용이 분석되었으며, 크란츠(Kranz) 등은 AI 공동 파일럿을 통한 로봇 상호작용 안전성 향상 방안을 제시했다.

기사에 인용된 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




피싱에서 딥페이크까지, 생성형 AI가 지키는 당신의 온라인 안전 – AI 매터스 l AI Matters