생성형 AI 평가의 새로운 패러다임, ‘안전한 항구’

A Safe Harbor for AI Evaluation and Red Teaming

독립적 AI 평가의 중요성과 현재의 장벽

생성형 AI 기술이 급속도로 발전하면서 ChatGPT와 같은 시스템들이 1억 명 이상의 주간 사용자를 확보하는 등 소셜 미디어 플랫폼의 성장률을 뛰어넘고 있다. 이러한 상황에서 독립적인 AI 평가와 레드팀 테스팅의 필요성이 그 어느 때보다 높아지고 있다. 하지만 MIT, 프린스턴 대학 등의 연구진들이 발표한 최근 보고서에 따르면, 주요 AI 기업들의 현행 이용약관과 정책 집행 방식이 오히려 선의의 안전성 평가 연구를 저해하고 있는 것으로 나타났다.

연구진들은 “많은 연구자들이 계정 정지나 법적 보복에 대한 우려로 중요한 안전성 연구를 주저하고 있다”고 지적했다. 특히 일부 AI 기업들이 제공하는 연구자 접근 프로그램의 경우, 제한적인 커뮤니티 대표성, 불충분한 자금 지원, 기업 이해관계로부터의 독립성 부족 등으로 인해 독립적인 연구 접근권의 적절한 대안이 되지 못하고 있다는 분석이다.

‘안전한 항구’ 제안: 법적·기술적 보호 장치 마련

이러한 문제를 해결하기 위해 연구진은 주요 AI 개발사들이 두 가지 핵심적인 보호 조치를 약속할 것을 제안했다:

먼저 취약점 공개 정책을 준수하는 선의의 공익 연구에 대해 법적 보호를 제공하고, 계정 정지나 법적 보복의 위협으로부터 연구자들을 보호하는 것이다. 또한 안전성 연구를 수행하는 연구자들의 계정이 부당하게 중재되거나 정지되지 않도록 기술적 보호 장치를 마련하는 것을 촉구했다.

연구진은 이러한 보호 조치들이 “생성형 AI 시스템에 대한 포괄적이고 독립적인 평가를 위한 기본적인 접근 요구사항”이라고 강조했다. 이는 단순히 연구자들을 보호하는 차원을 넘어, AI 기술의 안전성과 신뢰성을 높이는 데 핵심적인 역할을 할 것으로 기대된다.

AI 기업들의 행동 변화 촉구와 기대 효과

보고서는 AI 기업들이 이러한 자발적 약속을 통해 얻을 수 있는 이점들을 제시했다. 우선 AI 안전성 연구에 대한 더 넓은 참여를 유도할 수 있으며, 특정 연구자나 기관에 대한 편애를 최소화하고 커뮤니티 주도의 안전성 평가를 장려할 수 있다는 것이다.

연구진은 “생성형 AI 기업들이 이러한 약속을 채택함으로써 더 나은 커뮤니티 규범을 확립하고, 자사 서비스에 대한 신뢰를 높이며, 독점 시스템의 AI 안전성을 크게 강화할 수 있을 것”이라고 전망했다. 이는 단기적으로는 기업에 부담이 될 수 있지만, 장기적으로는 AI 기술에 대한 사회적 수용성을 높이고 지속 가능한 발전을 가능케 하는 토대가 될 것이라는 분석이다.

독립적 AI 평가의 중요성과 잠재적 영향

보고서는 AI 시스템의 위험과 잠재적 피해에 대한 우려가 증가하고 있음을 강조했다. 독립적인 AI 평가와 레드팀 테스팅은 이러한 위험을 사전에 파악하고 대응책을 마련하는 데 중요한 역할을 한다.

연구진은 “외부 연구자들의 평가는 기업 내부 연구팀을 효과적으로 보완할 수 있다”며, “시스템이 큰 피해를 초래하기 전에 취약점을 발견하고 공유함으로써 AI 안전성 향상에 기여할 수 있다”고 설명했다. 특히 다양한 배경과 관점을 가진 연구자들의 참여는 AI 시스템의 편향성이나 예상치 못한 부작용을 발견하는 데 큰 도움이 될 것으로 예상된다.

제안의 실행을 위한 구체적 방안

연구진은 ‘안전한 항구’ 제안의 실행을 위해 몇 가지 구체적인 방안을 제시했다:

먼저 신뢰할 수 있는 제3자 기관(대학, 비영리 단체 등)에 연구자 접근 권한 부여 책임을 위임하는 방안과 함께 투명하고 독립적인 계정 정지 이의 제기 절차 마련해야 한다고 제안하고 있다. 또한 국가 인공지능 연구 자원(NAIRR) 등을 활용한 파트너십 구축해야 한다고 제시했다.

이러한 방안들은 AI 기업들의 부담을 줄이면서도 독립적이고 공정한 연구 환경을 조성하는 데 도움이 될 것으로 기대된다.

결론 및 향후 과제

연구진은 법적·기술적 ‘안전한 항구’가 AI 평가와 레드팀 테스팅을 위한 최소한의 기본적 보호 장치라고 주장했다. 이들은 “이러한 보호 조치들이 AI 연구 생태계의 규범을 크게 개선하고, 생성형 AI의 위험을 해결하기 위한 더욱 포용적인 커뮤니티 노력을 촉진할 것”이라고 전망했다.

다만 이러한 제안이 현실화되기 위해서는 AI 기업들의 자발적 참여와 함께 정책 입안자들의 지원, 그리고 연구 커뮤니티의 적극적인 협력이 필요할 것으로 보인다. 또한 국제적인 표준화 노력도 요구된다. AI 기술의 빠른 발전 속도를 고려할 때, 이러한 변화는 시급히 이루어져야 할 것이다.

결론적으로 이번 연구는 AI 기술의 안전성과 신뢰성 확보를 위한 새로운 패러다임을 제시했다는 점에서 큰 의의가 있다. 앞으로 이 제안을 둘러싼 활발한 논의와 실천적 노력이 이어질 것으로 기대된다.

보고서에 인용된 리포트 원문은 링크에서 확인할 수 있다.

본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.