앤트로픽이 AI 모델의 안전성을 강화하기 위해 버그 바운티 프로그램을 확대한다고 발표했다. 이번 확대는 AI 모델의 오용을 방지하기 위한 완화 조치에서 결함을 찾는 새로운 이니셔티브에 초점을 맞추고 있다. 특히 CBRN(화학, 생물학, 방사능, 핵) 및 사이버 보안과 같은 중요하고 위험도가 높은 영역에서의 취약점 해결에 주력할 예정이다.
프로그램의 주요 특징은 다음과 같다.
- Early Access:
- 참가자들에게 공개 배포 전 최신 안전 완화 시스템 테스트 기회 제공
- 통제된 환경에서 잠재적 취약점이나 안전 조치 우회 방법 식별 도전
- Program Scope:
- 최대 15,000달러의 바운티 보상 제공
- 주요 목표는 CBRN 및 사이버 보안 분야의 중요 고위험 도메인에서 취약점을 노출할 수 있는 새로운 유니버설 제일브레이크 공격 식별
- 유니버설 제일일브레이크는 다양한 주제에 걸쳐 안전 조치를 일관되게 우회할 수 있는 취약점으로 정의
이 프로그램은 초기에 HackerOne과 파트너십을 통해 초대 방식으로 운영되며, 향후 더 광범위하게 확대될 예정이다. 경험 있는 AI 보안 연구원이나 언어 모델의 재일브레이크 식별에 전문성을 입증한 사람들은 8월 16일까지 초대를 신청할 수 있으며, 선정된 지원자들에게는 가을에 후속 연락이 갈 예정이다.
앤트로픽은 현재 시스템의 잠재적 안전 문제 발견 시 usersafety@anthropic.com으로 보고를 요청하고 있다. 이 이니셔티브는 백악관이 발표한 ‘자발적 AI 약속’과 G7 히로시마 프로세스를 통해 만들어 ‘첨단 AI 시스템 개발 조직의 행동 강령’과 같은 책임 있는 AI 개발에 대한 약속과 일치한다고 회사 측은 밝혔다. 앤트로픽은 “AI 능력이 발전함에 따라 안전 조치도 발맞춰 나갈 수 있도록 하는 것이 목표”라며, 관련 전문가들의 적극적인 참여를 촉구했다.
자세한 사항은 앤트로픽 홈페이지에서 확인 가능하다.
관련 콘텐츠 더보기