앤트로픽, AI 안전 강화한 ‘책임있는 확장 정책’ 업데이트 발표

앤트로픽이 최첨단 AI 시스템의 잠재적 위험을 관리하기 위한 ‘책임있는 확장 정책(RSP)’ 업데이트를 발표했다. 이번 업데이트는 AI 위험을 평가하고 관리하는 더 유연하고 세분화된 접근 방식을 도입하면서도, 적절한 안전장치 없이는 모델을 학습하거나 배포하지 않겠다는 기존의 약속을 유지하고 있다.

주요 개선 사항으로는 새로운 능력 임계값 도입, 모델 능력 평가 및 안전장치 적절성 검토 프로세스 개선, 내부 거버넌스 및 외부 의견 수렴을 위한 새로운 조치 등이 포함됐다. 앤트로픽은 모델 능력이 증가함에 따라 더욱 엄격해지는 안전 및 보안 조치의 단계적 세트인 AI 안전 수준 표준(ASL Standards)을 사용하고 있으며, 현재 모든 모델은 업계 모범 사례를 반영한 ASL-2 표준 하에서 운영되고 있다.

특히 주목할 만한 것은 두 가지 주요 능력 임계값이다. 첫째, 모델이 인간 전문가 수준의 복잡한 AI 연구 작업을 독립적으로 수행할 수 있는 경우 ASL-4 이상의 보안 표준이 요구된다. 둘째, 모델이 CBRN(화학, 생물학, 방사능, 핵) 무기 제작 또는 배치를 의미 있게 지원할 수 있는 경우 ASL-3 표준의 강화된 보안 및 배포 안전장치가 필요하다.

앤트로픽은 정책의 효과적인 이행을 위해 정기적인 능력 평가, 안전장치 평가, 평가 문서화 프로세스, 내부 스트레스 테스트 및 외부 전문가 피드백 수렴 등의 조치를 마련했다. 이를 통해 AI 기술의 빠른 발전 속도에 더욱 효과적으로 대비하고, 잠재적 위험을 관리하면서도 AI의 혜택을 극대화할 수 있기를 기대하고 있다.

책임있는 확장 책임자로는 공동 창업자이자 최고과학책임자(CSO)인 재러드 캐플런이 임명됐으며, 앤트로픽은 RSP 이행 노력을 확대하기 위해 책임있는 확장 책임자 직책을 신설할 예정이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.