앤트로픽(Anthropic)이 브라우저에서 직접 작동하는 AI 에이전트 ‘클로드 포 크롬(Claude for Chrome)’ 확장프로그램의 제한적 파일럿 테스트를 시작했다고 26일(현지 시간) 발표했다. 이번 파일럿은 맥스(Max) 플랜 사용자 1000명을 대상으로 진행된다. 사용자들은 대기자 명단에 등록할 수 있으며, claude.ai/chrome에서 신청 가능하다. 클로드는 브라우저 내에서 사용자를 대신해 버튼 클릭, 양식 작성, 캘린더 관리, 이메일 답변 초안 작성 등의 작업을 수행할 수 있다.
하지만 브라우저를 사용하는 AI는 프롬프트 인젝션 공격이라는 새로운 보안 위험에 직면한다. 이는 악의적인 행위자들이 웹사이트나 이메일에 숨겨진 지시사항을 통해 AI가 파일 삭제나 데이터 도용 같은 해로운 행동을 하도록 속이는 공격이다.
앤트로픽이 실시한 레드 티밍 실험에서 안전 조치 없이는 23.6%의 공격 성공률을 보였다. 한 사례에서는 악의적인 이메일이 보안상의 이유로 이메일 삭제가 필요하다고 주장했고, 클로드는 확인 없이 사용자의 이메일을 삭제했다. 이에 대응해 회사는 여러 방어 조치를 도입했다. 사용자는 사이트별 접근 권한을 설정할 수 있고, 클로드는 위험도가 높은 작업 전에 확인을 요청한다. 또한 금융 서비스, 성인 콘텐츠 등 고위험 카테고리 웹사이트 접근을 차단하고 의심스러운 지시 패턴을 감지하는 분류기를 구축했다.
이러한 안전 조치를 통해 공격 성공률을 11.2%까지 낮췄으며, 브라우저 특정 공격에 대해서는 성공률을 0%까지 줄이는 데 성공했다.
앤트로픽은 금융, 법률, 의료 등 민감한 정보와 관련된 사이트에서는 클로드 포 크롬 사용을 피하고 신뢰할 수 있는 사이트부터 시작할 것을 권장했다. 파일럿을 통해 수집된 피드백은 더 강력한 안전 조치 개발에 활용될 예정이다.
해당 기사의 원문은 앤트로픽 뉴스룸에서 확인 가능하다.
이미지 출처: 앤트로픽