앤트로픽, 아티팩트 시스템 프롬프트 공개 예정

앤트로픽(Anthropic)이 지난주 공개한 클로드(Claude) 모델군의 시스템 프롬프트가 불완전하다는 지적이 제기됐다. 이에 회사 측은 최근 출시한 ‘아티팩트(Artifacts)’ 기능의 시스템 프롬프트를 몇 주 내로 추가 공개하겠다고 밝혔다.

미국 테크 매체 벤처비트(VentureBeat)는 “향후 몇 주 안에 아티팩트를 포함한 시스템 프롬프트에 대한 자세한 정보를 추가할 예정”이라고 확인했다. 지난주 일반 공개된 아티팩트는 클로드 모델군의 일부지만, 이와 관련된 시스템 프롬프트는 최근 공개 내용에 포함되지 않았다. 아티팩트는 클로드 채팅 인터페이스 옆에 창을 열어 코드 스니펫을 실행할 수 있는 기능이다.

앤트로픽의 클로드 시스템 프롬프트 공개는 모델 동작 방식을 투명하게 공개한다는 점에서 언론의 호평을 받았다. 그러나 모하메드 살리(Mohammed Sahli) 등 일부 연구자들은 아티팩트 시스템 프롬프트가 제외된 점을 지적하며 회사의 주장이 부족하다고 비판했다.

앤트로픽 측은 아티팩트 시스템 프롬프트가 포함되지 않은 이유를 단순히 공개 시점의 차이라고 설명했다. 아티팩트는 시스템 프롬프트 공개 발표 이후에야 일반 사용자에게 공개됐다는 것이다.

인공지능(AI) 모델 개발자들은 대규모 언어 모델(LLM)의 시스템 프롬프트를 공개할 의무는 없다. 그러나 이러한 작동 지침을 찾아내는 것은 많은 AI 해커들의 관심사이며, 모델 출시 후 개발자 커뮤니티에서 해킹된 프롬프트가 공유되는 것은 거의 일상적인 일이 됐다.

시스템 프롬프트를 공개하면 LLM이 더 투명해지고, 개발자들이 모델의 의도된 행동 방식과 특정 사용자 요청을 거부하는 이유를 보여줄 수 있다.

벤처비트의 기사 전문은 링크에서 확인할 수 있다.