앤트로픽(Anthropic)이 안전 대책을 테스트하기 위한 새로운 버그 바운티 프로그램을 15일(현지 시간) 시작했다. 앤트로픽 뉴스룸에 공개된 내용에 따르면, 이번…
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의…