앤트로픽(Anthropic)이 안전 대책을 테스트하기 위한 새로운 버그 바운티 프로그램을 15일(현지 시간) 시작했다. 앤트로픽 뉴스룸에 공개된 내용에 따르면, 이번 프로그램은 작년 여름에 발표된 이전 프로그램과…
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의 안전성을 획기적으로 강화하는 기술을 개발했다. 앤트로픽의…