LLM 유해성 공격 전략에 대한 실증적 분석 오픈AI의 챗GPT와 앤트로픽의 클로드 등 대규모 언어 모델(Large Language Models, LLMs)의 활용이 급격히 확대되면서, 이들 모델의 안전성에…
Artificial Intelligence in Aerospace and Defense 항공기 17,000대 생산 지체에 직면한 업계, AI로 생산혁신 모색 항공우주 및 방위(A&D) 산업이 심각한 생산능력 한계에 직면하면서 인공지능(AI)…
SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors AI의 ‘나쁜 생각’ 미리 알아채는 기술, 96% 정확도 달성 옥스포드 대학교(University of…
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의 안전성을 획기적으로 강화하는 기술을 개발했다. 앤트로픽의…
Lessons from red teaming 100 generative AI products AI 레드팀이 발견한 8가지 핵심 교훈 마이크로소프트 AI 레드팀(AIRT)이 100개 이상의 생성형 AI 제품을 테스트한 결과를…
대규모 언어 모델(Large Language Models, LLM)의 급속한 발전과 함께 이를 악용하려는 시도 또한 증가하고 있다. 최근 위스콘신 매디슨 대학을 중심으로 한 연구진이 개발한 ‘AutoDAN-Turbo’라는…