• Home
  • News
  • 앤트로픽, 회로 추적 도구 오픈소스로 공개

앤트로픽, 회로 추적 도구 오픈소스로 공개

앤트로픽, AI 모델 회로 추적 도구 오픈소스로 공개
이미지 출처: 앤트로픽

앤트로픽(Anthropic)이 최근 인공지능 해석가능성 연구에서 소개한 대규모 언어 모델의 사고 과정을 추적하는 새로운 방법을 오픈소스로 공개했다. 29일(현지 시간) 발표된 이번 도구는 누구나 앤트로픽의 연구를 기반으로 발전시킬 수 있도록 제작됐다. 앤트로픽이 개발한 접근법은 모델이 특정 출력을 결정하기 위해 내부적으로 거친 단계를 부분적으로 보여주는 ‘속성 그래프(attribution graphs)’를 생성하는 것이다. 이번에 공개된 오픈소스 라이브러리는 인기 있는 오픈 웨이트 모델에서 속성 그래프 생성을 지원하며, 뉴런피디아(Neuronpedia)가 호스팅하는 프론트엔드를 통해 그래프를 대화형으로 탐색할 수 있다.

이 프로젝트는 앤트로픽 펠로우 프로그램 참가자들이 디코드 리서치(Decode Research)와 협력하여 주도했다. 사용자들은 뉴런피디아 인터페이스를 방문해 원하는 프롬프트에 대한 속성 그래프를 생성하고 볼 수 있다. 더 복잡한 사용과 연구를 위해서는 코드 저장소를 확인할 수 있다. 이번 공개를 통해 연구자들은 자체 속성 그래프를 생성하여 지원되는 모델의 회로를 추적할 수 있게 됐다. 또한 대화형 프론트엔드에서 그래프를 시각화하고, 주석을 달며, 공유할 수 있으며, 특성 값을 수정하고 모델 출력이 어떻게 변하는지 관찰하여 가설을 테스트할 수 있다.

앤트로픽은 이미 이 도구들을 사용해 제미나이-2-2b(Gemma-2-2b)와 라마-3.2-1b(Llama-3.2-1b)의 다단계 추론 및 다국어 표현과 같은 흥미로운 동작을 연구했다. 예시와 분석은 데모 노트북에서 확인할 수 있다. 앤트로픽은 또한 커뮤니티가 추가적인 흥미로운 회로를 찾는 데 도움을 주길 기대하고 있으며, 영감을 주기 위해 데모 노트북과 뉴런피디아에 아직 분석되지 않은 추가 속성 그래프를 제공한다.

앤트로픽의 CEO 다리오 아모데이(Dario Amodei)는 최근 해석가능성 연구의 시급성에 대해 언급했다. 현재 AI의 내부 작동에 대한 이해는 AI 기능의 발전 속도에 크게 뒤처져 있다. 앤트로픽은 이러한 도구를 오픈소스로 공개함으로써 더 넓은 커뮤니티가 언어 모델 내부에서 무슨 일이 일어나고 있는지 연구하기 쉽게 만들고자 한다.

오픈소스 회로 탐색 라이브러리는 앤트로픽 펠로우인 마이클 한나(Michael Hanna)와 마테우시 피오트로프스키(Mateusz Piotrowski)가 엠마뉴엘 아메이센(Emmanuel Ameisen)과 잭 린지(Jack Lindsey)의 지도하에 개발했다. 뉴런피디아 통합은 디코드 리서치에서 구현했으며, 뉴런피디아 책임자는 조니 린(Johnny Lin), 과학 책임자/디렉터는 커트 티게스(Curt Tigges)다. 제미나이 그래프는 제미나이스코프(GemmaScope) 프로젝트의 일부로 훈련된 트랜스코더를 기반으로 한다. 질문이나 피드백이 있으면 깃허브(GitHub)에서 이슈를 열어 문의할 수 있다.


해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.




앤트로픽, 회로 추적 도구 오픈소스로 공개 – AI 매터스 l AI Matters