• Home
  • News
  • 앤트로픽 CEO “2027년까지 AI 모델 내부 완전 해석 목표”

앤트로픽 CEO “2027년까지 AI 모델 내부 완전 해석 목표”

앤트로픽 CEO “2027년까지 AI 모델 내부 완전 해석 목표”
이미지 출처: 앤트로픽

앤트로픽(Anthropic) CEO 다리오 아모데이가 AI 해석가능성의 중요성을 강조하며 기술 발전 속도와의 경쟁에서 이길 필요성을 역설했다. 24일(현지 시간) 아모데이가 자신의 웹사이트에 발표한 게시물에 따르면 AI 내부 작동 원리를 이해하는 것은 안전한 AI 발전을 위한 필수 요소다. 지난 10년간 AI 분야가 작은 학문 영역에서 세계에서 가장 중요한 경제적, 지정학적 이슈로 성장하는 과정을 지켜봐 온 아모데이는 AI 기술 발전이 멈출 수 없는 추세이지만, 그 방향을 조정하는 것은 가능하다고 주장했다.

“현대 생성형 AI 시스템은 전통적인 소프트웨어와 근본적으로 다른 방식으로 불투명하다”고 아모데이는 설명했다. 일반 소프트웨어는 인간이 프로그래밍한 대로 작동하지만, 생성형 AI는 특정 단어를 선택하거나 실수를 하는 이유를 정확히 알 수 없다. 앤트로픽의 공동 창업자인 크리스 올라(Chris Olah)의 표현에 따르면, “생성형 AI 시스템은 구축되기보다 성장한다.” 이 시스템의 내부 구조는 직접 설계되기보다는 ‘창발적’이며, 이는 식물 성장과 유사하게 조건은 통제할 수 있지만 정확한 구조는 예측하기 어렵다.

앤트로픽은 최근 AI 모델 내부의 ‘특징(features)’과 ‘회로(circuits)’를 식별하는 데 상당한 진전을 이루었다. 중간 규모의 상업용 모델(Claude 3 Sonnet)에서 3천만 개 이상의 특징을 발견했으며, 이는 모델 내부의 개념 작동 방식을 이해하는 첫 단계다. 특히 ‘회로’ 연구를 통해 모델의 사고 과정을 추적할 수 있게 되었다. 예를 들어, “달라스가 있는 주의 수도는 무엇인가?”라는 질문에 대해 모델이 어떻게 ‘달라스’에서 ‘텍사스’를, 다시 ‘오스틴’을 연결하는지 추적할 수 있게 되었다.

아모데이는 AI 시스템의 불투명성이 여러 위험을 초래한다고 지적했다. 먼저 모델이 의도하지 않은 해로운 행동을 예측하고 방지하기 어려운 오정렬 시스템 문제가 있다. 또한 인간을 속이거나 권력을 추구하는 능력이 AI 시스템에 자체적으로 발전할 수 있으며, 불투명성으로 인해 이런 경향을 감지하기 매우 어렵다. 위험한 정보를 모델이 유출하는 것을 방지하기 어려운 오용 가능성도 심각한 문제로, 행동 한계를 명확히 설정할 수 없어 금융이나 안전이 중요한 환경에서 AI 활용이 제한되고 있는 실정이다.

“우리는 해석가능성과 모델 지능 사이의 경쟁 중에 있다,” 아모데이는 경고했다. 최근 진전은 5-10년 내에 해석가능성이 “AI를 위한 MRI”가 될 것이라는 희망을 주지만, AI 자체가 너무 빠르게 발전해 2026-2027년경에는 이미 “데이터센터의 천재들 국가” 수준의 AI가 등장할 수 있다.

아모데이는 해석가능성 발전을 위한 여러 접근법을 제안했다. 우선 AI 연구자들이 해석가능성 연구에 적극적으로 참여해야 한다고 강조했다. 앤트로픽은 2027년까지 “해석가능성이 대부분의 모델 문제를 안정적으로 감지할 수 있다”는 목표를 세웠다. 또한 정부가 기업들의 안전 및 보안 관행에 대한 투명한 공개를 요구하는 가벼운 규제를 도입하여 책임 있는 AI 개발을 장려할 필요가 있다고 제안했다.

마지막으로 수출 통제를 통해 민주주의 국가들이 AI 개발에서 독재 국가보다 앞서 나가면서 해석가능성이 발전할 수 있는 시간적 여유를 확보해야 한다고 주장했다. “강력한 AI는 인류의 운명을 형성할 것이며, 우리는 이러한 창조물이 우리 경제, 삶, 그리고 미래를 급격히 변화시키기 전에 이해할 자격이 있다,” 아모데이는 결론을 맺었다.

다리오 아모데이의 에세이 전문은 링크에서 확인할 수 있다.

이미지 출처: 앤트로픽

기사는 클로드와 챗gpt를 활용해 작성되었습니다.




앤트로픽 CEO “2027년까지 AI 모델 내부 완전 해석 목표” – AI 매터스