COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act
EU AI법 첫 기술적 해석과 평가체계 등장
ETH 취리히와 INSAIT 소피아 대학 연구진이 EU AI법을 기술적으로 해석하고 이를 평가할 수 있는 최초의 종합적인 프레임워크 ‘COMPL-AI’를 개발했다. 이 프레임워크는 생성형 AI의 성능과 규제 준수 여부를 객관적으로 평가할 수 있는 23개의 벤치마크를 포함하고 있어, EU AI법 시행을 앞둔 AI 업계에 중요한 가이드라인이 될 것으로 기대된다.
COMPL-AI는 EU AI법이 제시하는 6대 윤리 원칙에 따라 평가 영역을 구분했다. 주요 평가 영역은 ▲기술적 견고성과 안전성 ▲개인정보보호와 데이터 관리 ▲투명성 ▲다양성과 차별방지 ▲공정성 ▲사회환경적 영향 등이다.
각 영역별로 구체적인 기술 요구사항과 평가 기준을 마련했다. 예를 들어 기술적 견고성 영역에서는 모델의 예측 가능성과 사이버 공격 대응력을, 투명성 영역에서는 모델의 성능과 한계에 대한 명확한 설명 여부를 평가한다. 특히 데이터 관리 영역에서는 저작권 침해 여부와 개인정보 보호 수준을 중점적으로 검증한다.
12개 대형 언어모델 평가 결과
연구진은 COMPL-AI를 활용해 GPT-4 Turbo, Claude 3 Opus, Llama 3 등 현재 가장 주목받는 12개의 대형 언어모델을 평가했다. 평가 대상에는 오픈소스 모델 9개와 비공개 모델 3개가 포함됐다.
평가 결과, 모든 모델이 EU AI법이 요구하는 수준의 완벽한 준수는 달성하지 못한 것으로 나타났다. 특히 투명성과 다양성, 차별방지, 공정성 측면에서 개선이 필요한 것으로 분석됐다. 가장 높은 점수를 받은 GPT-4 Turbo조차 전체 평가에서 0.84점(1점 만점)에 그쳤다.
주목할 만한 점은 모델의 크기가 작을수록 기술적 견고성과 안전성 측면에서 취약한 것으로 나타났다는 것이다. 또한 대부분의 모델이 유해 콘텐츠 생성 방지에는 높은 점수를 받았지만, 공정성 측면에서는 낮은 평가를 받았다.
연구진은 “현재 AI 모델들이 주로 성능 향상에만 초점을 맞추고 있어 규제 준수 측면이 부족하다”고 지적했다. 예를 들어 Qwen1.5-72B와 Mixtral-8x7B는 성능면에서 우수한 평가를 받았지만, 다른 규제 요구사항들을 충족시키지 못했다.
또한 현재의 벤치마크로는 일부 기술적 요구사항을 신뢰성 있게 평가하기 어렵다는 한계도 드러났다. 특히 설명가능성(Explainability)이나 교정가능성(Corrigibility) 등의 영역에서는 적절한 평가 도구가 부족한 상황이다.
향후 전망과 시사점
EU AI법 시행을 앞두고 COMPL-AI와 같은 평가 프레임워크의 중요성은 더욱 커질 전망이다. 연구진은 “AI 개발사들이 성능 향상뿐만 아니라 규제 준수를 위한 기술 개발에도 투자를 확대해야 한다”고 제언했다.
특히 EU AI법은 AI 시스템의 위험도에 따라 규제 수준을 차등 적용하는 만큼, 각 시스템의 위험도를 객관적으로 평가할 수 있는 기준과 도구의 필요성이 증가할 것으로 예상된다.
이번 연구는 EU AI법의 추상적인 규제 요구사항을 구체적인 기술 요구사항으로 해석하고, 이를 측정 가능한 벤치마크로 구현했다는 점에서 의미가 크다. 향후 AI 규제 체계가 정교화되면서 이와 같은 기술적 평가 프레임워크의 발전도 가속화될 것으로 전망된다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기