AI 에이전트 스킬 마켓플레이스의 민낯, 4만 개 분석하니 절반이 중복이고 9%는 위험했다

AI 에이전트가 단순한 대화 도구를 넘어 실제 업무를 수행하는 시대가 열리면서, 에이전트의 능력을 확장하는 ‘스킬(skill)’ 생태계가 폭발적으로 성장하고 있다. 스킬은 AI 에이전트가 특정 작업을 반복적으로 수행할 수 있도록 만들어진 재사용 가능한 모듈로, 사람으로 치면 업무 매뉴얼에 가깝다. 보쉬 리서치(Bosch Research)와 카네기 멜론 대학교(Carnegie Mellon University) 공동 연구팀이 공개 스킬 마켓플레이스에 등록된 4만 285개의 스킬을 전수 분석한 결과, 화려한 성장세 이면에 절반에 가까운 중복 등록과 무시할 수 없는 보안 위험이 공존하고 있다는 사실이 드러났다.

20일 만에 18.5배 성장, 그런데 성장의 실체는

연구팀이 주요 스킬 마켓플레이스인 스킬스닷에스에이치(skills.sh)를 분석한 결과, 등록 스킬 수는 2026년 1월 16일 2,179개에서 2월 5일 40,285개로 단 20일 만에 18.5배 증가했다. 하루 평균 1,918개가 새로 등록된 셈이지만, 이 성장은 균일하지 않았다. 1월 25일 하루에만 8,857개가 등록됐는데, 이는 전체 신규 등록의 23.2%에 해당한다.

이 폭발적 증가는 같은 시기 오픈소스 스킬 애플리케이션 ‘오픈클로(OpenClaw)’의 깃허브(GitHub) 스타 수와 정확히 동기화됐다. 오픈클로는 1월 26일 하루에만 25,432개의 스타를 받았고, 이 시점에 스킬 등록도 정점을 찍었다. 연구팀은 이를 커뮤니티의 관심 쏠림이 스킬 공급을 폭발적으로 끌어올린 ‘버스트(bursty)’ 패턴으로 해석했다. 동기화된 급등은 공통된 외부 관심이 마켓플레이스 성장과 동반됐음을 보여준다고 논문은 설명한다.

스킬의 절반 가까이가 중복, 생태계 동질성 심각

연구팀이 스킬 이름 기반의 중복 분석을 수행한 결과, 전체의 53.7%만이 고유한 이름을 가진 것으로 나타났다. 나머지 46.3%는 동일한 이름을 가진 다른 스킬과 최소 한 번 이상 겹쳤다. 가장 많이 중복된 스킬 이름인 ‘스킬 크리에이터(skill-creator)’는 무려 251개의 동일 이름 등록이 존재했다. ‘프론트엔드 디자인(front-end-design)’은 162개, ‘MCP 빌더(mcp-builder)’는 103개가 중복 등록됐다.

이러한 중복은 사용자 입장에서 원하는 스킬을 찾기 어렵게 만들고, 고품질 스킬이 검색 결과에서 묻히는 결과를 낳는다. 개발자들이 새로운 기능을 만드는 데 집중하기보다 기존 기능을 재포장하는 데 에너지를 쏟고 있다는 방증이기도 하다. 연구팀은 이 문제를 해결하기 위해 명확한 표준 스킬 지정, 버전 관리 강화, 중복 등록을 줄이는 플랫폼 설계가 필요하다고 지적한다.

공급과 수요의 불일치, 개발자가 만드는 것과 사용자가 원하는 것이 다르다

스킬의 카테고리별 분포를 살펴보면 공급과 수요 사이의 명확한 불균형이 드러난다. 전체 스킬의 54.7%가 소프트웨어 엔지니어링 관련이며, 그 중 인프라(Infrastructure) 스킬이 9,664개로 단일 하위 카테고리 중 가장 많다. 개발자들이 코딩, 테스트, 환경 설정 관련 스킬을 쉽게 만들고 공유할 수 있기 때문이다.

반면 사용자들이 가장 많이 설치하는 스킬은 따로 있었다. 웹 검색(Web Search) 스킬은 전체 등록 수의 1.4%에 불과하지만, 스킬당 평균 설치 수는 1,268건으로 전체 카테고리 중 단연 1위다. 콘텐츠 생성 카테고리도 설치 수가 높은 반면, 등록 수는 상대적으로 적었다. 즉 사용자들은 정보 검색과 콘텐츠 생성 기능을 원하는데, 개발자들은 소프트웨어 엔지니어링 스킬을 과잉 공급하고 있는 셈이다.

스킬 9%는 위험 등급, 비밀번호부터 금융 거래까지

이번 연구에서 가장 주목해야 할 발견은 보안 위험 분석 결과다. 연구팀은 AI 모델(Qwen2.5-32B)을 활용해 전체 스킬을 L0(안전)부터 L3(위험)까지 4단계로 분류했다. 전체의 54%는 공개 정보만 읽는 안전한 수준(L0)이었지만, 30%는 제한적 쓰기·실행 행동이 가능한 중간 위험(L2), 9%는 시스템 전체에 영향을 미칠 수 있는 최고 위험(L3)으로 분류됐다.

L3 위험 스킬의 구체적 사례는 충격적이다. 암호화 키와 데이터베이스 비밀번호를 다루는 스킬, SSH 키를 생성해 원격 서버에 접근할 수 있는 스킬, 암호화폐 지갑을 연결해 금융 거래를 실행하는 스킬, 셸(shell) 명령어를 직접 실행해 시스템을 제어하는 스킬 등이 공개 마켓플레이스에 버젓이 등록돼 있었다. 카테고리별로는 소프트웨어 엔지니어링 스킬의 L3 비율이 14%로 가장 높았고, 유틸리티 및 기타 카테고리도 11%를 기록했다. 연구팀은 현재 프레임워크가 상태 변경 행동에 대한 세밀한 제어 기능을 갖추지 못하고 있다며, 최소 권한 원칙을 강제하는 샌드박스(sandboxing, 격리 실행 환경) 도입이 시급하다고 경고한다.

빠른 성장이 만들어낸 구조적 문제들

연구팀은 에이전트 스킬 생태계가 지금 변곡점에 놓여 있다고 평가한다. 급격한 성장은 커뮤니티의 기여로 가능했지만, 장기적인 가치는 품질 높은 비중복 스킬의 축적에 달려 있기 때문이다.

스킬의 길이 분포도 또 다른 과제를 제시한다. 대부분의 스킬은 중앙값 기준 1,414 토큰(token, AI가 텍스트를 처리하는 기본 단위)으로 적당한 길이를 유지하지만, 상위 1%는 9,253 토큰을 초과하며 최대 116,239 토큰에 달하는 스킬도 존재했다. 이런 초장문 스킬은 AI의 처리 예산을 과도하게 소비해 성능 저하를 유발할 수 있다. 연구팀은 필요한 부분만 선택적으로 불러오는 모듈화 로딩 방식이 이 문제의 해법이 될 수 있다고 제안한다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI 에이전트 스킬이란 정확히 무엇인가요? AI 에이전트 스킬은 클로드(Claude)와 같은 AI 에이전트가 특정 작업을 반복적으로 수행할 수 있도록 만든 재사용 가능한 모듈입니다. 예를 들어 ‘웹 검색’, ‘코드 리뷰’, ‘문서 작성’ 같은 행동을 미리 정의해두면, 에이전트가 사용자 요청에 따라 적절한 스킬을 자동으로 선택해 실행합니다.

Q2. 스킬 마켓플레이스가 위험한 이유는 무엇인가요? 공개 마켓플레이스에는 누구나 스킬을 등록할 수 있어 보안 검증이 충분하지 않습니다. 이번 연구에서는 전체 스킬의 9%가 시스템 접근 권한 획득, 금융 거래 실행, 임의 코드 실행 등 심각한 위험을 초래할 수 있는 최고 위험 등급으로 분류됐습니다. 스킬을 설치할 때는 출처와 기능을 꼼꼼히 확인하는 것이 중요합니다.

Q3. 스킬이 많이 깔린다고 좋은 스킬인가요? 꼭 그렇지는 않습니다. 설치 수가 가장 많은 웹 검색 스킬은 등록 수가 적음에도 불구하고 사용자들이 집중적으로 선택한 것입니다. 반대로 소프트웨어 엔지니어링 스킬은 공급이 과잉이지만 스킬당 설치 수는 낮습니다. 다운로드 수보다는 사용 목적에 맞는지, 보안 등급은 어떤지를 확인하는 것이 더 중요합니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Agent Skills: A Data-Driven Analysis of Claude Skills for Extending Large Language Model Functionality

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.