Why ‘open’ AI systems are actually closed, and why this matters
‘더 크고 더 강한’ AI: 비용과 자원의 벽에 막힌 혁신
네이처에 게재된 리포트에 따르면, ‘오픈’ AI 시스템이라는 개념이 정확히 무엇을 의미하는지 모호한 상황에서, 산업계 주요 기업들은 이를 자신들의 입맛대로 해석하고 있다. 일부는 혁신과 민주주의에 도움이 된다고 주장하고, 다른 일부는 안전성을 해친다며 우려를 표명한다.
현재 AI 개발은 ‘더 큰 것이 더 좋다’는 접근방식을 취하고 있으며, 모델이 클수록 학습과 보정에 더 많은 자원이 필요해 대기업 외에서는 대규모 모델 개발이 사실상 불가능한 상황이다.
불투명해지는 AI 모델과 데이터
최근 AI 모델들의 데이터셋 규모는 점점 더 불투명해지고 있다. 현재 공개된 가장 큰 AI 모델인 메타의 LLaMA-3는 15조 개의 토큰으로 학습되었다고 밝혔지만, 오픈AI(OpenAI)는 GPT-4의 크기를, 앤트로픽(Anthropic)은 클로드 3(Claude 3)의 훈련 데이터 규모를, 미스트랄 AI(Mistral AI)는 자사 모델의 훈련 데이터 크기를 공개하지 않고 있다.
빅사이언스(BigScience)의 BLOOM 모델은 498개의 데이터셋을 복합적으로 사용했다고 공개했는데, 이는 현대 AI 모델의 복잡성을 보여주는 사례다. 데이터셋 크기는 매년 약 2.4배씩 증가하고 있으며, 이는 AI 개발의 진입장벽을 더욱 높이고 있다.
진입장벽의 네 가지 열쇠: 모델, 데이터, 노동력, 컴퓨팅 파워
AI 시스템의 첫 번째 핵심 요소인 모델은 알고리즘 시스템의 일부분에 불과하다. 메타의 라마(LLaMA-3)나 UAE의 팔콘(Falcon) 40B 등이 ‘오픈’ AI 모델로 알려져 있지만, 실제로는 상당한 사용 제약이 따른다. 반면 비영리 조직인 엘류더AI(EleutherAI)는 소스 코드, 훈련 데이터, 완전한 문서화를 모두 제공하는 진정한 의미의 오픈 AI를 시도하고 있다. 스탠포드의 알파카(Alpaca) 모델은 단일 노트북에서 실행되도록 혁신적으로 개발되었으나, 비용과 환각 위험으로 서비스가 중단된 사례도 있다.
두 번째 요소인 데이터는 대부분이 비공개로 운영되고 있으며, 공개된 데이터조차도 저작권 문제나 데이터 주권 문제를 동반하고 있다. Te Hiku Media 사례에서 볼 수 있듯이 원주민 데이터 권리 문제도 중요한 이슈로 대두되고 있다.
세 번째 요소인 노동력 측면에서는 데이터 라벨링, 모델 보정, 콘텐츠 검수 등 다양한 인력이 필요하지만, 이러한 작업들이 대부분 저임금 노동력에 의존하고 있는 실정이다.
마지막으로 컴퓨팅 파워는 엔비디아가 AI칩 시장의 70-90%를 장악하고 있는 상황이다. 모델 학습에는 51,686 kWh, 미세조정에는 7,571 kWh, 추론 과정에는 1×10^-4 kWh의 전력이 소요되며, 전체 계산 능력 사용량은 지난 6년 동안 약 300,000배 증가했다.
프레임워크의 주인: 메타와 구글의 개발자 장악 전략
파이토치(PyTorch)는 학술 연구에서 가장 인기 있는 프레임워크로, 리눅스 재단 산하에 있지만 여전히 메타 직원들이 주요 의사결정을 하고 있다. 메타 CEO 마크 저커버그는 2023년과 2024년 실적발표에서 파이토치가 업계 표준이 되었으며 메타의 기술 스택과 통합되어 있어 전략적으로 매우 중요하다고 강조했다.
구글의 텐서플로우(TensorFlow)는 구글의 TPU 하드웨어와 최적화되어 있어, 클라우드 AI 컴퓨팅 사업에서 우위를 점하고 있다. 현재 400만 명 이상의 개발자가 엔비디아의 CUDA에 의존하고 있어 빅테크 기업들의 영향력이 더욱 강화되고 있다.
‘오픈소스’라는 미끼: 빅테크의 시장 지배력 강화 전략
대형 기술 기업들은 다양한 방식으로 오픈소스를 활용해 시장 지배력을 강화하고 있다. IBM은 리눅스에 10억 달러를 투자하며 마이크로소프트를 견제했고, 구글은 안드로이드를 오픈소스로 공개하여 모바일 OS 시장을 장악했다. 아마존은 MongoDB를 재구현하여 AWS 서비스를 확장했으며, 메타는 파이토치를 통해 외부 개발 성과를 자사의 이익으로 흡수하고 있다.
규제의 딜레마: ‘오픈 AI’를 둘러싼 정책적 과제
연구진은 AI의 개방성이 투명성, 재사용성, 확장성이라는 세 가지 주요 기능을 제공할 수 있지만, 이것만으로는 현재의 권력 집중 문제를 해결할 수 없다고 분석했다. 미스트랄 AI가 마이크로소프트의 Azure를 통해 시장에 접근하기로 한 최근 사례는 이러한 현실을 잘 보여준다.
현재 미국과 EU에서 AI 정책이 형성되는 과정에서 ‘오픈 AI’ 논의가 중요한 영향을 미치고 있으며, 기업들은 자신들의 사업 모델에 따라 규제 면제나 엄격한 라이선스 요구 등 상반된 입장을 보이고 있다. 연구진은 독점 규제 강화와 데이터 프라이버시 보호 등 추가적인 정책 조치가 필요하다고 강조했다.
해당 리포트의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기