Search

“AI가 AI를 학습시킨다…합성 데이터의 빛과 그림자”

TechCrunch
이미지 출처: 미드저니 생성

인공지능(AI) 개발에서 가장 중요한 학습 데이터가 고갈 위기에 직면하면서 AI가 생성한 합성 데이터(Synthetic Data)가 대안으로 떠오르고 있다. 하지만 전문가들은 합성 데이터만으로는 한계가 있다고 지적했다.

테크크런치(TechCrunch)에 따르면 앤트로픽(Anthropic)은 자사의 주력 모델인 클로드 3.5 소네트(Claude 3.5 Sonnet) 학습에 합성 데이터를 일부 활용했다. 메타(Meta)도 라마 3.1(Llama 3.1) 모델을 합성 데이터로 파인튜닝했으며, 오픈AI(OpenAI)도 차기 모델인 오리온(Orion) 개발에 추론 모델 ‘o1’이 생성한 합성 데이터를 활용할 것으로 알려졌다.

AI의 학습 원리와 데이터의 중요성

AI 시스템은 통계적 기계다. 수많은 예시를 통해 패턴을 학습하고 예측을 수행한다. 여기서 주석(Annotations)이라고 불리는 데이터 레이블링이 중요한 역할을 한다. 예를 들어 주방 사진을 분류하는 모델의 경우, ‘주방’이라는 레이블이 달린 많은 사진을 학습하면서 냉장고나 조리대 같은 주방의 일반적 특징을 인식하게 된다.

디멘션 마켓 리서치(Dimension Market Research)는 데이터 주석 서비스 시장이 현재 8억 3,820만 달러 규모이며, 향후 10년 내 103억 4,000만 달러까지 성장할 것으로 전망했다. 2022년 한 연구에 따르면 전 세계적으로 수백만 명이 데이터 레이블링 작업에 종사하고 있다.

AI 학습 데이터 확보의 어려움

현재 AI 개발사들은 데이터 확보에 심각한 어려움을 겪고 있다. 셔터스톡(Shutterstock)은 AI 기업들에게 수천만 달러의 아카이브 접근료를 요구하고 있으며, 레딧(Reddit)은 구글, 오픈AI 등에 데이터 라이선스를 제공하며 수억 달러의 수익을 올렸다.

더욱 심각한 것은 웹사이트들의 AI 크롤러 차단이다. 상위 1000개 웹사이트 중 35% 이상이 오픈AI의 웹 크롤러를 차단했으며, ‘고품질’ 데이터의 약 25%가 주요 AI 학습 데이터셋에서 제외됐다. 에포크AI(Epoch AI)는 이런 추세가 지속되면 2026년에서 2032년 사이에 생성형 AI 모델을 학습시킬 데이터가 고갈될 것으로 전망했다.

합성 데이터의 성장과 활용

이러한 상황에서 합성 데이터는 매력적인 대안으로 부상했다. 라이터(Writer)라는 기업은 거의 전적으로 합성 데이터로 학습된 팔미라 X 004(Palmyra X 004) 모델을 공개했다. 개발 비용은 70만 달러로, 비슷한 규모의 오픈AI 모델 개발 추정 비용인 460만 달러의 약 15% 수준이다.

가트너(Gartner)는 올해 AI와 분석 프로젝트에 사용되는 데이터의 60%가 합성 데이터가 될 것으로 예측했다. 마이크로소프트(Microsoft)의 파이(Phi) 모델과 구글(Google)의 제마(Gemma) 모델도 합성 데이터로 학습됐으며, 메타는 동영상 생성기 무비젠(Movie Gen) 학습을 위해 라마 3(Llama 3)를 활용해 영상 캡션을 생성했다.

합성 데이터의 한계와 과제

하지만 합성 데이터에도 분명한 한계가 있다. 라이스대학교와 스탠포드대학교 연구진은 2023년 연구에서 합성 데이터에 과도하게 의존하면 모델의 ‘품질과 다양성이 점진적으로 감소한다’는 사실을 발견했다.

워싱턴대학교의 AI 윤리 연구자 오스 키예스(Os Keyes)는 “복잡한 모델들은 환각 현상을 일으키며, 이러한 모델이 생성한 데이터에도 환각이 포함된다”고 지적했다. 이는 더 많은 오류를 포함한 데이터를 생성하는 악순환으로 이어질 수 있다는 것이다.

앨런 인공지능 연구소(Allen Institute for AI)의 수석 연구원 루카 솔다이니(Luca Soldaini)는 “합성 데이터는 신중하게 검토하고 필터링해야 하며, 이상적으로는 실제 데이터와 함께 사용해야 한다”고 조언했다. 그는 “합성 데이터 파이프라인은 자체 개선 기계가 아니다. 학습에 사용하기 전에 출력물을 주의 깊게 검사하고 개선해야 한다”고 강조했다.

오픈AI의 CEO 샘 알트만(Sam Altman)은 AI가 언젠가 자체 학습에 충분한 수준의 합성 데이터를 생산할 수 있을 것이라고 전망했다. 하지만 현재까지 합성 데이터만으로 학습된 대형 AI 모델은 없으며, 전문가들은 당분간 AI 학습에서 인간의 개입이 필요할 것으로 전망했다.

기사에 인용된 벤처비트의 기사는 링크에서 확인할 수 있다.




“AI가 AI를 학습시킨다…합성 데이터의 빛과 그림자” – AI 매터스 l AI Matters