인공지능(AI) 업계가 합성 데이터에 주목하고 있다. 실제 데이터 확보가 점점 어려워지면서 AI가 생성한 데이터로 또 다른 AI를 훈련시키는 방식이 각광받고 있다. 하지만 이 방식에는 장단점이 공존한다. 미국 IT기업 테크크런치는 합성데이터를 사용하는 AI모델에 대한 분석기사를 보도했다.
앤트로픽(Anthropic)은 자사의 주력 모델인 클로드 3.5 소네트(Claude 3.5 Sonnet)를 훈련시키는 데 일부 합성 데이터를 사용했다. 메타(Meta)는 라마 3.1(Llama 3.1) 모델을 미세 조정하는 데 AI 생성 데이터를 활용했다. 오픈AI(OpenAI)도 추론 모델인 o1에서 생성한 합성 데이터를 활용해 차기 모델 오리온(Orion)을 개발 중인 것으로 알려졌다.
AI 시스템은 통계적 기계다. 수많은 예시를 통해 학습하며 패턴을 파악해 예측을 수행한다. 이 과정에서 주석이 중요한 역할을 한다. 주석은 주로 데이터의 의미나 부분을 설명하는 텍스트로, 모델이 사물, 장소, 개념을 구분하도록 ‘가르치는’ 역할을 한다.
예를 들어 ‘주방’이라고 라벨링된 많은 주방 사진을 본 이미지 분류 모델은 훈련을 거치며 ‘주방’과 주방의 일반적 특징(냉장고, 조리대 등)을 연관 짓게 된다. 훈련이 끝나면 처음 보는 주방 사진도 ‘주방’으로 식별할 수 있게 된다.
디멘션 마켓 리서치(Dimension Market Research)에 따르면 주석 서비스 시장 규모는 현재 8억 3,820만 달러에 달하며, 향후 10년 내 103억 4,000만 달러까지 성장할 전망이다.
인간의 편향, 실수, 속도 제한 등으로 인해 인력을 활용한 데이터 라벨링에는 한계가 있다. 또한 데이터 자체의 가격도 상승하고 있다. 셔터스톡(Shutterstock)은 AI 기업들에게 수천만 달러를 받고 자사 아카이브에 대한 접근권을 판매하고 있으며, 레딧(Reddit)은 구글, 오픈AI 등에 데이터 라이선스를 제공해 수억 달러의 수익을 올렸다.
더욱이 데이터 확보 자체가 어려워지고 있다. 세계 상위 1,000개 웹사이트의 35% 이상이 오픈AI의 웹 스크래퍼를 차단하고 있으며, ‘고품질’ 출처의 데이터 중 25% 가량이 주요 AI 훈련 데이터셋에서 제외됐다는 연구 결과도 있다.
에포크 AI(Epoch AI)의 전망에 따르면 현재의 추세가 지속될 경우 2026년에서 2032년 사이에 생성형 AI 모델 훈련에 필요한 데이터가 고갈될 것으로 보인다.
합성 데이터는 이러한 문제들의 해결책으로 떠오르고 있다. 주석이 필요하면 생성하면 되고, 더 많은 예시 데이터가 필요하면 만들어내면 된다는 것이다.
워싱턴대학교에서 신기술의 윤리적 영향을 연구하는 박사과정생 오스 키스는 “데이터가 새로운 석유라면 합성 데이터는 바이오 연료와 같다”고 말했다. 그는 “실제 데이터의 부정적 외부효과 없이 만들 수 있으며, 적은 양의 초기 데이터셋으로 시뮬레이션하고 외삽해 새로운 데이터를 만들어낼 수 있다”고 설명했다.
AI 업계는 이 개념을 적극 활용하고 있다. 기업용 생성형 AI 기업인 라이터(Writer)는 이달 초 거의 전적으로 합성 데이터로 훈련된 모델인 팔미라 X 004(Palmyra X 004)를 공개했다. 라이터는 개발 비용이 70만 달러에 불과했다고 주장했는데, 이는 비슷한 규모의 오픈AI 모델 개발 추정 비용인 460만 달러에 비해 훨씬 적은 금액이다.
마이크로소프트(Microsoft)의 파이(Phi) 오픈 모델과 구글(Google)의 젬마(Gemma) 모델도 부분적으로 합성 데이터를 사용해 훈련됐다. 엔비디아(Nvidia)는 올 여름 합성 훈련 데이터를 생성하도록 설계된 모델군을 공개했으며, AI 스타트업 허깅페이스(Hugging Face)는 최근 가장 큰 규모의 합성 텍스트 AI 훈련 데이터셋을 공개했다고 주장했다.
가트너(Gartner)는 올해 AI와 분석 프로젝트에 사용되는 데이터의 60%가 합성적으로 생성될 것으로 예측했다.
하지만 합성 데이터가 만능해결책은 아니다. 모든 AI와 마찬가지로 ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)’는 문제에서 자유롭지 않다. 합성 데이터를 만드는 모델이 편향되고 제한적인 데이터로 훈련됐다면, 그 결과물 역시 같은 문제를 안고 있을 것이다.
키스는 “기본 데이터에서 제대로 대표되지 않은 그룹은 합성 데이터에서도 마찬가지일 것”이라고 지적했다.
라이스대학교와 스탠퍼드대학교 연구진의 2023년 연구에 따르면, 훈련 과정에서 합성 데이터에 과도하게 의존하면 모델의 ‘품질이나 다양성이 점진적으로 감소’할 수 있다. 연구진은 실제 세계를 제대로 반영하지 못하는 샘플링 편향으로 인해 몇 세대의 훈련을 거치면서 모델의 다양성이 악화된다고 밝혔다. 다만 실제 데이터를 일부 섞어 사용하면 이 문제를 완화할 수 있다고 덧붙였다.
키스는 오픈AI의 o1과 같은 복잡한 모델이 만들어내는 합성 데이터에서 더 발견하기 어려운 환각이 생길 수 있다고 우려했다. 이는 결과적으로 해당 데이터로 훈련된 모델의 정확도를 떨어뜨릴 수 있으며, 특히 환각의 출처를 쉽게 파악할 수 없다면 더욱 문제가 될 수 있다.
학술지 네이처(Nature)에 실린 한 연구는 오류가 있는 데이터로 훈련된 모델이 더 많은 오류를 포함한 데이터를 생성하고, 이러한 피드백 루프가 미래 세대의 모델을 저하시키는 과정을 보여줌다. 연구진은 여러 세대를 거치며 모델이 더 난해한 지식에 대한 이해력을 잃어가는 것을 발견했다. 모델은 점점 더 일반화되고 종종 주어진 질문과 무관한 답변을 내놓게 된다는 것이다.
앨런 AI 연구소의 수석 연구 과학자 루카 솔다이니는 “원본 그대로의 합성 데이터는 신뢰할 수 없다”고 말했다. 그는 합성 데이터를 ‘안전하게’ 사용하려면 철저한 검토, 큐레이션, 필터링 과정을 거쳐야 하며, 이상적으로는 새로운 실제 데이터와 함께 사용해야 한다고 조언했다.
이러한 과정을 거치지 않으면 결국 모델 붕괴로 이어질 수 있다. 모델 붕괴란 모델이 출력물에서 점점 덜 ‘창의적’이고 더 편향된 결과를 내놓다가 결국 기능이 심각하게 손상되는 현상을 말한다.
솔다이니는 “연구자들은 생성된 데이터를 검토하고 생성 과정을 반복하며 저품질 데이터 포인트를 제거하기 위한 안전장치를 마련해야 한다”고 강조했다. 그는 “합성 데이터 파이프라인은 자체 개선 기계가 아니다. 훈련에 사용되기 전에 출력물을 주의 깊게 검사하고 개선해야 한다”고 덧붙였다.
오픈AI의 샘 알트만(Sam Altman) CEO는 언젠가 AI가 자체 훈련에 충분한 수준의 합성 데이터를 생산할 수 있을 것이라고 주장한 바 있다. 그러나 이것이 실현 가능하다고 해도 아직 그런 기술은 존재하지 않는다. 지금까지 합성 데이터만으로 훈련된 모델을 공개한 주요 AI 연구소는 없다.
테크크런치의 기사는 링크에서 확인할 수 있다.
관련 콘텐츠 더보기