전 세계 데이터 양이 2029년까지 3배로 늘어날 것으로 예상되는 가운데, 대형 언어 모델(LLM)로 불리는 생성형 AI가 기업의 가장 골치 아픈 문제 중 하나인 ‘지저분한 데이터 정리’의 해결사로 떠오르고 있다. 국제 전문 학회 IEEE가 발표한 연구 논문에 따르면, 대형 언어 모델이 단순한 대화 프로그램을 넘어 복잡한 데이터 정리와 통합 작업을 자동으로 해주는 강력한 도구로 자리 잡고 있다.
기업 돈 20-30% 날리는 ‘지저분한 데이터’… 이제 생성형 AI가 정리한다
데이터가 엉망이어서 기업이 잃는 돈이 얼마나 될까? 논문에 따르면 기업 수익의 약 30%가 데이터 품질 문제 때문에 날아간다. 실제 현장에서 쓰는 원본 데이터는 형식이 제각각이고, 오타가 있고, 빈칸도 많다. 예를 들어 날짜를 어떤 곳에서는 ‘2021년 1월 1일’로 쓰고, 다른 곳에서는 ‘20210101’로, 또 다른 곳에서는 ’01/01/2021’로 쓰는 식이다. 이렇게 통일되지 않은 데이터는 분석도 힘들고 의사결정에도 큰 장애가 된다.
기존에는 이런 데이터를 정리하려면 복잡한 규칙을 만들고 사람이 직접 손봐야 했다. 정규식이라는 프로그래밍 규칙이나 검증 조건 같은 시스템은 많은 수작업과 전문 지식이 필요했다. 또한 기존 딥러닝 모델은 특정 작업에만 맞춰져 있어서 다양한 종류의 데이터나 업종에 적용하기 어려웠다.
대형 언어 모델은 이런 한계를 넘어설 수 있는 네 가지 장점을 제공한다.
첫째, 복잡한 프로그램 코드를 작성하는 대신 평범한 말로 지시하면 된다. “날짜를 모두 ‘YYYYMMDD’ 형식으로 바꿔줘” 같은 문장만 입력하면 AI가 알아서 처리한다.
둘째, AI는 줄임말, 비슷한 말, 업계 전문용어의 애매한 부분을 이해하고 정확히 처리할 수 있다.
셋째, 한 분야에서만 쓰던 기존 방식과 달리 여러 종류의 데이터와 다양한 업종에 쉽게 적용된다.
넷째, 많은 양의 정답 데이터가 없어도 AI가 이미 배운 지식과 외부 정보를 활용해서 작업할 수 있다.
사람이 일일이 정리하던 방식에서 AI가 알아서 하는 방식으로 변화
LLM 기반 데이터 정리의 가장 큰 변화는 고정된 규칙 중심 방식에서 AI가 상황에 맞게 판단하는 방식으로의 전환이다. 이 변화를 이끄는 세 가지 요인이 있다.
첫째, 고객 맞춤 서비스나 실시간 분석처럼 바로 쓸 수 있는 깨끗한 데이터가 필요한 상황이 늘었다.
둘째, 정해진 규칙대로만 움직이던 시스템에서 애매한 데이터 패턴도 이해하고 다양한 형식에 적응하는 AI 에이전트 시스템으로 발전했다.
셋째, 데이터브릭스 유니티 카탈로그 같은 AI 활용 도구가 제공되고 오픈소스 LLM이 많아졌다.
특히 주목할 만한 것은 ‘AI 에이전트’ 방식이다. 클린에이전트(CleanAgent)나 오토DC워크플로우(AutoDCWorkflow) 같은 시스템은 LLM을 활용해 데이터 정리 작업을 조율한다. 이 AI 에이전트들은 데이터의 어떤 부분이 문제인지 찾아내고, 필요한 도구를 불러와서 사람 손을 거의 거치지 않고 효과적으로 데이터를 정리한다. 예를 들어 클린에이전트는 날짜 정리 같은 특정 작업을 전문 프로그램 API와 연결하고, 명령을 만들어서 반복적으로 실행한다.
논문은 LLM 기반 데이터 정리 기법을 세 가지로 나눈다.
첫 번째 방법(M1)은 간단한 명령어를 주는 프롬프트 방식으로, 예시를 거의 안 주거나 몇 개만 주고, 단계별 생각 과정을 보여주거나, 여러 건을 한 번에 처리한다.
두 번째 방법(M2)은 모델을 특정 작업에 맞게 학습시키는 지도 파인튜닝(SFT), 외부에서 관련 정보를 찾아오는 검색 증강 생성(RAG), 또는 두 가지를 섞는 하이브리드 방식이다.
세 번째 방법(M3)은 여러 도구를 활용하고 여러 AI가 협력하는 에이전트 기반 방식이다.
데이터 정리·연결·보충까지… 생성형 AI의 3가지 핵심 역할
논문은 LLM 기반 데이터 정리를 세 가지 핵심 작업으로 구분한다.
첫째는 ‘데이터 클리닝(Data Cleaning)’이다. 이는 오류를 제거하고 형식을 통일하며 빈칸을 채워서 데이터 품질을 높이는 작업이다. 데이터 표준화는 제각각인 표현을 하나로 맞추고, 데이터 오류 처리는 철자 오류나 이상한 값을 찾아 고치며, 데이터 대체는 없어진 값을 추측해서 넣는다. 예를 들어 LLM-GDO라는 시스템은 사용자가 “날짜를 ‘YYYYMMDD’ 형식으로 바꿔줘”라고 말하면 AI가 규칙을 이해해서 처리한다.
둘째는 ‘데이터 통합(Data Integration)’이다. 이는 흩어져 있는 데이터에서 관련된 것을 찾아 묶는 작업이다. 엔티티 매칭(entity matching)은 서로 다른 데이터에서 같은 대상을 가리키는 기록을 연결하고, 스키마 매칭은 다른 데이터셋의 열이나 속성을 매칭한다. 매치GPT(MatchGPT)라는 시스템은 여러 전략으로 뽑은 예시와 자동으로 생성된 규칙을 써서 같은 엔티티를 찾는다.
셋째는 ‘데이터 보강(Data Enrichment)’이다. 이는 데이터에 의미 있는 정보를 추가하는 작업이다. 데이터 어노테이션(annotation)은 데이터에 의미론적 라벨이나 타입을 매기고, 데이터 프로파일링은 데이터의 핵심 내용과 설명을 작성한다. 코러스(CHORUS)라는 시스템은 올바른 어노테이션 예시, 데이터 샘플, 메타데이터, 도메인 지식, 출력 형식 안내를 합쳐서 AI에게 지시한다.

비용 아끼려고 작은 AI와 큰 AI 섞어 쓴다… 완전 자동은 아직 초기
최근 방법들에서 몇 가지 중요한 흐름이 보인다.
첫째, 비용을 아끼는 하이브리드 방식으로 바뀌고 있다. 최근 연구는 LLM 추론에만 의존하는 대신 하이브리드 접근법을 채택한다. LLM은 실행 가능한 데이터 준비 프로그램을 만들어주거나 추론 능력을 작은 언어 모델(SLM)로 전달해서 실행 비용을 줄이고 확장성을 개선한다. 예를 들어 포레스트ED(ForestED)라는 시스템은 LLM이 투명한 의사결정 구조(예: 의사결정 트리)를 만들면, 작은 머신러닝 모델이 그 구조를 실행하고 합쳐서 최종 결과를 낸다.
둘째, 특정 작업만을 위한 파인튜닝이 줄어들고 있다. 초점이 한 작업만 집중적으로 학습시킨 LLM을 유지하는 것에서 입력 구성을 최적화하는 쪽으로 옮겨갔다. 검색 증강(retrieval augmentation)과 구조화된 직렬화(structured serialization) 같은 기법이 범용 모델을 새 작업에 적응시키는 데 쓰여서 더 유연해졌다.
셋째, 에이전트 기반 구현은 제한적이다. 에이전트 기반 조율이 더 자율적인 데이터 준비 워크플로우를 지원하지만, 실제로 완전히 연구되고 구현된 시스템은 상대적으로 적다. 이는 신뢰할 수 있고 견고한 에이전트 배포가 아직 탐구될 필요가 있음을 시사한다.
넷째, 작업별 방법론 차이가 있다. 데이터 클리닝은 정확한 오류 감지와 수정을 위해 LLM-ML 하이브리드 접근법을 사용하고, 데이터 통합은 매칭과 정렬을 확장하기 위해 다중 모델 협업을 강조하며, 데이터 보강은 데이터와 메타데이터의 의미론적 이해를 향상시키기 위해 검색 증강 및 하이브리드 프롬프팅 기법을 통합한다.
비용 많이 들고 틀린 정보 만들기도… 완벽한 해결책은 아직
LLM으로 데이터를 정리하는 방법이 많은 가능성을 보여주지만, 아직 해결해야 할 중요한 문제들이 남아 있다.
첫째, 전역 인식과 의미론적으로 유연한 클리닝이 필요하다. 대부분의 기존 프롬프트 기반 클리닝 방법은 개별 행이나 작은 배치 같은 제한적인 로컬 맥락에서 작동한다. 검색 증강 방법이 외부 증거를 가져와 범위를 확장하지만, 여전히 인스턴스 수준 맥락을 중심으로 하며 데이터셋 수준 속성(예: 고유성 제약조건이나 집계 상관관계)을 포착할 수 없다. 미래 연구는 로컬 인스턴스와 데이터셋 수준 신호에 대한 공동 추론을 가능하게 하는 LLM과 외부 분석 엔진을 통합한 하이브리드 시스템을 탐구해야 한다.
둘째, 견고하고 오류 제어된 클리닝이 필요하다. 에이전트 기반 데이터 클리닝은 인간 스타일 워크플로우를 모방하고 클리닝 범위를 개선할 수 있지만, 현재 시스템은 오류 누적과 환각된 클리닝에 대한 효과적인 안전장치가 부족하다. 중요한 개방 방향은 보수적 의사결정 전략, 공식 검증 메커니즘, 명시적 위험 제어를 사용하는 불확실성 인식 에이전트 기반 클리닝 프레임워크를 설계하는 것이다.
셋째, 보편적이고 교차 도메인 통합이 필요하다. 최근 구조 인식 매칭 방법과 교차 데이터셋 통합 연구가 고무적인 결과를 보였지만, 일반적으로 합리적으로 유익한 스키마가 존재한다고 가정한다. 실제로 많은 통합 시나리오는 불분명하거나 축약된 속성 이름, 상당한 구조적 불일치, 사용 가능한 메타데이터가 거의 없거나 전혀 없는 데이터셋을 포함한 극단적인 이질성을 포함한다. 스키마 설명에 덜 의존하고 대신 데이터 인스턴스에서 직접 의미론적 대응을 추론하는 기법 개발이 중요하다.
넷째, 충실하고 증거 기반 보강이 필요하다. LLM을 사용한 생성적 데이터 보강은 특히 입력 데이터가 노이즈가 많거나 불완전할 때 유창하지만 뒷받침되지 않는 출력을 생성할 수 있다. 검색 증강 생성이 유용한 근거 메커니즘을 제공하지만, 기존 접근법은 주로 구조화된 테이블용으로 설계되었고 비구조화된 데이터 보강의 요구를 직접 충족하지 못한다. 중요한 미래 방향은 생성된 모든 출력이 명시적으로 검증 가능한 증거에 근거하는 충실성 인식 보강 방법을 설계하는 것이다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. LLM으로 데이터 정리하는 게 기존 방법보다 더 좋은 이유는 뭔가요?
A. 복잡한 코드나 규칙을 만들지 않아도 평범한 말로 명령하면 되고, 줄임말이나 비슷한 말의 애매한 부분도 이해해서 처리할 수 있습니다. 또한 여러 종류의 데이터와 다양한 업종에 쉽게 적용되고, 많은 정답 데이터 없이도 AI가 이미 배운 지식을 활용해서 작업할 수 있습니다.
Q2. LLM으로 데이터 정리할 때 가장 큰 문제는 뭔가요?
A. 가장 큰 문제는 비용이 많이 들고 환각(hallucination) 현상입니다. LLM을 직접 쓰면 토큰 소비가 많아 처리 비용이 높고, 대규모 테이블 처리 시 확장성이 제한됩니다. 또한 LLM이 정확하지 않거나 존재하지 않는 정보를 생성하는 환각 문제가 있고, 에이전트 기반 시스템에서는 오류 누적 문제도 발생할 수 있습니다.
Q3. 데이터 클리닝, 통합, 보강은 각각 뭘 하는 건가요?
A. 데이터 클리닝은 오류를 제거하고 형식을 표준화하며 누락된 값을 채워서 데이터 품질을 개선하는 작업입니다. 데이터 통합은 서로 다른 데이터 소스의 동일한 엔티티나 스키마를 찾아 연결하는 작업입니다. 데이터 보강은 데이터에 의미론적 라벨을 추가하거나 메타데이터를 생성해 데이터의 이해도와 활용도를 높이는 작업입니다.
기사에 인용된 리포트 원문은 arXiv에서 확인 가능하다.
리포트명: Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






