Search

생성형 AI의 사실성 향상: 데이터 커먼스를 활용한 구글의 혁신

Google's DataGemma models bridge the gap between large language models (LLMs) and real-world data by leveraging the Data Commons knowledge graph to improve the factuality and trustworthiness of LLM responses.
이미지 출처: 미드저니 생성

Google’s DataGemma models bridge the gap between large language models (LLMs) and real-world data by leveraging the Data Commons knowledge graph to improve the factuality and trustworthiness of LLM responses.

생성형 AI의 도전과 데이터 커먼스의 잠재력

생성형 AI(Generative AI)는 최근 눈부신 발전을 이루고 있지만, 수치 데이터나 통계적 사실을 다룰 때 정확성이 떨어지는 ‘환각(hallucination)’ 현상이 주요 문제로 대두되고 있다. 이러한 한계를 극복하기 위해 구글 연구팀은 공개 통계 데이터베이스인 ‘데이터 커먼스(Data Commons)’를 활용한 혁신적인 접근 방식을 제안했다. 데이터 커먼스는 유엔(UN), 질병통제예방센터(CDC), 각국 통계청 등 신뢰할 수 있는 기관의 공공 통계 자료를 집대성한 오픈소스 저장소로, 구글 연구팀은 이를 대규모 언어 모델(LLM)과 연계해 AI의 사실성과 신뢰성을 높이는 방안을 연구했다.

RIG와 RAG: 데이터 기반 AI 응답 생성의 새로운 패러다임

구글 연구팀이 개발한 두 가지 주요 방법론은 검색 삽입 생성(Retrieval Interleaved Generation, RIG)과 검색 증강 생성(Retrieval Augmented Generation, RAG)이다. RIG는 LLM을 훈련시켜 자연어 쿼리를 생성하고, 이를 통해 데이터 커먼스에서 관련 데이터를 검색하도록 하는 방식이다. 이를 통해 AI는 언제 외부 소스에 질문해야 하는지, 그리고 어떤 질문을 해야 하는지를 학습하게 된다. 한편 RAG 방식은 데이터 커먼스에서 관련 데이터 테이블을 가져와 LLM의 프롬프트를 보강한다. 이로써 AI는 더 풍부한 컨텍스트를 바탕으로 응답을 생성할 수 있게 된다. 연구팀은 이 두 가지 방법을 다양한 쿼리에 적용해 평가했고, LLM 출력의 사실적 정확성을 크게 향상시킬 수 있음을 확인했다.

연구 결과: 눈에 띄는 정확성 향상

RIG 방식을 적용한 결과, 기존 LLM의 5-17% 수준이던 사실적 정확성이 약 58%까지 크게 향상되었다. 이는 AI가 데이터 커먼스를 통해 검증된 통계 데이터에 접근함으로써, 더 정확한 정보를 제공할 수 있게 되었음을 의미한다. RAG 방식에서는 더욱 놀라운 결과가 나타났는데, LLM이 인용한 수치의 98-99%가 정확했으며, 이를 바탕으로 한 추론의 정확성도 71-76%에 달했다. 이는 AI가 단순히 데이터를 인용하는 것을 넘어, 그 데이터를 바탕으로 의미 있는 분석과 추론을 할 수 있게 되었음을 보여준다.

현재의 한계와 미래 과제

그러나 이 연구에는 여전히 몇 가지 한계점이 존재한다. 가장 큰 문제는 데이터 커버리지로, 평가에 사용된 쿼리 중 24-29%에서만 데이터 커먼스의 통계 데이터를 활용할 수 있었다. 이는 데이터 커먼스의 데이터셋 확장이 시급함을 시사한다. 또한, AI가 생성한 질문의 품질과 관련성을 더욱 높이는 것도 중요한 과제다. 연구팀은 이러한 한계를 극복하기 위해 더 큰 규모의 훈련 데이터셋 구축, 데이터 커먼스의 자연어 처리 능력 개선, 통계 정보 처리에 있어 Gemini 모델의 성능 평가, 사용자 경험 최적화를 위한 다양한 인터페이스 테스트 등을 향후 과제로 제시했다.

오픈소스 기반의 혁신과 책임 있는 AI 개발

구글은 이번 연구의 결과물을 오픈소스로 공개하고, 연구 목적의 무료 API도 제공할 예정이다. 이는 AI의 신뢰성 향상을 위한 공동의 노력을 독려하는 조치로 평가된다. 데이터 커먼스 자체가 오픈소스 프로젝트인 만큼, 이러한 접근은 AI 발전의 개방성과 투명성을 높이는 데 기여할 것으로 보인다. 동시에 연구팀은 AI의 잠재적 위험성에 대해서도 경계를 늦추지 않고 있다. 모델 출력물에 대한 ‘레드팀’ 검토를 실시하고, 현재 버전의 한계점을 명확히 밝히는 등 책임 있는 AI 개발을 위해 노력하고 있다.

이번 연구는 AI의 사실성과 신뢰성 향상을 위한 새로운 패러다임을 제시했다는 점에서 의의가 크다. 데이터 커먼스와 같은 신뢰할 수 있는 데이터 소스를 AI와 연계함으로써, 보다 정확하고 유용한 AI 서비스를 구현할 수 있는 가능성을 보여주었다. 앞으로 이러한 접근 방식이 실제 AI 서비스에 어떻게 적용되고 발전해 나갈지 주목된다. 구글의 이번 연구는 AI가 단순한 텍스트 생성을 넘어, 검증된 데이터를 기반으로 한 지식 처리와 추론의 영역으로 진화해 나가고 있음을 보여준다. 이는 AI가 우리 사회의 더욱 신뢰할 수 있는 조력자로 자리잡는 데 중요한 이정표가 될 것이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




생성형 AI의 사실성 향상: 데이터 커먼스를 활용한 구글의 혁신 – AI 매터스 l AI Matters