Search

뉴스 기사 260만 건을 데이터로…구글, 제미나이로 홍수 예측 정확도 높인다

뉴스 기사 260만 건을 데이터로…구글, 제미나이로 홍수 예측 정확도 높인다
이미지 출처: 이디오그램 생성

구글(Google)이 전 세계 뉴스 기사를 AI로 분석해 대규모 재난 데이터셋을 구축하는 새로운 방법론을 공개했다. 이를 통해 만들어진 홍수 데이터는 도시 지역의 홍수 예측 정확도를 높이는 데 활용된다.

구글 리서치(Google Research)는 지난 12일 공식 블로그를 통해 비정형 글로벌 뉴스를 활용 가능한 역사적 데이터로 변환하는 확장 가능한 방법론, ‘그라운드소스(Groundsource)’를 소개했다. 구글에 따르면 첫 번째 공개 데이터셋은 도시 돌발 홍수를 주제로 150개국 이상에서 수집된 260만 건의 기록으로 구성됐으며, 누구나 접근할 수 있도록 공개됐다.

구글 리서치에 따르면 지진과 같은 일부 자연재해는 통합된 글로벌 센서 네트워크를 통해 추적되지만, 홍수와 같은 기상 수문학적 재해는 표준화된 관측 인프라가 없다. 기존 위성 기반 데이터베이스는 구름 간섭이나 위성 재방문 주기 같은 물리적 한계로 인해 크고 장기간 지속되는 재해만 포착하는 경향이 있다. 유엔(UN)과 유럽위원회(European Commission)가 공동 운영하는 글로벌 재해 경보 및 조정 시스템(GDACS)의 경우 약 1만 건의 데이터를 보유하고 있지만, 이는 주로 대규모 충격을 준 사건 위주다. 글로벌 AI 모델 훈련과 검증에 필요한 데이터 양과 비교하면 턱없이 부족한 수준이라고 구글은 설명했다.

그라운드소스는 이 문제를 해결하기 위해 전 세계 뉴스 기사를 분석해 홍수 세부 정보를 추출하고, 이를 구조화된 현지화 이벤트 아카이브로 변환한다. 데이터 수집 범위는 2000년부터 현재까지이며, 150개국 이상을 포괄한다.

구글 리서치에 따르면 추출 과정의 핵심 단계에는 제미나이(Gemini) 대규모 언어 모델(LLM)이 사용된다. 제미나이는 실제 발생했거나 진행 중인 홍수 보도와 미래 경보, 정책 회의, 일반적 위험 모델링을 다루는 기사를 구분하는 분류 작업을 수행한다. 또한 기사 발행일을 기준으로 ‘지난 화요일’ 같은 상대적 시간 표현을 실제 날짜로 변환하는 시간 추론도 담당한다. 위치 정보의 경우 동네나 거리 수준의 세부 위치를 파악하고, 구글 맵스 플랫폼(Google Maps Platform)을 활용해 표준화된 공간 폴리곤(Polygon)에 매핑한다.

처리 과정에서 뉴스 기사는 구글 리드 어라우드(Google Read Aloud) 크롤러를 통해 80개 언어에서 주요 텍스트를 추출하고, 클라우드 번역 API(Cloud Translation API)를 거쳐 영어로 표준화된다.

기술적 정확도 검증 결과도 공개됐다. 구글 리서치에 따르면 수동 검토 결과 추출된 이벤트의 60%는 위치와 시간 정보 모두 정확했고, 82%는 실제 분석에 활용 가능한 수준의 정확도를 보였다. 또한 그라운드소스는 2020년부터 2026년 사이 GDACS에 기록된 심각한 홍수 이벤트의 85~100%를 포착했다.

구글은 이 데이터를 활용해 이벤트 발생 최대 24시간 전에 도시 돌발 홍수를 예측할 수 있는 능력을 갖추게 됐다고 밝혔다. 현재 이 예측 기능은 구글의 플러드 허브(Flood Hub)를 통해 순차적으로 배포되고 있다.

구글 리서치는 이 방법론이 홍수에만 국한되지 않는다고 강조했다. 가뭄, 산사태, 눈사태처럼 정확한 역사적 기록이 부족한 다른 자연재해에도 동일한 접근 방식을 적용할 수 있다는 설명이다. 구글은 현재 농촌 지역으로 커버리지를 확대하고 새로운 데이터 소스를 통합하는 작업을 진행 중이라고 밝혔다.

자세한 내용은 구글 리서치(Google Research) 공식 블로그에서 확인할 수 있다.