• Home
  • AI Report
  • GPT가 의학 연구자들의 ‘정보 비서’로 진화한다…CurateGPT 등장

GPT가 의학 연구자들의 ‘정보 비서’로 진화한다…CurateGPT 등장

CurateGPT: A flexible language-model assisted biocuration tool
이미지출처: 이디오그램

CurateGPT: A flexible language-model assisted biocuration tool

매일 2,700편씩 쏟아지는 의학 논문, AI가 다 읽어드립니다

의학 연구자들이 매일 직면하는 가장 큰 고민거리는 무엇일까? 바로 폭발적으로 늘어나는 연구 논문과 데이터다. 펍메드(PubMed)에는 매년 100만 편 이상의 새로운 의학 논문이 추가된다. 하루 평균 2,700편이 넘는 논문이 쏟아지는 셈이다. 연구자들이 이 모든 자료를 일일이 검토하고 분석하기란 사실상 불가능하다. 바이오메디컬 분야에서 데이터 큐레이션은 다양한 정보를 찾고, 조직화하고, 해석하고, 주석을 달고, 검증하여 데이터베이스와 지식베이스에 적합한 구조화된 형태로 만드는 시간 소모적인 작업이다. 신뢰할 수 있고 지속 가능한 디지털 자산을 확보하기 위해서는 정확하고 효율적인 큐레이션이 필수적이다. 하지만 전문 큐레이터들은 심각한 시간과 자원의 제약에 직면해 있다.

GPT-4, Claude, Gemini와 같은 대규모 언어모델(LLM)의 등장은 이러한 문제를 해결할 새로운 가능성을 제시했다. 로렌스 버클리 국립연구소와 유럽생물정보학연구소(EMBL-EBI) 등 국제 연구진은 LLM 기반의 큐레이션 도구 ‘큐레이트GPT(CurateGPT)’를 개발했다. 이 도구는 생성형 AI의 성능과 신뢰할 수 있는 지식베이스를 결합해 생물의학 데이터의 큐레이션 과정을 간소화한다. ChatGPT와 같은 대규모 언어모델(LLM)을 활용한 이 도구는 연구자의 ‘디지털 비서’ 역할을 수행한다.

ChatGPT보다 정확한 의학 정보를 찾아드립니다

큐레이트GPT는 단순히 ChatGPT처럼 질문에 답하는 것을 넘어 7가지 핵심 에이전트를 통해 큐레이션 작업을 지원한다:

1. 똑똑한 검색 비서(Search): 의학 데이터베이스에서 필요한 정보를 찾아주고, 복잡한 데이터를 시각화해서 보여준다.

검색(Search) 에이전트는 온톨로지나 문서 컬렉션에서 텍스트 쿼리와 관련된 값을 찾아준다. 검색 결과는 표 형식으로 표시되거나 PCA, t-SNE, UMAP 등을 통한 차원 축소 시각화로 제공된다. 정적 컬렉션 검색뿐만 아니라 펍메드나 위키피디아와 같은 원격 리소스도 API를 통해 동적으로 검색할 수 있다.

2. 전문가 상담사(Chat): 의학 전문 지식베이스를 바탕으로 질문에 답하며, 모든 답변의 출처를 명확히 제시한다.

채팅(Chat) 에이전트는 자연어로 하나 이상의 데이터 컬렉션에 대해 질문할 수 있게 해준다. 쿼리와 가장 관련성이 높은 객체를 찾아 배경 맥락으로 포함시키고, 이를 응답에 인용 형태로 포함한다. 기존 LLM 채팅과 비교할 때 두 가지 주요 장점이 있다. LLM 학습 데이터에 없는 커스텀 입력 문서의 정보를 활용할 수 있고, 관련 데이터의 식별자를 제공하여 사용자가 LLM 응답을 추가로 검증할 수 있다.

3. 데이터 구조화 전문가(Curate): 복잡한 의학 정보를 체계적으로 정리하고 구조화한다.

큐레이션(Curate) 에이전트는 새로운 온톨로지 클래스나 구조화된 데이터 요소를 직접 생성한다. 단일 레이블이나 설명만으로도 더 광범위하게 기술된 항목을 구축할 수 있다. 예를 들어 인간 표현형 온톨로지(HPO)에서 아직 없는 클래스 레이블을 제공하면, 에이전트는 예상되는 형식의 식별자, 온톨로지의 다른 정의와 유사한 구조의 정의, 다른 클래스와의 관계를 포함하는 새로운 클래스 객체를 생성한다.

4. 텍스트 분석가(Extract): 긴 의학 논문에서 핵심 정보만 추출해 정리한다.

추출(Extract) 에이전트는 원시 텍스트에서 구조화된 객체를 추출한다. 큐레이션 에이전트와 달리 입력 텍스트를 구성 요소로 분리할 필요가 없다. 텍스트는 대상 컬렉션에 해당하는 구조화된 형식으로 직접 파싱되며, 가능한 경우 배경 지식을 사용하여 필드가 채워진다.

5. 팩트체커(CiteSeek): 의학 정보의 진위 여부를 확인하고 관련 논문을 찾아준다.

인용 검색(CiteSeek) 에이전트는 큐레이트GPT의 핵심 구성 요소로, 주장에 대한 근거가 되는 인용문을 검색하는 필수적인 작업을 지원한다. 특히 온톨로지 내의 관계를 구축하고 큐레이션하는 데 있어 지원 문헌을 식별하는 것이 중요하다. 이 에이전트는 펍메드와 위키피디아 같은 외부 소스에서 지원 정보를 검색할 수 있어 특히 강력하다.

6. 용어 번역가(Match): 복잡한 의학 용어들을 매칭하고 설명해준다.

매칭(Match) 에이전트는 온톨로지와 통제 어휘 간의 용어 매핑을 지원한다. 이는 이러한 리소스를 큐레이션하고 적용할 때 자주 필요한 작업이지만 큐레이터들에게 매우 시간이 많이 소요된다. 매칭 에이전트는 매칭할 개념의 레이블을 입력으로 받아 벡터 거리로 데이터 컬렉션에서 가장 적합한 매치를 찾은 다음, 잠재적 매치 세트에서 최선의 옵션에 대해 LLM에 쿼리한다.

7. 지식 체계화 도우미(Bootstrap): 새로운 의학 지식 체계를 만들 때 기초 틀을 제공한다.

부트스트랩(Bootstrap) 에이전트는 지식베이스의 초기 버전 생성을 용이하게 한다. 간단한 설명으로 시작하여 에이전트는 LLM을 사용해 해당하는 LinkML 스키마를 생성한다. 이 접근 방식은 LLM이 사용자가 처음에 제공한 것 이상의 추가 클래스, 속성, 열거형을 제공하도록 장려하므로 새로운 지식 컬렉션의 포괄적인 기초를 제공할 수 있다.

RAG 기술로 LLM의 한계 극복했지만, 인간 큐레이터 중심의 철학 유지

큐레이트GPT는 검색 증강 생성(RAG) 기술을 활용해 구조화된 지식, 비구조화된 텍스트, 외부 데이터의 조합된 컬렉션을 사용하여 LLM 기반 생성과 지시 따르기를 보완한다. RAG를 통해 쿼리와 가장 관련성이 높은 문서를 검색하여 LLM 쿼리의 컨텍스트로 사용함으로써, 정확성과 관련성을 눈에 띄게 향상시킬 수 있다.

연구진은 AI가 수동 큐레이션을 완전히 대체할 수 없으며 대체해서도 안 된다고 강조했다. 큐레이트GPT는 문헌 검색이나 정보 추출 같은 반복적인 작업을 자동화함으로써 전문 큐레이터들이 그들의 도메인 지식과 큐레이션 경험이 필요한 핵심 업무에 더 집중할 수 있도록 돕는 것을 목표로 한다.

LLM은 복잡한 질문 응답과 적절한 데이터 구조로 응답을 형성하는 능력에서 매우 유연하다. 하지만 특정 튜닝이나 재학습 없이는 최근 발표된 문헌이나 도메인별 문헌의 지식을 포함하지 않는다. 큐레이트GPT는 이러한 한계를 극복하기 위해 RAG 기술을 구현하여 LLM의 학습 데이터를 넘어선 정보에 접근할 수 있으며, 각 주장의 근거가 되는 데이터에 대한 직접적인 링크를 제공한다.

기사에 인용된 리포트의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




GPT가 의학 연구자들의 ‘정보 비서’로 진화한다…CurateGPT 등장 – AI 매터스