Towards Scientific Discovery with Generative AI: Progress, Opportunities, and Challenges
AI로 100만 편의 논문을 읽다
버지니아 공과대학교 연구진이 최근 발표한 논문에 따르면, 생성형 AI가 과학적 발견의 새로운 도구로 주목받고 있다. 과학적 발견은 인류 지식과 기술 발전을 이끌어온 복잡한 인지 과정이다. AI 연구는 초기에 과학적 가설과 법칙을 상징적 형태로 복제하는 데 중점을 두었으나, 최근에는 대규모 언어 모델(Large Language Models, LLMs)과 AI 기술이 과학적 작업에서 획기적인 진전을 보이고 있다.
생물의학 분야에서는 퍼브메드버트(PubMedBERT)와 바이오버트(BioBERT)와 같은 특화된 AI 모델이 개발되었으며, 사이버트(SciBERT)는 더 넓은 범위의 과학 분야를 다룬다. 최근에는 바이오GPT(BioGPT)와 사이GLM(SciGLM)이 더 발전된 아키텍처와 훈련 기법을 도입하여 과학적 언어 모델링의 경계를 확장했다.
정리 증명 분야에서는 GPT-f 프레임워크가 변환기 기반 언어 모델을 증명 전술에 대해 훈련시켜 복잡한 수학적 증명을 수행하는 혁신적 접근법을 선보였다. 또한 사이MON(SciMON) 시스템은 기존 문헌의 패턴을 분석하여 새로운 과학적 아이디어를 생성하는 데 성공했다.

인공지능이 발견한 신약과 물질들
데이터 기반 발견은 현대 과학 연구의 핵심이 되었다. 신약 발견 분야에서는 생성형 AI와 다중 모달 표현 학습 모델을 활용해 광범위한 박테리아에 효과적인 새로운 항생제를 발견했다. LLM-SR은 방정식 발견을 위한 진화적 검색에서 과학자 에이전트로서 LLM을 성공적으로 활용했다.
물리학 분야에서는 AI 파인만(AI Feynman)이 기본 물리 법칙을 데이터만으로 재발견하는 성과를 거두었다. 재료 과학 분야에서는 그래프 네트워크를 이용한 재료 탐색(GNoME)이 알려진 안정 결정의 수를 획기적으로 증가시켰다. AtomAgents는 물리 기반 제약 조건을 통합하여 합금 설계를 최적화하는 데 성공했다.
과학적 발견을 위한 AI 에이전트
현재 과학 분야의 AI는 수동적 도구로 사용되는 경우가 많다. GPT-4와 같은 모델은 일반적인 학문적 작업에서는 뛰어난 성과를 보이지만, 물리학과 화학 분야의 전문적 추론에서는 여전히 한계를 보인다.
켐크로우(ChemCrow)는 GPT-4를 화학 연구용 도구와 통합하여 반응 예측, 역합성 계획, 안전성 평가 등을 수행한다. 아톰에이전트(AtomAgents)는 합금 설계와 발견을 위한 다중 에이전트 시스템으로, 실험 설계와 가설 발전의 장기적 반복을 가능하게 한다.
도메인별 도구 통합의 주요 과제는 전문화된 과학 도구와 방법론을 AI 시스템에 효과적으로 통합하는 것이다. 또한 다중 에이전트 시스템의 과학적 담론 능력을 향상시키기 위한 새로운 벤치마크 개발이 필요하다.

이미지부터 수식까지, 전방위 과학 AI
과학적 데이터는 텍스트를 넘어 현미경 이미지, 유전체 서열, 시계열 센서 데이터, 수학적 법칙 등 다양한 형태로 존재한다. SNIP 모델은 수학적 표현과 수치 데이터를 연결하는 혁신적인 방법론을 제시했다.
드럭클립(DrugCLIP)은 신약 발견에서 분자와 단백질 포켓의 공동 표현을 학습했으며, 텍스트2몰(Text2Mol)은 자연어와 분자 구조를 연결했다. 프로트ST(ProtST)는 단백질 서열과 생물의학 텍스트를 통합했다.
전이 학습은 과학적 도메인에서 특수한 과제를 안고 있다. 과학 지식의 높은 특수성과 소스-타겟 작업 간의 도메인 이동으로 인한 문제를 해결해야 한다.
이론과 실험 사이를 연결해주는 AI
과학적 발견은 이론적 추론, 실증적 관찰, 수학적 모델링의 복잡한 상호작용을 포함한다. AI-데카르트 시스템은 방정식 발견 도구와 자동화된 논리적 추론을 결합하여 주목할 만한 성과를 보였다.
확률적 논리 시스템과 뉴로-심볼릭 프로그래밍은 과학적 발견에서 불확실성과 확률을 다루는 데 진전을 보였다. 하지만 대규모 과학적 문제에 대한 확장성과 특정 과학 도메인에서의 복잡한 이론 포착 능력은 여전히 과제로 남아있다.
더 진화하는 AI 과학자의 미래
AI 시스템의 과학적 발견 능력을 향상시키기 위해서는 몇 가지 중요한 과제들을 해결해야 한다. 우선 과학적 발견을 위한 더 나은 벤치마크와 평가 프레임워크 개발이 시급하다. 특히 AI 모델이 단순히 학습한 내용을 기억하여 재현하는 것인지, 아니면 실제로 새로운 발견을 할 수 있는 것인지를 구분할 수 있는 평가 방법이 필요하다. 이 과정에서 각 분야의 도메인 전문가들이 벤치마크 설계에 적극적으로 참여하고, 과학적 일관성을 형식적으로 검증할 수 있는 방법도 개발되어야 한다.
또한 과학 지식과 추론 능력을 갖춘 AI 에이전트의 개발도 중요한 과제다. 이러한 에이전트는 단순히 데이터를 분석하는 것을 넘어 과학적 직관과 추론 능력을 갖추어야 한다. 더불어 현재 텍스트 중심의 AI를 넘어서 다양한 형태의 과학적 데이터를 통합적으로 다룰 수 있는 다중 모달 과학적 표현 방식의 발전도 필요하다.
마지막으로 자동화된 추론, 정리 증명, 데이터 기반 모델링을 하나로 통합하는 것이 중요하다. 이는 과학적 발견 과정에서 이론과 실험, 데이터 분석이 유기적으로 연결되어야 함을 의미한다. 이러한 과제들이 성공적으로 해결된다면, AI는 인간 과학자의 능력을 보완하는 강력한 도구가 되어 과학적 발견의 속도를 획기적으로 높일 수 있을 것으로 기대된다.
이러한 발전은 단순히 기술적 진보를 넘어 과학 연구의 패러다임을 근본적으로 변화시킬 수 있는 잠재력을 가지고 있다. AI와 인간 과학자의 협력은 우리가 아직 풀지 못한 복잡한 과학적 문제들을 해결하는 데 크게 기여할 것으로 전망된다.
해당 논문의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기