Four ways to power-up AI for drug discovery
네이처(Nature)가 보고한 연구에 따르면, 인공지능(AI)은 신약 개발 과정을 획기적으로 변화시킬 잠재력을 갖고 있지만, 이를 위해서는 생물학 및 화학 데이터의 품질과 양이 향상되어야 한다.
“100년간 7,000개 희귀질환 중 500개만 치료법 발견”…AI로 돌파구 찾는다
신약 개발은 엄청난 시간과 비용이 필요한 난제다. 독일 에보텍(Evotec)의 데이비드 파도(David Pardoe) 계산화학자는 “현대 의학 100년 역사에서 약 7,000개 희귀질환 중 단 500개 정도만 치료법을 찾았다”고 지적했다. 이런 상황에서 인공지능(AI)이 새로운 희망으로 떠오르고 있다.
AI는 약물 분자의 3D 구조를 분석해 단백질 표적에 얼마나 잘 맞는지 파악하고, 더 효과적인 약물 디자인을 제안하거나 완전히 새로운 표적을 찾아낼 수 있다. 또한 환자 몸속 복잡한 생물학적 환경을 고려해 잠재적 부작용까지 예측할 수 있다.
이러한 AI 시스템 개발의 핵심은 양질의 대량 데이터다. 다행히 전 세계 연구실에서는 지속적으로 방대한 생물학적 데이터가 생산되고 있어 신약 개발에 AI를 적용할 탄탄한 기반은 마련되어 있다.
“연구실마다 다른 방식으로 실험”…AI 학습 방해하는 ‘데이터 혼란’
AI 생명공학 기업 오우킨(Owkin)의 에릭 듀랑(Eric Durand) 수석 데이터 과학자는 “데이터가 어떻게 생성되는지가 AI에게 가장 큰 문제”라고 지적했다. 서로 다른 연구실이 다른 방법, 시약, 장비를 사용하면 ‘배치 효과(batch effects)’라는 불일치가 발생한다. 샘플 처리 방식의 약간의 차이, 시약 배치 간 변화, 심지어 분자 구조를 설명하는 방식의 차이까지 AI가 생물학적으로 의미 있는 패턴으로 오해할 수 있다.
릴레이 테라퓨틱스(Relay Therapeutics)의 패트 월터스(Pat Walters) 계산화학자는 “같은 방식으로 실험하지 않은 연구실 데이터는 정확한 비교가 불가능하다”고 설명했다. 이 문제 해결을 위해 실험 수행과 보고 방법의 표준화가 필요하다.
좋은 사례로는 2016년 시작된 ‘휴먼 셀 아틀라스(Human Cell Atlas)’ 프로젝트가 있다. 이 글로벌 프로젝트는 인체 내 수백만 세포를 엄격하고 표준화된 방식으로 매핑해 AI 알고리즘에 일관된 고품질 데이터를 제공한다.
신약 발견을 위한 ‘폴라리스(Polaris)’ 벤치마킹 플랫폼도 데이터 표준화에 기여하고 있다. 폴라리스는 데이터 세트 검사 지침을 제시하고, 공개 데이터셋의 품질을 전문가가 검증해 커뮤니티에 공유한다.
“실패한 실험은 발표되지 않는다”…AI에게 필요한 ‘실패 데이터’
학술 연구에서는 실험 실패를 보고해도 얻을 것이 거의 없고, 발표조차 어렵다. 이런 ‘긍정적 결과 편향’이 AI 학습에 큰 장애물이 되고 있다. 발표된 연구 데이터만 AI에 학습시키면 생물학적 현실의 왜곡된 장밋빛 관점만 보게 된다. 예를 들어 동물실험에서 효과적이었던 화합물 데이터는 많지만, 실패한 화합물 정보는 거의 없어 AI가 실패 사례에서 배울 기회가 제한된다.
킹스 칼리지 런던의 미라즈 라흐만 약용화학자는 항생제 개발 사례를 들었다. 많은 발표 연구는 1차 아민이라는 화합물이 약물을 박테리아 내부로 전달하는 데 효과적이라고 제안하지만, 그의 연구실 데이터는 이것이 작동하지 않음을 보여준다. 하지만 이런 실패 데이터는 발표되지 않아 AI가 접근할 수 없다.
“회사 자산이라 공유 꺼려”…제약사가 움켜쥔 ‘보물같은 데이터’
제약 회사들은 부정적 결과를 포함한 대량의 고품질 데이터를 보유하고 있지만, 극히 일부만 공개한다. 라흐만에 따르면 더 개방적인 제약사들도 데이터의 15-30%만 발표하며, 임상시험 결과는 최대 50%까지 공개한다.
노바티스의 바스 나라심한 CEO는 2018년 조직을 “의약품 및 데이터 과학 회사”로 재정의하며 AI의 중요성을 강조했지만, 대부분 제약사는 여전히 데이터 공유를 꺼린다.
EU 지원으로 진행된 ‘멜로디’ 프로젝트는 제약사 간 데이터 공유 모델을 제시했다. 10개 회사가 민감한 데이터를 직접 공개하지 않고 ‘연합 학습’ 방식으로 AI 모델을 함께 훈련시켰고, 이렇게 만들어진 모델은 개별 회사 모델보다 훨씬 정확했다.
“실패에서 배운다”…AI 신약 개발의 성공 사례
AI 생명공학 기업 인실리코 메디슨의 알렉스 자보론코프 CEO는 “충분한 데이터가 있으면 AI가 일반화하는 법을 배울 수 있다”고 강조했다.
인실리코 메디슨은 미국 정부 연구 보조금으로 생산된 데이터를 학술 논문, 임상시험, 특허 정보와 연결해 활용한다. 그들은 데이터의 신뢰도를 평가하는 점수 시스템을 도입했고, 임상시험 발표 후 주가 하락 패턴으로 실제 결과의 성공 여부를 추론하기도 한다.
2019년 말, 인실리코의 AI 플랫폼 ‘판다오믹스’는 섬유증 질환 치료 표적을 발견했고, 생성 AI 플랫폼 ‘Chemistry42’로 이 표적에 작용하는 화합물을 찾아냈다. 이 기술로 개발된 특발성 폐 섬유증 치료제는 이미 2a상 임상시험을 완료했다. 자보론코프는 “2019년 이후 22개의 전임상 후보 물질을 발굴했다”며 AI 기술의 성과를 강조했다.
FAQ
Q: AI 신약 개발이 일반인에게 어떤 혜택을 줄 수 있나요? A: AI가 신약 개발 속도를 높이고 비용을 줄이면, 지금까지 치료법이 없었던 많은 희귀질환 환자들에게 희망을 줄 수 있습니다. 또한 약물 개발 비용 감소로 더 저렴하고 효과적인 치료제가 더 많은 환자에게 제공될 수 있습니다.
Q: 왜 데이터 품질이 AI 신약 개발에 그렇게 중요한가요? A: AI는 학습한 데이터의 품질 이상으로 결과를 낼 수 없습니다. 표준화되지 않은 데이터나 실패 사례가 빠진 편향된 데이터로는 AI가 정확한 패턴을 찾기 어렵습니다. 양질의 데이터로 학습한 AI만이 실제 효과적인 신약 후보 물질을 발견할 수 있습니다.
Q: 일반인도 AI 신약 개발에 기여할 수 있는 방법이 있나요? A: 영국의 ‘UK 바이오뱅크’처럼 많은 사람들의 생물학적 정보와 건강 데이터를 모으는 프로젝트에 참여하는 것이 도움이 됩니다. 또한 임상시험 참여도 중요한 데이터를 제공하는 방법이며, 이런 공공 연구 지원이 AI 신약 개발의 토대가 됩니다.
해당 기사에서 대한 자세한 내용은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기