Search

AI가 단백질까지 만들어낸다… 기존에 없던 ‘형광 단백질’의 탄생

Simulating 500 million years of evolution with a language model
이미지출처: EvolutionaryScale

Simulating 500 million years of evolution with a language model

AI가 단백질 진화를 5억 년 앞당기다

진화는 수억 년 동안 생명체가 환경에 적응하며 형성된 자연의 산물이다. 하지만 최근 인공지능(AI)이 단 몇 시간 만에 이 과정을 재현하며, 자연에서 발견되지 않은 새로운 단백질을 만들어내는 데 성공했다. 이에 대한 연구는 신약 개발 기업 에볼루셔너리스케일 (EvolutionaryScale) 연구진이 발표한 논문에서 자세히 다뤄졌다​.

연구진은 AI 기반 단백질 생성 모델인 ESM3를 활용해 단백질 서열, 구조, 기능을 분석하고 예측하는 시스템을 개발했다. 특히 AI가 기존 단백질과 58%의 유사도를 가지는 새로운 형광 단백질을 생성하는 데 성공했다. 연구진은 이러한 유사도가 자연 상태에서 5억 년 동안 진화하며 형광 단백질이 변화하는 수준과 동일하다고 분석했다. 이는 AI가 자연이 아직 발견하지 못한 생물학적 가능성을 실험실에서 직접 구현할 수 있음을 의미한다.

2.78억 개 단백질 데이터 학습한 ESM3, 98억 개 파라미터로 진화 설계

ESM3는 기존 AI 기반 단백질 모델과 달리 단백질의 서열(sequence), 구조(structure), 기능(function)을 각각 독립적인 토큰(token)으로 분석하고, 이를 다중모달 방식으로 조합하여 새로운 단백질을 설계할 수 있다. 이 모델은 2.78억 개의 단백질 서열과 7710억 개의 고유 토큰을 학습했으며, 총 98억 개의 파라미터(parameter)를 보유하고 있다. 이는 기존 단백질 예측 AI보다 훨씬 정교한 방식으로 단백질의 구조를 예측하고, 인간이 의도한 기능을 수행하는 단백질을 생성할 수 있도록 설계되었다​.

또한 ESM3는 특정 기능을 가진 단백질을 설계하기 위해 프롬프팅(prompting) 기술을 활용했다. 연구팀은 이 기술을 적용해 새로운 형광 단백질을 목표로 하는 서열과 구조를 가진 단백질을 생성하도록 유도했다.

AI가 설계한 형광 단백질, 자연에 존재하지 않는 서열로 형광 유지

연구진이 AI를 활용해 생성한 단백질 중 하나는 esmGFP라 불리는 새로운 형광 단백질이다. 형광 단백질은 생명과학 연구에서 필수적인 도구로, 세포 내 단백질을 시각화하는 데 널리 사용된다. 기존 형광 단백질들은 특정한 구조를 유지해야 형광을 발현할 수 있는데, esmGFP는 기존 단백질과 서열이 단지 58%만 일치함에도 불구하고 형광 특성을 유지하는 데 성공했다​.

특히 esmGFP는 가장 가까운 기존 형광 단백질인 tagRFP와 비교했을 때 96개의 아미노산 변형이 포함되어 있다. 자연에서는 이러한 수준의 서열 변화가 발생하려면 수억 년이 걸릴 가능성이 크다. 그러나 연구팀은 AI를 활용해 단 몇 시간 만에 이를 생성해냈다. 이는 AI가 자연이 발견하지 못한 단백질 구조를 창조해낼 수 있음을 입증하는 강력한 사례다.

실제 실험 결과 esmGFP는 형광 강도가 기존 자연 형광 단백질과 유사했고, 특히 크로모포어(chromophore) 형성 과정도 정상적으로 유지되었다. 연구팀은 이러한 결과가 AI가 단순히 기존 단백질의 변형을 만드는 것이 아니라, 완전히 새로운 생물학적 기능을 수행할 수 있는 단백질을 설계할 수 있음을 의미한다고 분석했다.

AI 기반 단백질 생성 과정, ‘체인 오브 쏘트’ 방식으로 최적화

esmGFP를 개발하는 과정에서 연구진은 ‘체인 오브 쏘트(Chain-of-Thought)’ 방식을 활용했다. 즉, AI가 한 번에 완전한 단백질을 설계하는 것이 아니라, 단계적으로 서열과 구조를 조정하면서 최적의 형광 단백질을 찾아가는 방식을 적용했다.

먼저, 연구팀은 기존 형광 단백질에서 Thr65, Tyr66, Gly67, Arg96, Glu222 등 형광을 담당하는 핵심 아미노산을 포함한 서열을 생성하도록 ESM3를 프롬프팅했다. 또한 형광 활성화에 중요한 중앙 알파 나선 구조를 일정 부분 유지하도록 설계했다.

이후 AI가 생성한 수천 개의 단백질 중, 기존 형광 단백질과 유사한 구조를 가지면서도 서열 차이가 큰 단백질을 선별했다. 형광 단백질로 작동할 가능성이 높은 서열을 선별하기 위해 컴퓨터 시뮬레이션을 통한 구조 예측 및 필터링 과정이 추가되었다.

최종적으로 선정된 esmGFP 단백질을 실험실에서 합성하고, 박테리아를 이용해 발현시킨 후 형광을 측정했다. 결과적으로 esmGFP는 기존 GFP보다 크로모포어 형성 속도가 느렸지만, 정상적으로 형광을 발현하는 것으로 확인되었다​.

AI가 생물학을 혁신하다 – 신약, 바이오 연료, 친환경 화학까지 확장

이번 연구는 AI가 단순히 자연에서 얻은 데이터를 학습하는 것이 아니라, 자연이 발견하지 못한 새로운 생물학적 가능성을 창출할 수 있는 도구로 발전할 수 있음을 시사한다. AI 기반 단백질 생성 기술이 더욱 발전하면, 기존 연구자들이 단백질을 탐색하는 방식이 근본적으로 바뀔 것으로 예상된다.

AI 기반 단백질 설계는 신약 개발, 바이오 연료, 친환경 화학물질 생산 등 다양한 분야에서 활용될 수 있다. 예를 들어, 신약 개발에서는 새로운 단백질 기반 치료제를 설계하는 데 활용될 수 있으며, 바이오 연료와 친환경 화학물질 개발에서는 최적화된 효소를 설계하는 데 활용될 수 있다. 특히, 기존 단백질 연구 방식과 비교했을 때 AI를 활용한 방식은 더 빠르고 비용 효율적인 솔루션을 제공할 가능성이 크다.

EvolutionaryScale 연구팀은 향후 이 기술을 더욱 발전시켜 AI가 창출한 단백질의 생물학적 안전성과 효과를 검증하는 과정을 거칠 예정이다. 이는 인공지능이 단순한 데이터 분석 도구를 넘어, 생명공학과 합성생물학 분야에서 창조적 혁신을 주도하는 핵심 기술로 자리 잡을 가능성을 보여준다.

해당 기사에 인용된 논문 원문은 링크에서 확인 가능하다.

이미지 출처: EvolutionaryScale

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다. 




AI가 단백질까지 만들어낸다… 기존에 없던 ‘형광 단백질’의 탄생 – AI 매터스 l AI Matters