Orthrus: Towards Evolutionary and Functional RNA Foundation Models
일리노이 대학교 어바나-샴페인과 토론토 대학교 연구진이 개발한 Orthrus가 RNA 속성 예측 분야에 혁신을 가져올 것으로 기대를 모으고 있다. Orthrus는 RNA 서열에 대한 새로운 자기지도학습 방식을 도입해 RNA의 진화적, 기능적 특성을 효과적으로 포착하는 기초 모델이다. 이 모델은 기존의 RNA 속성 예측 방법들이 가진 한계를 극복하고, 더 정확하고 효율적인 예측을 가능하게 할 것으로 보인다.
진화와 기능을 활용한 혁신적 학습 방식
Orthrus의 핵심은 진화적으로 연관된 RNA 서열들 간의 유사성을 극대화하는 대조 학습(contrastive learning) 방식에 있다. 연구팀은 10개 모델 생물종의 선택적 스플라이싱 정보와 400여 종의 포유류 전사체 정보를 활용해 학습 데이터셋을 구성했다. 이를 통해 Orthrus는 RNA 서열의 기능적 중요 영역과 진화적으로 보존된 부위를 효과적으로 학습할 수 있게 되었다.
Orthrus는 기존 유전체 기초 모델들과 달리 생물학적 도메인 지식을 적극 활용한다. 기존 모델들이 주로 텍스트나 이미지 처리에서 차용한 마스크 언어 모델링이나 다음 토큰 예측 같은 방식을 사용한 반면, Orthrus는 RNA의 진화적, 기능적 특성을 반영한 학습 방식을 채택했다. 이러한 접근 방식은 RNA 서열의 중요한 특성을 더 잘 포착할 수 있게 해준다.
연구팀은 Mamba라는 상태 공간 모델을 기반으로 Orthrus를 구현했다. Mamba는 긴 시퀀스를 효율적으로 처리할 수 있는 특성을 가지고 있어, 길이가 긴 RNA 서열을 다루는 데 적합하다. 또한 Mamba는 가변적인 간격을 가진 모티프를 학습할 수 있고, 컨텍스트를 효과적으로 필터링할 수 있어 RNA 서열의 복잡한 특성을 잘 포착할 수 있다.
뛰어난 RNA 속성 예측 성능
연구팀은 Orthrus를 RNA 반감기, 리보솜 부하량, 단백질 국소화, 유전자 온톨로지 분자 기능 등 5가지 RNA 속성 예측 작업에 적용해 성능을 평가했다. 그 결과 Orthrus는 기존의 자기지도학습 기반 모델들을 크게 앞서는 성능을 보였으며, 일부 작업에서는 지도학습 모델의 성능까지 뛰어넘었다.
특히 주목할 만한 점은 Orthrus가 적은 양의 라벨링된 데이터로도 높은 성능을 달성할 수 있다는 것이다. 예를 들어, 인간 RNA 반감기 예측 작업에서 Orthrus는 전체 데이터의 0.5%(45개 샘플)만으로도 지도학습 모델 성능의 73%를 달성했다. 이는 실험 데이터 확보가 어려운 RNA 연구 분야에서 큰 장점으로 작용할 수 있다.
또한 Orthrus의 성능은 모델 크기가 커질수록 향상되는 경향을 보였다. 이는 더 큰 규모의 데이터셋과 모델을 사용하면 성능을 더욱 개선할 수 있다는 가능성을 시사한다.
RNA 기능 다양성 포착
연구팀은 Orthrus가 학습한 RNA 표현(representation)이 실제 RNA의 기능적 다양성을 잘 포착하고 있는지 확인하기 위해 추가적인 분석을 수행했다. 그 결과 Orthrus의 RNA 표현이 단백질 도메인 구성과 높은 상관관계를 보이는 것을 확인했다. 이는 Orthrus가 RNA 서열로부터 기능적으로 중요한 정보를 잘 추출하고 있음을 의미한다.
특히 연구팀은 BCL2L1이라는 유전자의 선택적 스플라이싱 이형체들을 Orthrus의 표현을 통해 분석했다. BCL2L1은 서로 다른 기능을 하는 이형체들을 생성하는 것으로 알려진 유전자다. Orthrus는 이 유전자의 이형체들을 그 기능에 따라 잘 구분해냈다. 이는 Orthrus가 RNA 서열의 미묘한 차이로 인한 기능 변화를 잘 포착할 수 있음을 보여준다.
이러한 결과는 Orthrus가 단순히 RNA 속성을 예측하는 데 그치지 않고, RNA의 기능적 다양성을 이해하는 데에도 도움을 줄 수 있음을 시사한다. 이는 선택적 스플라이싱의 기능적 결과를 예측하거나, 새로운 RNA 변이의 영향을 추정하는 등 다양한 RNA 연구에 활용될 수 있는 가능성을 보여준다.
RNA 연구의 새로운 지평
Orthrus의 개발은 RNA 연구 분야에 중요한 의미를 갖는다. RNA 속성 예측의 정확도 향상은 질병 메커니즘 이해, mRNA 백신 개선, 유전자 조절 연구 등 다양한 응용 분야에 기여할 수 있다. 특히 Orthrus의 적은 데이터 요구량은 실험 데이터 확보가 어려운 RNA 연구의 한계를 극복하는 데 큰 도움이 될 것으로 기대된다.
연구를 주도한 한 연구원은 “Orthrus는 RNA의 진화적, 기능적 다양성을 포착하는 것을 목표로 합니다. 이를 통해 RNA 속성 예측의 정확도를 높이고, 나아가 RNA 기능에 대한 이해를 넓히는 데 기여할 수 있을 것”이라고 말했다. 또한 “Orthrus의 접근 방식은 RNA 연구에 새로운 패러다임을 제시할 수 있을 것”이라고 덧붙였다.
Orthrus의 개발은 또한 인공지능 기술과 생물학의 융합이 가져올 수 있는 혁신을 보여주는 좋은 사례다. 진화와 기능이라는 생물학적 개념을 인공지능 학습에 적용함으로써, 더 효과적이고 해석 가능한 모델을 만들어낼 수 있음을 보여준다. 이는 향후 다른 생물학 분야의 인공지능 응용에도 영감을 줄 수 있을 것으로 보인다.
향후 연구팀은 Orthrus의 성능을 더욱 개선하고, 다양한 RNA 연구 분야에 적용할 계획이다. 또한 Orthrus의 학습 방식을 다른 종류의 생물학적 서열, 예를 들어 DNA나 단백질 서열에도 적용할 수 있는 방안을 모색하고 있다. Orthrus가 RNA 연구의 새로운 도구로 자리잡아 RNA 기능에 대한 이해를 넓히고, 궁극적으로는 RNA 기반 질병 진단과 치료법 개발에 기여할 수 있을지 주목된다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기