과학산책
고품질 생명연구자원 구축을 기반으로 한 AI바이오
제4차 국가생명연구자원 관리·활용 기본계획이 공개됐다. AI바이오를 위한 핵심 인프라로서 생명연구자원 생태계를 조성하겠다는 것이다. 다양한 국내 연구진이 생산하고 있는 수많은 생명체 대상 연구 데이터를 한 데 모아 정리하고, 이를 손쉽게 활용할 수 있도록 인공지능 기반 분석 플랫폼을 구축하는 셈이다. 이를 통해, 소규모 데이터에서는 확인하기 어렵지만 대규모 데이터에서는 확인할 수 있는 생명이라는 복잡한 특성을 이해할 수 있는 길이 더 넓어질 것이다.
예컨대 사람의 데이터로부터 질환의 원인과 대책을 쉽게 도출하고, 동식물의 데이터로부터 신약 후보 물질을 더 쉽게 발굴하는 것을 가능케 할 기반이 될 것으로 보인다. 국가바이오스테이션(K-BDS)은 이러한 데이터 등록과 분석 플랫폼 구축을 위한 핵심 인프라다.
이는 미국, 유럽, 중국, 일본 등에서 운영 중인 바이오 데이터센터에 준하는 수준으로 성장하는 것을 목표로 하고 있으며, 현재에도 국내에서 대규모 데이터를 고속으로 등록할 수 있는 국제 표준 시스템을 구축하고 있다.
여느 분야와도 비교하기 어려울만큼 대규모 데이터가 산출하는 생명과학 분야에서 이같은 고속 전송 및 대규모 저장 시스템은 필수적이다. 이에 더해 각 바이오데이터에 대한 표준화된 설명을 입력하게 함으로써 향후 인공지능을 비롯한 다양한 통계 분석이 가능케 구성되어있다는 것도 장점이다.
생명현상 이해 위해 고품질 데이터 구축 필요
문제는 K-BDS에 등록된, 그리고 등록될 바이오 데이터 자체의 효용성에 있다. 국외 전문 데이터센터 대비 특성화된 데이터가 너무나 부족하다. 가장 대표적인 바이오 데이터인 DNA와 RNA의 서열 정보는 포트 로더데일 협정에 따라 누구나 접근할 수 있는 공개 데이터베이스에 등록하는 것이 원칙이다.
그래서 이미 수많은 바이오 데이터는 학문의 역사와 함께 성장한 미국 데이터 센터 NCBI에 등록되어있다. 다른 데이터센터에 구축된 데이터를 대체할 수 없으니, K-BDS가 좋은 시스템을 갖추었다 한들 이를 활용할 유인이 부족하다.
결국 대규모, 고품질 데이터를 생산하고 등록하는 것만이 이를 해결하기 위한 답일 것이다. 복잡한 생명현상을 이해하기 위해서는 전례없는 수준의 다층적 특성을 반영할 수 있는 고품질 데이터 구축이 필요하다.
이는 단순히 데이터 등록 건수만으로는 해결되기 어려운 문제다. 양적 증가를 넘어 질적 혁신이 필요하다. 기존에는 살펴볼 수 없었던 특성을 드러내는 신기술이 적용된 데이터를 대규모로 쌓든, 한국에서만 확보할 수 있는 시료에 대한 데이터를 대규모로 쌓든, 선점할 수 있는 새로운 분야에 대한 고민과 실제 데이터 생산이 시급하다. 그러니 결국 어떤 데이터를 얼마나 많이 생산할 것인가 하는 문제를 해소해야 한다. 예를 들자면 끝도 없이 들 수 있다.
먼저 세포 자체를 이해하기 위해 구축되고 있는 대규모 섭동 데이터셋이 대표적이다. 이는 세포에 약물 처리 같은 자극을 가했을 때 그것이 어떤 세포 반응 변화를 일으키는지 기록한 대규모 실험 데이터셋을 구축하고, 이를 학습해 컴퓨터 상에서 세포의 반응을 이해할 수 있는 가상세포를 만들어내는 것을 목표로 한다. 이는 향후 약물에 대한 반응성을 예측하거나 희귀질환자의 원인 변이를 확정하는 데 널리 쓰일 수 있는 기반이 될 것이다.
생물 다양성 또한 중요한 축이다. 사람을 대상으로 구축되어 있는 고품질 유전 자원을 온갖 동식물 대상으로 확보하는 것도 시급하다. 이는 해당 생물을 연구하고자 하는 연구진이라면 누구나 관심 있어 하는 핵심 유전 자원이기에 활용도가 높다.
나아가 가상세포 모델 구축을 사람에 제한할 것이 아니라 다양한 동식물과 미생물을 대상으로 구축할 수 있는 기반을 마련하는 것도 필요하다.
이는 생물 안에서 유전자가 작동하는 방식을 이해하게 함으로써 효율적인 육종을 가능케 할 것이며, 생물의 진화라는 역사 속에서 축적해온 수많은 유용 유전자를 인류가 신약 발굴 등의 목적으로 직접 활용하기 위한 배경 지식을 제공해줄 것이기 때문이다.
데이터 기반 인공지능 연구 한국이 선도하길
쓸모있는 데이터는 분명 비싸다. 그것도 개인이나 연구실 수준에서 감당하는 것은 불가능할 정도로 비싸다. 그러나 대규모로 생산된 고품질 데이터는 그 활용도가 극도로 높으며, 경제적 성과를 창출하리란 희망 또한 더 크게 품을 수 있다. 이와 같은 데이터 기반 인공지능 연구를 한국에서 선도할 수 있게 되길 바란다. 정말 의미 있는 인공지능 모델을 개발할 수 있도록, 값비싸고 귀중한 데이터를 구축할 수 있길 기대한다.