과학산책
인공지능 기반 인체 빅데이터 연구에 대한 기대
영국 바이오뱅크 사업에서 50만명의 DNA를 분석한 완성본을 공개했다. 2006년 즈음 본격적으로 시작된 사업이 약 20년 만에 일단락된 셈이다. 해당 사업은 참여자로부터 시료를 수집하고, 이들의 의료영상과 다양한 건강정보를 수집하며 진행되고 있다. 전례 없는 수준의 방대한 자료다.
이러한 고품질 자료는 전세계 연구자에게 공개되고 있으며, 이를 이용한 논문도 수천 편 이상 발표됐다. 이제는 인공지능 연구의 기반 자료로서 활발하게 쓰이고 있기도 하다. 고품질 자료를 생산하고 제공함으로써 전세계 연구자들이 영국인의 건강증진을 위한 연구를 하게끔 고안한 것이다.
해당 연구는 50만명을 대상으로 DNA 자료인 유전체 데이터를 4경8000조 염기쌍만큼 생산했으며 이를 분석해 총 15억개의 변이를 확인하는 데 성공했다. 이는 동일 사업에서 기존에 확인한 변이정보에 비해 20배에서 40배 가량 늘어난 수치다. 변이는 사람마다 서로 다르게 확인되는 DNA의 차이를 가리킨다.
서로 다른 DNA의 변이는 사람 사이에서 질병이나 다양한 특징 차이를 만들어내기도 해 중요한 가치를 지닌다. 무엇보다 DNA 변이정보는 다른 생체분자정보에 비해 합리적인 비용만으로도 가장 안정적으로 생산된다는 장점을 지닌다. 이번 바이오뱅크 사업을 통해 기존에 확인하기 어려웠던 변이를 확보하는 데 성공함으로써 질병과 특징에 차이를 줄 수 있는 신규 DNA 변이를 확보할 수 있게 된 셈이다.
변이와 단백질 작동정보 확보해 질병 예측
영국 바이오뱅크 사업은 DNA를 완성한 뒤 다양한 생체정보를 포괄하는 연구로 확장되고 있다. 가장 대표적인 것이 신체 영상정보와 단백질 작동정보다. 다양한 건강정보에 더해 자기공명영상(MRI) 및 엑스레이 관련 영상 정보가 이미 확보돼 있으며, DNA 상의 변이정보와 연계해 뇌 심장 복부 골밀도 차이를 연구하는 것이 가능하다.
단백질 정보는 현재 지속적으로 수집하고 있는 상황이다. 마찬가지로 DNA 변이가 어떻게 단백질 작동 방식을 바꾸는지, 그리고 그 변화가 어떻게 질환과 건강에 연계되는지를 연구하는 것이 가능하다. 방대한 자료를 기반으로 다양한 연구가 수행될 수 있는 기반이 마련되고 있다.
한국에서도 관련 연구가 활발하게 수행되고 있다. 다부처 사업인 국가 통합 바이오 빅데이터 구축사업은 한국인의 임상정보와 유전변이에 더불어 RNA 단백질 대사물질 등 다양한 생체분자에 대한 정보를 수집하는 것을 목표로 진행되고 있다. 이는 영국 바이오뱅크에서 진행되고 있는 유전변이 정보와 비슷한 수준의 결과를 제공할 것으로 기대된다.
국립보건연구원에서 진행 중인 한국인 판지놈(Pangenome, 유전체 지도) 프로젝트 또한 주목할 만하다. 이 프로젝트는 보다 적은 수의 한국인을 대상으로 하는 대신 DNA와 RNA, 단백질 정보를 최첨단 대규모 분석기법을 이용해 해독하고자 한다. 이를 통해 영국 바이오뱅크에서 생산된 자료보다도 품질 높은 자료, 가장 완성도 높은 수준의 자료를 제공하는 것을 목표로 한다.
이러한 인체 빅데이터는 모두 한국인의 건강 연구를 수행하기 위한 강력한 토대로서 기여할 것이 확실시 되고 있다.
현재 빠르게 성장하고 있는 인공지능 연구는 이러한 인체 빅데이터를 활용하기 위한 강력한 방법론을 탄생시킬 것으로 기대된다. 요컨대 대규모 변이와 단백질 작동 양상, 질병정보를 학습하는 것이다. 이를 통해 DNA의 변이정보만을 이용해 단백질의 작동방식과 그로 인한 질병 예측이 가속화될 것이다.
거꾸로 보면 질환을 일으키는 단백질을 확인한 뒤 이를 조절할 수 있는 새로운 소형 단백질을 빠르게 설계함으로써 신약 개발을 효율화할 수도 있을 것이다. 가장 저렴하고 정확하게 확보할 수 있는 DNA 정보만으로도 복잡하고 비싼 생체 분자와 건강정보를 예측하고 활용할 수 있는 길이 열릴지도 모른다.
생체 빅데이터 생산에 대한 지원도 늘어나길
이런 인공지능 연구가 제대로 시작되고 정착될 수 있도록 인공지능 학습에 쓰일 생체 빅데이터 생산에 대한 연구지원도 늘어나길 기대한다. 현재 가장 고도로 연구되고 있는 인체에 대한 빅데이터조차 인공지능 학습에 쓰이기에는 여전히 부족하기 때문이다.
데이터가 부족하니 학습할 수 있는 모형과 이를 기반으로 해결할 수 있는 문제도 제한적일 수밖에 없다. 그러니 학습에 활용할 수 있는 고품질 자료를 축적하는 연구가 시급하다. 고품질 자료와 고도화된 모형을 통해 생명현상을 근본적으로 이해하고, 이를 기반으로 인류의 건강을 증진시킬 수 있는 연구를 한국에서 선도하길 기대한다.