과학산책
국가통합바이오 빅데이터 구축사업의 성공조건
보건복지부 과학기술정보통신부 산업통상자원부 질병관리청 4개 정부 부처가 공동으로 추진중인 국가통합바이오 빅데이터 구축사업은 한국인의 건강정보와 유전체를 비롯한 대규모 데이터를 구축하기 위한 인프라 사업이다. DNA와 같은 단순하지만 다양한 정보를 포함하고 있는 생체 분자부터, 실제 환자의 건강과 질환상태를 포함한 복잡하고 해석이 어려운 정보까지 한번에 확보하는 것을 목표로 한다.
이렇게 쌓인 대규모 데이터는 인공지능(AI)을 통해 학습될 수 있다. 이러한 AI바이오를 고도화함으로써 질환이 생기고 건강상태가 바뀌는 원인이 무엇인지, 우리가 어떤 생체분자를 조절해 더 오래 건강하게 살아갈 수 있을지 이해할 수 있는 기반이 마련될 것으로 기대된다. 다만 여전히 다양한 문제가 산재해 있어 이에 대한 개선이 필요하다.
인체에서 유래한 데이터를 수집한다는 측면에서 본 사업은 중요한 가치를 지니지만, 그로 인한 제한조건도 까다롭다는 문제도 지니고 있다. 요컨대 데이터를 활용할 수 있는 방식이 극히 제한된다.
다른 데이터는 그나마 활용하는 데 큰 어려움이 없지만 유전체는 다르다. 유전체 데이터는 그 특성상 한 사람에게서 거의 바뀌지 않고, 가족 사이에서 일정 부분 공유되며, 질환 연관성 등을 유추할 수 있기 때문에 민감한 정보로 여겨지기 때문이다.
또한 복잡한 절차를 거쳐야 하고 타인의 머리카락 등을 채취할 수 있어야 한다는 전제가 붙긴 하지만 원칙적으로 개인을 식별하는 데 쓰일 수 있다. 그러니 유전체 데이터만큼은 데이터 공유부터 시작해 실제 활용하는 데 있어 쉬운 단계가 없다. 데이터를 쌓아도 활용하기가 어려운 상황이 쉽사리 발생한다.
쌓인 유전체 정보 활용하려면 제도 개선 필수
그러나 AI바이오를 실현하기 위해서는 복합적인 정보가 연계된 유전체 정보는 필수적이다. 막대한 예산을 활용해 여느 생체분자와도 비견되지 않을 거대한 유전체 데이터가 이미 축적됐으며, 이를 활용하기 위한 방법론도 매우 고도화 되어 있다. 따라서 이를 건강 및 질환정보와 연계해 DNA 수준에서 그 원인을 이해하고자 하는 일은 가장 선명한 결과를 낼 것으로 기대할 수 있는 명확한 시작점이다. 그러니 쌓아둔 유전체 데이터를 효과적으로 활용하기 위한 제도 개선과 법안 마련이 시급하다.
가명 처리와 관련된 논의가 대표적이다. 유전체 데이터를 활용할 수 있는 방안은 이를 가명화해 개인을 식별할 수 없게 한 채 보안환경에서 작업하는 것이 거의 유일하기 때문이다. 관련 가이드라인에 따르면 개인을 식별할 수 있는 정보, 예컨대 주민등록번호나 상세 주소 등과 분리할 수 있다면 유전체 데이터를 가명 처리한 것으로 인정할 수 있을 것으로 보이나 여전히 모호한 부분이 남아있다. 일각에서는 다른 정보 없이도 유전체 데이터만으로 개인을 식별할 수 있으니 가명 처리가 의미가 없다는 주장도 있기 때문이다.
결국 데이터를 제공한 사람과 관련된 건강 및 질환 정보를 어디까지 허용해야 할지, 개인정보를 보호하면서도 활용도를 극대화해 실제 산업적 성과로 이어질 수 있는 선은 어디까지인지 논의해야 한다. 요컨대 쓸 수 있는 데이터로 만들어내기 위한 제도 개선이 필요한 셈이다.
인프라 측면에서도 개선이 시급하다. 가명 처리를 한다고 해도 유전체 데이터는 외부 반출이 불가능한 경우가 많다. 이 때문에 데이터를 활용하기 위해서는 보관된 기관에 방문해서 활용하거나 보안 클라우드 내에서 작업을 진행해야 하는데 분석을 위한 연산 자원이나 프로그램이 제한될 수 있다.
무엇보다 이러한 보안체계에서는 최근 널리 쓰이는 AI모델을 이용한 분석 자동화를 활용할 수 없다는 것이 문제다. 현재 AI바이오는 데이터를 분석해 의미를 해석하고 실제 활용 가능한 형태로 재가공하는 것이 자동화되어 그 생산성이 극대화되고 있는 것과 대조적이다. 한국인을 대상으로 한 분석에도 이와 같은 분석방법론이 적용될 수 있도록 전산 인프라 구축과 시스템 개선이 고도화되길 기대한다.
AI모델 활용할 수 있도록 보안체계 개선
과학기술을 바라보는 관점에 대해서는 논쟁이 있다. 하지만 좋든 싫든 헌법과 과학기술기본법은 과학기술이 국민경제 발전에 기여할 것을 규정하고 있다. 이런 기여를 위해서는 의미 있는 연구를 실제로 수행할 수 있도록, 산업에 기여할 수 있는 기반을 마련할 수 있도록 지원해주는 것이 선행되어야 한다.
생산된 대규모 데이터를 활용하기 위한 제도개선, 실제 분석을 위한 인프라 구축과 시스템 개선 등은 산업 발전을 위한 가장 기초적인 기반이다. 이를 통해 세계적으로 의미 있는 연구 성과를 만들어 산업과 경제발전에 이바지할 수 있도록 다각적 지원을 바란다.