국민데이터 활용 신약개발- ‘수익 공유'
글로벌 경쟁 위한 혁신 제안
국민 의료 데이터를 활용해 신약개발할 수 있는 체계를 갖추고 그 수익을 국민에게 돌려주는 정책을 추진하자고 제안이 나왔다. 우리나라 제약산업 규모는 글로벌 1.8% 수준이나 신약개발은 미국 스위스 일본 독일 프랑스 영국 등이 독점하고 있다.
11일 김화종 한국제약바이오협회 단장은 “국민의 건강보험과 진료 그리고 유전체 데이터를 ‘데이터 이동 없이’ 안전하게 활용해 신약 인공지능 예측 모델을 개발하자”며 “해당 기술로 수익이 발생하면 국민에게 배당하는 정책을 도입하자”고 밝혔다.
이런 정책 제안의 배경에는 AI바이오 산업에서 가장 중요한 요소는 바이오 데이터다. 언어 인식, 시각 인식은 학습데이터가 충분해 AI 구현이 가능했다. 하지만 신체의 약물 반응 모델링은 데이터가 불충분해 여전히 난제다.
AI기반 제약바이오산업 발전을 위해서는 다른 국가에 없는 혁신적인 전략이 필요하다. 우리나라에 다른 나라에 없는 특별한 제도가 있다. 바로 전국민 단일 건강보험체계 등 세계적으로 보기 드문 의료 바이오 데이터 통합관리 역량을 갖추고 있다. 지금 그 데이터의 산업적 활용이 제한돼 있다.
이에 국민으로부터 생산된 바이오 데이터의 효과적인 활용체계를 구축할 필요성이 제기된다.
김 단장은 “국민의 바이오 데이터를 효과적으로 활용해 블록버시터 신약 개발을 가속화하고 이를 통한 수익 일부를 국민에게 보상하는 제도를 도입하자”고 말했다.
이러한 제안이 시행되기에는 개인정보 공유 방법의 한계를 넘어서야 한다. 데이터를 가명화하더라도 복수 데이터를 연결하면 재식별이 가능하다. 암호화하더라도 암호키가 유출되면 원본 데이터 노출 위험이 있다. 여러기관의 데이터를 수동으로 결합하면 실시간 처리가 불가하다. 분석이 지연되고 인프라 부담이 생긴다.
공공데이터 모델은 표준화 절차와 변환 작업 필요하고 인공지능 학습과 실시간 모델 적용에 한계가 있다. 개인이 ‘마이데이터’ 이용을 허락하더라도 특정 인구 집단 데이터를 대상으로 학습이 필요한 AI 모델 개발용으로는 부족하다.
이러한 문제를 위해 제약업계와 보건복지부는 ‘연합학습 기술’을 도입했다. 이 기술은 데이터를 기관 외부로 이동하지 않고 AI 모델 가중치만 공유해 성능이 우수한 AI모델을 협력해 만든다. AI모델을 먼저 개발하고 이 목적에 필요한 데이터만 학습에 사용한다.
여러 병원이 보유한 MRI 뇌종양 이미지를 연합학습으로 분석해 종양 세그멘테이션 AI 모델 성능을 개선한 사례가 있다.
김규철 기자 gckim1026@naeil.com