신문로
'단백질 접힘' 문제와 인공지능의 역할
아마 많은 사람들이 2016년 3월 9일부터 15일까지 열렸던 이세돌 9단과 알파고의 대국을 기억할 것이다. '딥마인드 챌린지 매치'라고 불린 이 대국은 오랫동안 장안의 화제가 됐다.
알파고를 개발한 구글의 딥마인드는 그 후 스타크래프트2를 위한 알파스타를 거쳐, 생물학의 최대 난제 중 하나라고 불리는 '단백질 접힘' 문제를 풀기 위해 알파폴드(AlphaFold)를 개발하기 시작했다.
생명현상의 근간이 되는 단백질은 다양한 순서로 일렬로 늘어선 21가지의 아미노산으로 구성된다. 단백질을 긴 노끈으로, 아미노산을 노끈 중간 중간에 지어진 매듭으로 생각해보자. 아미노산의 종류에 따라 끌어당기거나 밀어내는 힘이 작용하기 때문에 이 노끈을 3차원 공간에 두면 가장 안정된 형태로 접힐 것이다. 바로 이 3차원 구조가 단백질의 기능을 결정하는 가장 중요한 요소 중 하나다. 주어진 아미노산의 서열로부터 단백질의 3차원 구조를 알아내는 문제를 '단백질 접힘'이라고 한다.
현재까지 인류는 2억3000만개 정도의 단백질을 발견했지만, 3차원 구조까지 알아낸 것은 17만개에 불과하다. 실험을 통해 단백질 접힘을 알아내려면 엑스선 결정학 등을 이용해야 하고, 평균적으로 1억원 정도의 비용과 1년여의 시간이 소요된다. 만약 인공지능을 이용해서 단백질 접힘을 효과적으로 알아낼 수 있다면 생물학이나 신약 개발 등의 분야에 파급효과가 지대할 것이다.
박테리아 단백질 구조 AI로 30분 만에 풀어
알파폴드는 현재 두가지 버전이 개발되었다. 그 첫번째 버전인 알파폴드1은 2018년 열린 '단백질 구조 예측 학술대회'(CASP, Critical Assessment of techniques for protein Structure Prediction)에 참여해서 획기적인 성과를 거두었다.
CASP은 미국 메릴랜드대학의 세포생물학 및 분자유전학과 교수인 존 몰트의 주도로 1994년부터 시작해 2년마다 열리는 단백질 구조 예측 대회로 '단백질 접기 올림픽'이라고 불릴 정도로 유명하다.
이 대회에서 알파폴드1은 가장 높은 60% 정도의 정확도를 보여주었다. 이는 역대까지 가장 높았던 정확도가 40% 정도라는 점을 고려하면 괄목할 만한 결과라고 할 수 있다.
딥마인드는 그 후 획기적으로 개선된 알파폴드2로 2020년에 열린 CASP에 참여해 거의 90%에 가까운 정확도를 보여주었다. 이는 실제 과학자들이 실험을 통해 밝혀낸 결과와 비슷한 수준이어서 학계에서 '알파폴드2 쇼크'라고 불리기도 한다.
이 과정에서 알파폴드2는 지난 10년 동안 독일 막스플랑크연구소가 알아내려고 시도했지만 번번이 실패했던 박테리아 단백질 구조를 불과 30분 만에 알아내기도 했다. 알파폴드1과 2에 대한 연구논문은 세계적 학술지 네이처에 2020년과 2021년에 각각 게재되었다.
그렇다면 알파폴드는 어떻게 단백질 접힘을 예측하는 것일까? 알파폴드1은 두가지 구성요소를 가지고 있다.
첫번째 스텝에서는 합성곱 신경망 네트워크(CNN)를 통해 주어진 단백질 서열 정보에서 아미노산 사이의 3차원 상에서의 거리를 예측한다. 두번째 스텝에서는 예측된 거리 정보를 이용해 3차원 접힘구조를 경사하강법(gradient descent)을 이용해 알아낸다.
알파폴드2도 이와 비슷한 구조를 갖지만 CNN 대신 트랜스포머(transformer)라는 딥러닝 테크닉을 사용, 이를 통해 보다 효과적으로 단백질 접힘에 관여하는 물리적 법칙들을 딥러닝 학습에 적용한다.
알파폴드 사용법이 생물학 교과 될 수도
이세돌 9단과 같은 프로 바둑기사는 수없이 많은 경우의 수 중에서 하나를 찾아 알파고와의 4국과 같은 아름다운 대국을 보여준다.
단백질은 우주에 있는 원자 개수보다도 많은 3차원 구조 중에서 하나를 정확하게 찾아내어 접힌다.
알파고가 딥러닝을 이용해 이세돌 9단과 비슷한 대국 실력을 구현했다면, 알파폴드는 딥러닝을 통해 자연이라는 프로기사가 어떻게 단백질을 3차원 공간상에서 접는지를 구현했다. 더욱 고무적인 점은 누구나 공개된 알파폴드 알고리즘을 이용해 몇시간 만에 단백질 접힘을 예측할 수 있다는 것이다. 앞으로 알파폴드 사용법이 생물학 교과 과정이 될 지도 모를 일이다.