AI, 단백질을 처음부터 새로 설계하다
질병치료, 신약테스트, 농작물수확량 증대 기대감 … 이코노미스트지 “나노기술 제2막 열려”
바이오연료를 생산하는 전통적 방식은 다소 번거롭고 비효율적인 데다 비용도 많이 든다. 옥수수나 대두 같은 작물을 대량으로 재배해 수확한 뒤 가공해야 비로소 광합성을 통해 서서히 저장된 에너지를 사용할 수 있다.
영국 이코노미스트 최신호에 따르면 미국 워싱턴대 ‘단백질설계연구소(IPD)' 네이트 에니스 박사는 합성 단백질 설계로 재생에너지 생성과정의 효율성을 극적으로 끌어올리는 방법을 연구중이다. 에니스 박사는 식물의 광합성 장치에 주목했다. 광합성 과정을 간소화하는 것은 물론 기존보다 더 넓은 빛의 파장대를 활용할 수 있게 개선하겠다는 것이다. 장기적으로는 햇빛 에너지를 당분이 아니라 탄화수소 생산에 쓰도록 광합성 경로 자체를 재설계하려 한다.
단백질 변형 아닌, 새로운 설계
단백질을 인간의 목적에 맞게 조작하는 일은 새로운 게 아니다. 효소나 항체처럼 기존 단백질을 변형한 사례는 많다. 하지만 에니스 박사의 접근방식은 다르다. 기존 단백질을 수정하는 게 아니라, 인공지능(AI) 모델을 사용해 특정 기능에 최적화된 단백질을 처음부터 새롭게 설계하는 것이다.
이코노미스트지는 “한때 '분자 크기의 공장'이라는 기대를 모았던 나노기술은 현재 선크림이나 테니스라켓 같은 상업적 활용에 머물러 있다. 하지만 IPD는 나노기술의 본래 꿈을 되살리려 한다”고 전했다.
이 새로운 나노기술의 핵심은 3가지다. 첫번째는 단백질 구조가 기능에 어떻게 영향을 미치는지 분석하는 능력이다. 에니스 박사는 엽록소 분자 쌍을 효율적으로 고정해 빛을 전자로 전환하는 단백질 구조를 찾고 있다. 두번째는 원하는 구조로 접힐 수 있는 아미노산(단백질을 구성하는 기본단위) 서열을 설계하는 능력이다. 마지막으로 설계한 단백질이 실제로 그 구조를 갖게 될지 사전에 검증하는 능력이다.
베이커 박사 연구팀은 첫번째 단계에서 단백질의 구조로부터 그 기능을 예측하는 AI 모델 'RF디퓨전(RFdiffusion)'을 사용한다. 이 모델은 이미지 생성용 확산모델(diffusion model)과 비슷한 방식으로 작동하지만, 사진이나 그림 대신 20만개가 넘는 천연 단백질 데이터베이스를 학습에 사용한다는 점이 다르다.
두번째 단계에서는 '프로틴MPNN(ProteinMPNN)'이라는 도구를 사용한다. 이 도구는 베이커 박사 연구팀이 자체개발한 것으로, 단백질 사슬 내 아미노산들이 서로 어떻게 상호작용하는지 또는 다른 분자들과 어떻게 상호작용하는지에 대한 데이터베이스를 기반으로 훈련됐다.
세번째 단계에서는 '로제타폴드(RoseTTAFold)'라는 머신러닝 모델을 사용한다. 이 모델은 원래 베이커 박사가 1990년대 중반에 만든 소프트웨어와 유사하다. 로제타폴드 초기버전은 영향력이 대단히 커서 훗날 구글 모기업 알파벳의 막대한 지원을 받게 된 단백질 접힘 AI모델 '알파폴드(AlphaFold)' 탄생에 영감을 줬다. 알파폴드 개발자들은 이 공로로 지난해 베이커 박사와 노벨화학상을 공동 수상했다.
이러한 가상의 과정을 거치면 과학자들은 해당 단백질을 실제로 만들어낼 수 있다. 적합한 DNA를 합성한 뒤 박테리아나 효모에 주입한다. 이후 이 단백질이 실제로 원하는 기능을 제대로 수행하는지 실험을 통해 검증하게 된다.
IPD는 광합성 재설계 외에도 다양한 프로젝트를 진행하고 있다. 예를 들어 쇠사슬 갑옷처럼 서로 연결가능한 원형 단백질 섬유를 이용해 만든 완전히 새로운 직물, 뼈나 진주층을 연상시키는 유기-무기 혼합 신소재, 폐기하기 어려운 PET 등 플라스틱을 분해해 유용한 화학물질로 바꾸는 효소, 단백질 구멍을 통해 분자를 통과시켜 그 정체를 식별하는 칩 기반 센서 등이다.
알파벳 등 여러 기업 뒤따라
앞선 사례들은 전부 의료 분야를 제외한 비의료 응용사례에 해당한다. 의료 분야에서는 활용가능성이 훨씬 더 크다. 예를 들어 단백질설계연구소와 우리나라 SK바이오사이언스가 공동 개발한 코로나19 백신'스카이코비원(SKYCovione)'은 코로나 바이러스의 스파이크 단백질 일부를 인공적으로 모방한 구조를 면역계가 잘 인식하도록 배열해 면역반응을 유도하는 방식으로 작동한다.
IPD는 또 뱀에 물렸을 때의 치료법을 획기적으로 바꿀 수 있는 단백질도 개발했다. 이 단백질은 혈액 속 독성 분자에 결합해 이를 중화시키는 역할을 하는데, 현재 사용되는 항체처럼 작용하면서도 크기가 더 작고 만들기도 훨씬 쉽다.
알츠하이머병을 치료하기 위한 계획도 비슷한 방식이다. 알츠하이머 환자의 뇌에서 발견되는 신경 플라크(단백질 찌꺼기)와 엉킴(tangle)의 분자 전구체에 결합하는 단백질을 설계해 이를 초기에 차단하거나 제거하려는 시도다.
유전자편집기술 개선도 목표 중 하나다. 크리스퍼 캐스(CRISPR-Cas) 시스템에서 '캐스'로 불리는 뉴클레이스(유전자를 자르는 효소)를 특정 DNA 서열에 정확히 결합할 수 있도록 맞춤형으로 설계해 편집가능한 DNA 영역을 넓히고 원치 않는 부위가 잘못 잘리는 위험을 줄이는 것이다.
첫번째는 영국 AI 기반 신약개발회사'아이소모픽 랩스(Isomorphic Labs)'로 일라이 릴리, 노바티스 등 대형 제약사들과 협력해 신약 후보물질이 목표 단백질과 어떻게 상호작용하는지 실험하고 있다. 두번째는 '알파프로테오(AlphaProteo)'라는 시스템으로, 구글 딥마인드에서 개발한 단백질설계플랫폼이다. 특정한 목표에 정확히 결합할 수 있도록 단백질을 설계하는 기능을 갖추고 있다.
조금 다른 접근방식을 취하는 회사들도 있다. 미국 캘리포니아 소재 '프로플루언트(Profluent)'와 뉴욕 소재 ’에볼루셔너리스케일(EvolutionaryScale)‘은 이미지를 생성하는 소프트웨어가 아니라 챗봇에 사용되는 대형언어모델(LLM)과 유사한 방식의 단백질설계 AI 모델을 개발하고 있다. 이들 회사의 모델은 단백질 사슬 내 아미노산 서열을 마치 텍스트 안의 단어처럼 취급한다. 즉 수많은 예시에서 나타나는 관계를 분석해 새로운 유용한 단백질 구조를 설계하는 것이다.
프로플루언트 CEO 알리 마다니는 “우리는 특히 새로운 크리스퍼 캐스 유전자 편집도구 개발에 집중하고 있다”며 “우리의 강점은 약 500만개의 크리스퍼 캐스 단백질 복합체로 구성된 정제된 데이터베이스다. 이 방대한 데이터로 AI 모델을 학습시켜 새로운 버전의 단백질을 설계할 수 있도록 한 게 핵심”이라고 말했다.
새로운 돌파구 기대감
에볼루셔너리스케일은 LLM 방식을 한층 더 발전시키고 있다. 이 회사의 AI모델인'ESM3'는 단백질의 아미노산 서열뿐만 아니라 그 구조와 기능까지 함께 고려한다. 모델을 학습시킨 데이터베이스 규모도 방대하다. 이 회사 수석과학자인 알렉스 라이브스는 “우리 데이터베이스에는 약 28억개의 항목이 포함돼 있다”며 “개별 단백질 분석을 넘어 이들 단백질이 서로 상호작용하는 '가상세포(virtual cell)'의 초기 모델을 만드는 것을 목표로 한다”고 말했다.
이코노미스트는 “새로운 나노기술 접근방식이 가져올 영향은 아직 뚜렷하게 드러나지 않았다. 하지만 광합성을 새롭게 설계하는 일만 보더라도 그 파급효과는 바이오연료 분야를 훨씬 넘어설 가능성이 크다”며 “특히 이 방식이 기존 식물에도 적용가능하다면 안전성과 소비자 수용성이라는 전제 하에 작물 수확량을 크게 높일 수 있을 것”이라고 예상했다.
또 화학공정 수율을 개선할 가능성도 크다. 많은 효소들이 기존 촉매보다 훨씬 효율적으로 작동할 수 있기 때문이다. 언제나 그렇듯 기술발전의 과정에서 지금은 예측하기 어려운 새로운 돌파구가 나올 수도 있다.
베이커 박사가 특히 주목하는 아이디어는 실리콘 반도체 칩에 들어가는 논리게이트(logic gate)의 단백질 버전이다. 이러한 단백질 게이트는 세포 내 유전자 발현을 조절하는 데 활용될 수 있다. 그는 장기적으로 이 단백질 게이트들이 기존의 실리콘 게이트보다 더 쉽게 3차원 구조로 쌓을 수 있을 것으로 본다. 그렇게 되면 더 작고 밀도가 높은 회로 설계도 가능할 수 있다.
이코노미스트지는 “물론 이것이 실제로 구현될지는 미지수다. 그럼에도 나노기술의 '제2막'이 본격적으로 올랐다는 점만은 분명해 보인다”고 평가했다.
김은광 기자 powerttp@naeil.com