신문로

'라이프투벡' 사람의 미래를 예측하는 챗GPT

2024-01-04 11:18:19 게재
류한백 위스콘신대 수학과 교수, 데이터과학 기초연구소

지난 10년 동안 기계학습은 컴퓨터가 유연한 계산 모델을 통해 자연어 데이터를 분석하는 능력을 혁신적으로 개선했다. 이는 엄청난 사회적 반향을 일으킨 오픈AI의 챗GPT와 최근 등장한 구글의 제미나이(Gemini), 그리고 우리말 기반 거대 언어 모델인 네이버의 클로바x 같은 혁신들을 가능하게 했다.

이들 모델의 근간은 2017년 구글에서 개발한 트랜스포머(transformer)라는 자연언어처리용 인공신경망 모델로 현재 거의 모든 자연언어 처리 모델들의 뼈대가 되고 있다. 트랜스포머 기반 모델은 언어와 유사한 구조를 갖는 단백질 구조, 음악, 전자 건강기록에서부터 날씨예보까지 다양한 나열식 데이터를 이해하는 도구로서 각광받아 왔다.

최근 네이처에 발표된 덴마크공대의 '라이프투벡(Life2vec)'이라는 논문은 트랜스포머를 이용해 사람의 인생을 예측하는, 말하자면 '거대 인생모델'을 만들어 주목을 받고 있다. 언어란 단순히 말해 단어들의 나열이고, 단백질 구조 또한 염기서열의 나열이며, 음악은 음표들의 나열이다. 마찬가지로 어떤 관점에서는 인간의 삶 또한 태어나서 학교에 들어가고 결혼하고 자녀를 낳고 병원에 입원하는 등 결국 사건들의 연속이라고 할 수 있다.

연구팀은 한사람의 일생에 일어날 수 있는 모든 사건들을 단순화해 2560개의 '토큰(가상 단어)'으로 만들었다. 그렇게 되면 한사람에게 일어나는 사건은 이런 토큰들로 이루어진 가상의 언어로 표현되는 문장으로 이해할 수 있다. 사람의 일생을 기술하는 이 언어가 기존의 자연어와 다른 점은 각 사건들의 두개의 시간축(달력에 따른 시간과 개인의 나이) 위에 표현된다는 것이다. 이렇게 추가적인 시간정보를 가지는 '일생 언어'를 이해하고 예측하도록 만든 것이 '라이프투벡' 모델이다.

600만명 이상 데이터 이용해 삶의 궤적 추적

이 연구에서 가장 중요한 부분은 바로 데이터다. 아무리 트랜스포머 기반 모델을 수학적 공학적으로 잘 설계한다고 해도 결국 챗GPT와 같은 거대 언어 모델에서 가장 중요한 요소는 방대한 양의 데이터다. 챗GPT는 인터넷 상에 존재하는 거의 모든 텍스트 데이터를 사용한 것처럼 인간의 일생을 이런 가상의 '일생 언어 모델'로 기술하기 위해서는 수많은 사람들의 인생 궤적을 기록한 방대한 양의 데이터가 필요하다. 연구팀은 덴마크의 노동시장 회계와 국립 환자 등록부 데이터를 사용했다. 이 데이터는 수십년 동안 600만명 이상 덴마크 국민들의 건강 교육 직업 소득 주소 근무시간과 관련된 삶의 사건에 대한 하루 단위의 정보를 포함하고 있다.

이렇게 방대한 양의 삶의 궤적 데이터를 이용해 학습된 라이프투벡 모델은 각 사건 하나를 '개념공간' 안의 벡터(숫자의 나열) 하나로 축약해준다. 덴마크공대 연구팀은 이렇게 축약된 벡터들은 개념공간 위에서 고도로 구조화되어 있다는 것을 밝혔고, 이를 이용해 개인의 사망부터 성격의 미묘함까지 다양한 결과를 예측할 수 있다는 것을 보여주었다.

이 모델의 정확도는 현재 보험회사들이 사용하는 최첨단 모델을 최대 11% 앞지른다. 연구팀은 또한 다양한 설명가능성 기술을 사용해, 학습된 라이프투벡 모델이 어떻게 예측을 하는지 그 메커니즘을 분석했다. 이를 통해 모델이 사망시기나 성격 등 다양한 문제를 풀 때 삶의 궤적의 다양한 측면에 의존한다는 것을 발견했다.

생성형AI에 의해 결정되는 삶의 모습은?

라이프투벡 모델은 궁극적으로 한사람의 성격뿐만 아니라 예상 수명과 미래에 걸릴 수 있는 질병의 종류 시기까지 예측하는데 쓰일 수 있다. 고도로 발달된 미래사회에서 인공지능 기술을 이용해 잠재적 범죄자를 사전에 체포하는 영화 '마이너리티 리포트'가 생각나는 대목이다.

비슷한 방법으로 대한민국의 코로나 방역 데이터를 이용해 개인이 언제 어느 위치에 있을지 예측하는 모델을 만들 수도 있을 것이다. 이런 모델들이 고도로 발달하면 개인의 미래를 높은 정확도로 예측하는 일도 가능할지 모른다. 이렇게 되면 미래의 챗GPT는 "내 앞으로의 10년을 예측해줘"라는 질문에 대한 가장 높은 확률의 답을 생성할 것이고, 우리의 미래는 실제로 그렇게 일어날 지도 모른다.

생성형AI에 의해 결정되는 우리의 삶은 어떤 모습일까?

류한백 위스콘신대 수학과 교수