신문로

수학의 ‘최적 수송’ 개념과 생성형 AI

2025-09-04 12:59:59 게재

최적 수송(Optimal Transport)은 서로 다른 데이터 분포를 비교하고 정렬하기 위한 강력한 수학적 개념으로 그 기원은 18세기로 거슬러 올라간다. 1781년 프랑스 수학자 가스파 몽주(Gaspard Monge)가 흙더미를 옮겨 구덩이를 가장 효율적으로 채우는 방법을 찾기 위해 처음 공식화한 이 개념은 2차세계대전 중 소련의 수학자이자 경제학자인 레오니드 칸토로비치(Leonid Kantorovich)에 의해 오늘날의 형태로 재정립되었다.

최적 수송은 1930년대에 물리학자 에르빈 슈뢰딩거(Erwin Schrudinger)가 제시한 슈뢰딩거의 다리(Schrudinger bridge) 문제와 밀접하게 연관되어 있다. 예를 들어 향수 분자들의 분포를 10분 간격으로 알고 있다고 할 때, 이 사이의 시간 동안 분자들이 움직였을 법한 가장 자연스러운 궤적(다리)을 찾는 문제다.

최적 수송은 계산상의 어려움 때문에 응용적 측면에서 크게 주목을 받지 못하다가, 2013년 마르코 큐투리(Marco Cuturi)가 제시한 엔트로피 최적 수송(entropic optimal transport)을 싱크혼(Sinkhorn) 알고리즘으로 빠르고 효율적으로 풀 수 있게 되면서 현대 머신러닝, 특히 생성형 AI에서 각광받는 수학적 도구가 되었다.

생성형 AI 이미지 변환 작업의 핵심

최적 수송은 본질적으로 한 ‘물건’ 더미를 다른 형태로 바꾸는 데 필요한 ‘일’의 양을 측정한다. 예를 들어 모래더미(분포 A)가 있고 이를 성(분포 B) 모양으로 바꾸고 싶다고 상상해 보자. 이때 최적 수송은 모든 모래알을 시작점에서 성의 최종 위치로 옮기는 데 쓰이는 가장 저렴한 수송 계획이다.

실제로 이 수송 계획을 찾기 위해 싱크혼 알고리즘과 같은 방법이 사용되는데, 이를 두 명의 플래너가 협상하는 과정으로 생각할 수 있다. 첫번째 플래너는 모래더미에서 출발하는 최적의 경로를 제안하고, 두번째 계획자는 그 경로들을 성 모양에 가장 잘 맞도록 조정한다. 그들은 서로의 마지막 제안을 바탕으로 각자의 계획을 최적화하며 이를 반복한다. 이러한 ‘핑퐁’ 과정은 결국 전체 변환에 대한 가장 효율적인 최적의 수송 계획으로 수렴한다.

이 싱크혼 알고리즘의 수렴 속도는 복잡한 문제의 경우 굉장히 느릴 수 있다. 이를 획기적으로 향상시킨 방법이 마르코 큐투리의 엔트로피 최적 수송이다. 쉽게 말해 원래 찾고자 하는 최적 수송 대신에 ‘적당히 최적’인 수송을 찾는 방법이다. 이 ‘적당히 최적’이라는 개념을 엔트로피를 이용해 구성하면 문제의 복잡도에 크게 상관없이 싱크혼 알고리즘이 굉장히 빠르게 수렴하게 된다. 이는 현대 머신러닝 문제에 최적 수송을 응용할 수 있게 해준 기념비적인 발견이었다.

엔트로피 최적 수송은 실제 현대적 생성형 AI의 이미지 변환과 같은 작업에 핵심이 되었다. 예를 들어 생성형 AI에게 개의 사진을 사실적인 사람 얼굴로 바꾸도록 훈련시키고 싶지만, 현실적인 훈련용 데이터 셋에는 특정 개와 그에 상응하는 인간의 사진이 짝을 이루어 있지 않고, 다양한 개의 사진과 다양한 사람 얼굴 사진들이 모아져 있을 것이다.

이때 엔트로피 최적 수송을 사용해서 모델로 하여금 일반적인 개 이미지 분포의 특징들을 인간 얼굴 분포로 ‘수송’하는 가장 효율적인 방법을 찾도록 할 수 있다. 즉, 명시적인 개-인간 쌍을 보지 않고도 개의 코를 사람의 코에, 축 처진 귀를 사람의 머리카락에 매핑하는 법을 배우는 것이다. 모델은 핵심 구조를 보존하면서 스타일을 변환하는 효율적인 수송 방법을 찾아내 개 사진의 세계와 인간 초상화의 세계 사이에 가장 자연스러운 ‘다리’를 놓게 된다.

일반적인 ‘모드 붕괴’ 현상 피하는데도 도움

엔트로피 최적 수송을 이용한 생성형 AI 모델은 기존의 생성 모델인 생성적 적대 신경망(GANs)이나 확산 모델(diffusion model)에 비해 굉장히 안정적이고 효율적으로 훈련할 수 있다. GAN은 훈련이 까다롭기로 유명하며, 종종 모델이 학습에 실패하거나 비상식적인 결과를 생성하는 문제로 어려움을 겪을 수 있다. 확산 모델은 복잡한 이미지를 생성하는 경우 백색 노이즈를 이미지가 완전히 무작위가 될 때 까지 오랜 시간동안 넣어주면서, 이 과정 전체를 거꾸로 돌릴 수 있는 강력한 인공 신경망을 훈련해야 하기 때문에, 훈련 과정에 드는 시간과 비용이 크다.

반면 최적 수송 기반 모델은 명확하게 정의된 최적화 문제에 기반을 두고 있어 훈련 과정이 더 원활하고 결과를 신뢰할 수 있다.

또한 최적 수송 프레임워크는 원본 데이터와 목표 데이터 간의 더 전체적이고 구조적인 매핑을 장려하기 때문에 종종 더 다양하고 높은 품질의 결과를 생성하는 데 뛰어나다. 이는 생성기가 제한된 종류의 결과물만 만들어내는 다른 모델들의 일반적인 문제인 ‘모드 붕괴(mode collapse)’ 현상을 피하는 데 도움이 된다.

이처럼 최적 수송은 오랜 역사를 가지고 있는 수리 물리적인 고전적인 문제로 학자들의 끊임없는 연구를 통해 발전돼 오늘날에는 최신 생성형 AI를 가능하게 하는 주요 수학적 도구로 사용되고 있다. 단순히 가장 효율적으로 흙을 옮기는 문제의 해결책으로 시작된 것이 생성 모델의 기본 도구가 되어, 안정적이고 고품질의 이미지 변환 및 기타 창의적인 AI 작업을 가능하게 하는 것이다.

몽주나 칸트로비치, 슈뢰딩거는 그들이 흥미롭게 생각한 추상적인 문제가 2025년이 되어 개에서 사람으로 변화시키는 생성형 모델의 기반이 될 것이라고 상상할 수 있었을까?

류한백 위스콘신대 교수, 수학과

데이터과학기초연구소