신문로

이미지 생성 인공지능의 진화

2025-07-03 13:00:03 게재

생성형 인공지능(Generative AI)은 단순히 데이터를 분석하는 것을 넘어 새로운 이미지, 텍스트, 오디오 등을 만들어내는 능력으로 큰 주목을 받고 있고, 많은 사람들에게 거의 인공지능과 동의어로 여겨지고 있다.

이제 AI가 인간 수준의 텍스트나 이미지를 생성하는 것은 놀라운 일이 아니며 달리(DAll-E)나 미드저니(Midjourney)같이 주어진 텍스트를 딱맞는 이미지로 변환해주는 모델도 있고, 기존의 거대 언어모델들이 이런 이미지 생성 모델들과 결합되어 다양한 형태의 데이터를 오가면서 한꺼번에 생성해주는 멀티모달 (multi-modal)모델로 진화하고 있다. 이런 AI 모델들을 자동으로 다루는 AI에이전트도 활발하게 개발되고 있으니 가히 AI 기술의 기하급수적인 폭발이라 할만 하다.

이런 생성형 AI모델들의 기본 뼈대는 크게 언어 모델과 이미지 모델 나뉘는데, 전자는 트랜스포머(Transformer), 후자는 확산 모델(Diffusion model)을 사용해서 만들어진다.

초창기 생성형 AI 모델들은 주로 데이터의 구조에 크게 의존하지 않는 일반적인 목적을 가지고 개발되었고, 주로 벡터 형태로 표현된 데이터를 압축하고 복원하는 방식에 집중했다. 대표적인 예시가 생성적 적대 신경망(Generative Adversarial Networks, GAN)과 변이형 오토인코더(Variational Autoencoders, VAE)이다.

이미지 생성 분야 혁신 가져온 확산 모델

2014년 이안 굿펠로우(Ian Goodfellow)가 제안한 GAN은 생성자와 판별자라는 두 개의 신경망이 서로 경쟁하며 학습하는 구조다. 생성자는 실제와 유사한 가짜 데이터를 만들고 판별자는 이를 실제 데이터와 구별하려 하는데, 이 둘이 마치 위조지폐범과 경찰처럼 서로를 속이고 잡아내려는 과정에서 생성자는 점점 더 실제 같은 데이터를 만들게 되고, 판별자는 그 데이터를 정교하게 구별하는 능력을 키우게 된다.

반면 VAE는 데이터를 잠재 공간이라는 저차원 벡터로 인코딩한 후, 이 공간에서 데이터를 다시 디코딩하여 원본과 유사한 데이터를 생성한다. VAE는 GAN에 비해 생성 데이터의 다양성이 높고 학습이 안정적이지만, 이미지 생성에서의 품질은 다소 떨어지는 경우가 많다.

2022년 달리 2 와 미드저니를 통해 유명해진 이미지 생성 AI 분야에서 가장 큰 혁신을 가져온 것은 확산 모델이다. 확산 모델은 이미지에 점진적으로 노이즈를 추가해 완전히 무작위적인 형태로 만든 다음 이 노이즈가 추가된 상태에서 원래 이미지를 복원하는 과정을 인공신경망을 통해 학습한다.

이는 깨끗한 이미지에 노이즈를 뿌려 흐릿하게 만든 뒤 여기에서 다시 깨끗한 이미지를 찾아내는 과정과 유사하다. 학습이 완료되면 확산 모델은 무작위 노이즈에서 시작해 점진적으로 노이즈를 제거하며 실제와 같은 새로운 데이터를 생성할 수 있다. 이런 확산 모델이 트랜스포머 기반의 언어 모델과 결합된 형태가 달리2 와 미드저니와 같은 최신 텍스트-이미지 변환 모델들이다.

확산 모델의 뒤를 이어 현재 활발히 연구되고 있는 슈뢰딩거 브릿지 기반 모델들은 확산을 통한 일방통행이 아닌 주어진 시작점과 목표점을 가장 효과적으로 왕복할 수 있는 최적의 경로를 찾는 것에 기반한다. 이러한 경로를 슈뢰딩거 브릿지라고 부른다. 이를 생성 모델에 적용하면 데이터를 노이즈로 변환하고 다시 원본 데이터로 되돌리는 과정에서 최적의 경로를 찾아내어 더욱 효과적이고 안정적인 데이터 생성을 가능하게 한다. 이는 확산 모델의 강력한 성능을 유지하면서도 학습 및 추론 과정의 효율성을 개선하려는 차세대 접근방식이다.

이처럼 언어 모델은 주로 트랜스포머를, 이미지 생성 모델은 주로 확산 모델을 사용하는 것이 지배적이다. 언어는 단어들이 특정 순서로 배열되어 문맥과 의미를 형성하는 순차적인 데이터이므로 단어 간의 장거리 의존성을 효율적으로 학습하는 데 특화된 트랜스포머가 적합하다. 반면 이미지는 픽셀들이 2차원 또는 3차원 공간에 배열되어 시각적인 패턴과 구조를 이루는 공간적인 데이터이므로 노이즈 제거를 통해 미세한 디테일과 전체적인 일관성을 학습하는 확산 모델이 강점을 가진다.

물론 이미지를 ‘패치(patch)’나 ‘토큰(token)’으로 분해해 트랜스포머를 이미지 생성에 적용하거나, 이산적인 단어에 노이즈를 추가해 확산 모델을 언어 생성에 적용하려는 연구도 진행 중이지만 각 데이터의 특성상 계산 효율성이나 복잡도에서 기존 방법들에 비해 한계점이 명확하다.

전자의 경우 픽셀 간의 모든 공간적 관계를 순차적인 어텐션으로 처리하는 것은 계산 비용이 매우 높고 이미지의 미세한 질감을 포착하는 데 확산 모델만큼 효율적이지 않다. 또한 이미지의 픽셀 수는 언어의 단어 수보다 훨씬 많기 때문에 순차적인 접근방식은 확장성 문제가 발생한다.

반대로 후자의 경우 단어에 낀 노이즈를 제거하는 과정에서 단어를 '올바르게' 복원하는 것이 이미지 픽셀을 복원하는 것보다 훨씬 복잡하고 어렵다. '노이즈가 낀 단어'라는 개념 자체가 이미지 픽셀보다 모호하며, 단어 간의 문법적 의미론적 제약을 지키면서 역확산을 통해 문장을 생성하는 것은 쉽지 않은 일이다.

다음 언어 예측할 수 없는 모델이 나온다면?

2016년에 개봉한 드뉘 빌뇌브 감독의 영화 ‘컨택트’에서는 언어학자 루이즈와 과학자인 이안은 헵타포드의 외계인과 접촉해 그들의 독특한 언어를 배우는 과정이 나온다. 단어를 시간 순서대로 순차적으로 인식하는 우리의 언어와 달리 헵타포드의 외계인들은 과거 현재 미래를 전부 동등하게 인지하는 종족이었고, 그들의 문자는 시작도 끝도 없는 원형이다. 주인공은 이 언어를 배워 자신의 미래를 알 수 있게 된다.

한 가지 재미있는 상상으로 만약 헵타포드 인들이 생성형 언어 모델을 만들게 되면 어떤 형태일까? 다음 단어를 예측하는 것이 원형의 언어에서는 의미가 없기 때문에 기존의 선형 트랜스포머보다는 원형으로 어텐션이 작동하는 원형 트랜스포머를 사용할 수도 있고, 원형의 문자에 점진적으로 노이즈를 확산시켰다가 제거하는 확산 모델 기반일지도 모른다. 과거와 현재, 미래를 잇는 슈뢰딩거 브릿지를 쓸 수도 있다.

사실 헵타포드 인들은 미래를 자연스럽게 인지하기 때문에 노이즈에서 어떤 원형문자가 생성 되어도 그러려니 할 수도 있다.

류한백 위스콘신대 교수, 수학과 데이터과학기초연구소