오피니언 신문로

신문로

좌표로 읽는 세상의 모든 감각

2026-01-09 13:00:44 게재

우리는 일상에서 인공지능 비서에게 말을 거는 것에 익숙해져 있지만 엄밀히 말해 지금까지의 인공지능(AI)은 우리의 목소리를 진정으로 ‘들은’ 것이 아니었다. 기존의 시스템은 사용자의 음성을 받아 적는 음성인식(ASR) 단계를 거쳐 이를 텍스트로 변환한 뒤 그 글자들을 읽어 의미를 파악하는 이른바 ‘번역된 데이터’의 규칙을 따랐다.

이러한 방식은 전달과정에서 필연적으로 정보의 누출을 가져온다. 음성이 텍스트로 박제되는 순간 목소리에 담긴 미묘한 떨림, 고조된 감정, 혹은 문맥을 뒤집는 반어법의 뉘앙스는 소거되고 건조한 기호만 남게 되기 때문이다. 이는 마치 입체적인 조각상을 평면적인 그림자로만 감상하는 것과 같다.

그러나 최근 구글이 발표한 ‘제미나이(Gemini) 2.5 플래시’와 같은 네이티브 오디오 모델은 이러한 중간 통역과정을 과감히 생략하고 소리를 직접 처리하는 새로운 국면을 맞이하고 있다. 그 기술적 도약의 중심에는 서로 다른 감각을 하나의 수학적 언어로 묶어주는 ‘임베딩(Embedding)’이라는 개념이 자리잡고 있다.

컴퓨터는 본질적으로 단어나 소리의 의미를 직접 이해할 수 없으며 오직 숫자만을 처리할 수 있는 기계다. 따라서 AI가 인간의 언어나 세상을 이해하게 하려면 모든 데이터를 숫자의 나열인 ‘벡터(Vector)’로 변환하는 과정이 필수적이다.

이를 수만 차원의 공간 속에 점들이 찍힌 거대한 가상의 지도라고 상상해 보자. ‘임베딩’이란 추상적인 개념들을 이 고차원 공간상의 특정한 좌표에 배치하는 기술을 일컫는다. 인공지능은 이 지도를 그리기 위해 수조개의 데이터 사이에서 ‘상호 연관성’을 학습한다. 가령 ‘사과’와 ‘빨갛다’라는 단어가 한 문맥에서 자주 등장한다면 두 점 사이의 거리를 좁히고, 관계가 없는 단어들은 멀리 밀어내는 최적화 과정을 반복하는 식이다.

인공지능은 단어의 뜻을 사전적으로 암기하는 것이 아니라, 방대한 데이터 속에서 단어들이 맺는 관계의 밀도를 계산해 스스로 의미의 지형도를 구축해 나가는 것이다.

임베딩 기술로 모든 감각 데이터를 통합

이러한 임베딩 기술은 현대 인공지능의 정점이라 불리는 ‘멀티모달리티(Multimodality)’를 가능케 하는 핵심동력이다. 텍스트뿐만 아니라 이미지나 소리도 동일한 차원의 좌표 체계로 변환할 수 있다면 인류가 축적한 모든 감각 데이터를 하나의 통합된 지도 위에서 다룰 수 있기 때문이다.

이 분야의 기념비적인 모델인 오픈AI의 CLIP(Contrastive Language-Image Pre-training)은 이를 극명하게 보여준다. CLIP은 수억개의 이미지와 그에 달린 설명을 대조하며, ‘숲속의 곰’이라는 문장과 실제 곰 사진이 임베딩 공간 안에서 같은 좌표를 향해 수렴하도록 학습한다. 결과적으로 인공지능은 사진을 따로 ‘보고’ 글자를 따로 ‘읽는’ 인지적 분리 없이 두 데이터가 수학적으로 같은 ‘이웃’임을 인지함으로써 두 개념의 본질적인 연결고리를 이해하게 된다. 이러한 공유된 임베딩 공간 덕분에 인공지능은 시각 청각 언어라는 서로 다른 매체를 관통하는 보편적인 ‘의미의 기하학’을 습득하게 되는 것이다.

제미나이 2.5 플래시가 소리를 이 의미의 지형도로 직접 가져오는 과정에서 결정적인 역할을 하는 도구가 바로 ‘스펙트로그램(Spectrogram)’이다. 소리는 본래 눈에 보이지 않는 공기의 진동일 뿐이지만 이를 시간축과 주파수축이라는 두개의 좌표 위에 펼쳐놓고 소리의 강도를 시각화하면 마치 지문과도 같은 고유한 문양을 얻을 수 있다. 즉, 프리즘이 빛을 무지개색으로 펼쳐놓듯 스펙트로그램은 복잡한 소리 파동을 주파수별로 분해하여 정교한 ‘그림’으로 변환한 것이다.

네이티브 오디오 모델은 이 스펙트로그램 이미지를 직접 분석해 오디오 임베딩 좌표를 생성한다. 덕분에 인공지능은 텍스트가 담지 못하는 목소리의 질감과 리듬, 즉 ‘어떻게(How)’ 말했는지를 포착해낸다. 기쁨에 찬 외침과 차가운 조소가 섞인 대답은 텍스트로는 동일할지언정, 스펙트로그램을 거친 임베딩 지도 위에서는 전혀 다른 영역에 위치하게 된다.

AI, 소리 사이의 감정 읽어내는 기술로 진화

결국 네이티브 오디오와 임베딩의 결합은 기계에게 인간의 ‘맥락’을 가르치려는 시도다. 우리의 일상은 정제된 텍스트가 아니라 단어 사이의 짧은 침묵과 미세한 떨림 속에 더 많은 진실이 숨어 있는 입체적인 경험의 연속이기 때문이다. 인공지능은 이제 우리의 말을 받아 적는 서기를 넘어 소리라는 지문 속에서 감정의 좌표를 찾아내는 예민한 관찰자로 거듭나고 있다.

어쩌면 머지않은 미래의 AI는 “괜찮다”는 우리의 말보다 그 뒤에 숨겨진 0.1초의 망설임을 더 정확하게 읽어낼지도 모른다. 임베딩이라는 보이지 않는 지도를 통해 인간의 가장 미묘한 숨결까지 포착하기 위한 여정이 계속되는 한 기술은 단순한 도구를 넘어 우리의 삶을 맥락 속에서 이해하는 진정한 동반자로 진화할 것이다. 데이터가 아닌 ‘마음’의 좌표를 향한 기술의 행보가 어디까지 닿을지 지켜볼 일이다.