신문로

멀티모달 AI는 지금 당신을 듣고 보고 느끼고 있다

2025-06-13 13:00:04 게재

챗GPT에게서 만족스러운 답을 얻기 위해서는 반복적인 질문과 인내를 필요로 한다. AI는 이미 학습된 결과만 단편적으로 도출해내다 보니 단순한 질문의 의미를 다각도로 해석하는 것이 어려웠기 때문이다. 그러나 얼마전 부터 질문자의 감정과 분위기까지 읽어낼 수 있는 ‘멀티모달 AI’ 시대에 돌입했다.

언제부턴가 ‘모달(Modal)’이라는 단어가 등장했지만 영어사전을 검색해도 나오지 않거니와 시원한 설명도 없다. 굳이 번역하자면 ‘가장 빈번히 사용하는’의 뜻으로 영어 ‘모드(mode)’에서 파생된 ‘모달리티(modality)’에서 비롯됐다. 30여년 전 개발했던 음성인식 프로그램에서 ‘호텔예약을 하려합니다’라는 문장 대신에 ‘호텔예약’이라 말하면 ‘유니모달’, 음성과 번호키를 눌러 두 가지 이상의 입력을 받게 하면 ‘멀티모달’이라고 했던 것을 기억해냈다.

이처럼 모달이란 말은 이미 오래전부터 사용되어왔다. 따라서 요즘 AI에 따라붙는 ‘멀티모달’은 시각 청각을 비롯한 여러 방법을 통해서 정보를 주고받는 것을 뜻하고 이렇게 다양한 입력을 동시에 받아들여 학습하고 사고하는 AI를 ‘멀티모달 AI’라고 한다.

인간과 기계 사이 ‘소통 언어’ 재정의한 사건

왜 멀티모달이 필요할까? 옛날 장님들이 코끼리를 처음 만났다. 한 사람은 다리를 만지고 “기둥 같다”, 다른 이는 귀를 만지며 “부채 같다”고 했다. 각자 진지했지만 누구도 코끼리의 전체 모습을 알지 못했다. 이처럼 단편적 정보만으로는 진실에 다가설 수 없다.

따라서 AI가 텍스트 영상 소리 등 여러 감각 정보를 통합해 멀티모달식 접근을 하는 것은 이 같은 고전적 오류를 넘어서려는 시도다. AI는 이미 영상 음성, 심지어 문장의 문맥적 감정까지 포괄하는 수준에 이르렀다. 단어만 이해하는 기계가 아니라 세상을 ‘감각’하는 존재로 진화한 것이다. AI는 지금 당신을 듣고 보고 느끼고 있다.

이는 단지 AI의 성능이 향상된 것 이상의 의미를 지닌다. 인간의 모든 인식은 다중감각적인 멀티모달이다. 갓난아기가 엄마의 얼굴을 보고 목소리를 듣고 따뜻한 피부를 느끼며 세상을 인식하듯 AI도 이렇게 따라하고 있다. 이처럼 멀티모달 AI는 인간처럼 세상을 경험하려는 시도를 멈추지 않는다.

따라서 멀티모달 개념 추가는 단순한 고도화가 아니라 인간과 기계 사이의 ‘소통 언어’를 재정의한 사건이다. AI가 그림을 보고 해석하고 그 안에 담긴 감정과 의도를 추론하며 그에 걸맞은 대답을 건넨다. 영화에서 인물의 감정을 분석하고 나레이션의 의도와 장면 전환의 리듬을 읽어낸다. 그 반응은 점점 ‘기계의 답변’이 아닌 ‘또 다른 인간’처럼 다가온다.

이제 생성형 AI를 통해 이미지 캡션, 동영상 해석, 음악 추천, 감정 요약까지 가능하다. 예컨대 AI는 병원에서 X-ray 영상을 기반으로 의사 진단을 보조하고, 변호사가 십 수일 걸리는 법리해석과 판례검색을 수초만에 해내고, 방송에서는 장면 분석을 기반으로 자막과 시각효과를 자동 추천해준다. 유튜버는 AI에게 자신의 영상을 요약하게 하거나 대본작성 도움도 받을 수 있다. 불과 얼마 전까지 ‘가까운 미래’로만 여겨졌던 풍경이다.

그러나 이 놀라운 진화에는 중요한 질문이 뒤따른다. 우리는 AI에게 무엇을 보여주고 무엇을 들려줄 것인가? AI가 우리의 언어뿐만 아니라 행동을 해석하게 되면 우리의 일상은 본질적으로 ‘데이터화된 감각’으로 변환된다. 인간의 기억은 단지 추억으로 남지만 AI의 기억은 디지털 로그로 영원히 보존되기 때문이다.

이 차이에서 발생할 철학적 사회적 문제는 결코 작지 않다. 이제는 인간과 AI가 서로를 ‘훈련시키는’ 시대가 되었기 때문에 AI가 인간을 닮아갈수록 인간은 더 깊이 자신을 돌아봐야 한다.

기술은 진화했지만 질문은 여전히 인간의 몫

인간은 AI에게 세상을 가르치고 AI는 인간에게 사고의 경계를 되돌려준다. 기술의 본질은 항상 그것을 활용하는 존재에 달려 있다. 지금 우리에게 필요한 것은 AI를 맹신하거나 두려워하는 태도가 아니라 그것을 어디에 어떻게 사용할 것인가에 대한 깊은 성찰과 책임이다.

인간의 감각이 데이터가 되고 AI가 그것을 감지하고 재해석하는 시대, 우리는 그 어떤 역사적 전환점보다도 근본적인 질문에 직면해 있다. 기술은 진화했지만 질문은 여전히 인간의 몫이기 때문이다.

윤경용 페루 산마틴대 석좌교수