문송천 칼럼

AI를 통한 인류 혁신, 어떻게 가능할까

2026-05-28 13:00:01 게재

인공지능(AI)은 우리의 일상과 산업 전반에 스며들어 오고 있다. 사회 여러 분야에서 혁신이라는 이름으로 AI는 인간의 수작업 영역을 자동화하고 있다. 어떤 이는 이를 산업혁명 이후 가장 거대한 문명사적 전환으로 평가한다. 아폴로 11호 달 착륙에 이은 제3의 창세기에 비견하는 이도 있다.

그러나 관심이 클수록 질문은 더 냉정해야 한다. AI는 과연 혁신의 본질인가, 아니면 기존 기술체계 위에 세워진 하나의 첨탑에 불과한가. 어디까지를 가능성 영역으로 봐야 합당할까. 컴퓨터기술의 본질을 들여다보면 이에 대한 답의 실마리가 보인다.

컴퓨터는 흔히 ‘양파구조’에 비유된다. 이는 다른 분야에서는 찾아보기 힘든 컴퓨터 분야만 갖는 고유한 특징이다. 맨밑에 하드웨어(HW)가 있다. 메모리반도체와 계산반도체 이 둘이 HW를 이룬다. 그 위에 소프트웨어(SW)인 운영체제(OS)가 자리한다. OS는 HW를 지휘 통제하는 육법전서다. 메모리반도체와 계산반도체 각각의 활용도를 최대화하기 위해 작업처리 병렬화에 능하며 OS 자신 상단에 위치할 각종 SW를 연결시키는 역할을 담당한다. 그래서 컴퓨터의 엔진으로 일컬어진다.

OS 위에 또 다른 SW인 데이터베이스(DB)가 존재한다. 그리고 또 그 위로 각종 응용 SW가 다층 구조로 얹혀지고 그 최상층 옥상에 AI가 얹혀진다. 즉 OS와 DB라는 기초엔진이 없으면 AI는 아무리 화려해 보여도 사상누각에 그치는 것이다. 따라서 OS와 DB라는 두 기초엔진 기술을 빼고 AI 중요성만을 외치는 일은 건축에서 지하층을 비워둔 채 고층 빌딩의 꼭대기부터 짓겠다는 공상에 지나지 않는다.

컴퓨터의 또 다른 두 엔진(OS와 DB 바로 상층)은 인터넷과 인터넷 기반의 클라우드다. 다시 말하면 OS DB 인터넷클라우드, 이 네 하부구조 중 어느 하나만 빠져도 AI는 돌아가질 못한다. 업데이트도 전혀 못하고 학습할 데이터도 검색할 길도 전혀 없으며 결과적으로 학습할 방법을 잃어버린다.

대량의 데이터 학습으로 AI 폭발적 성장

오늘날 생성형 AI가 전성기를 맞이하고 있으나 그 폭발적 성장은 GPU 성능이나 알고리즘의 진보만으로 설명되지 않는다. 무엇보다 대량의 데이터를 학습했기에 가능했던 일이다. 과거 무려 10년 간에 걸쳐 진행된 일이다. 게임에 비유하면 AI란 게임 구성원의 하나로서 5인6각 경기를 펼친 것으로 복합기술의 결정체다. AI 단독 드리블의 결과가 아니다.

GPT와 같은 대규모 언어모델은 세상의 텍스트를 방대하게 학습한 뒤 주어진 문맥에서 다음에 올 단어를 확률적으로 예측한다. 이는 본질적으로 끝말잇기의 고도화 버전이다. 그런데 이 끝말잇기는 인간이 가르쳐 준 것이 아니라 기계가 자발적으로 수많은 시행착오 과정을 거쳐 찾아낸 결과다.

이 중간계(‘반지의 제왕’ 영화 속에서처럼) 과정이 AI의 백미로서 인간(사용자)에게는 철저히 블랙박스다. 이 과정은 기계 단독으로 철저히 비밀리에 수행되는 관계로 인간은 세부내용을 전혀 예측할 수도 없다. 이렇듯 기계 스스로 정답을 찾아가는 과정 속에서 정답이라는 값과 기계 자신이 예측한 값 사이의 간극을 좁히도록 하는 수치가 계산되는데 이를 보정용 매개변수라고 부른다.

딥러닝은 다층(밑으로 깊숙이) 학습과정을 지칭하는 말로 인간의 뇌가 사물을 인식할 때 여러 층을 통과하듯이 중간계 영역에서 수백층을 은밀하게 통과하며 사물(혹은 문장)의 다음 패턴을 추출해내는 일련의 여정이다. 이런 블랙박스적 여정은 인간이 오차를 줄여 나가는 보정방법만 초기조건으로 주기만 하면 그 다음부터는 오차 보정 과정 자체를 기계 스스로 직접 설계하며 학습한다고 해서 머신러닝으로 불리는 것이다.

그런데 과정은 모두 확률 기반으로 이루어진다. 많은 불확실성을 내재할 수밖에 없는 이유다. 바로 여기가 ‘환각(hallucination)’이 등장하는 지점이다. 환각을 피할 수 없는 또 다른 이유가 있다.

데이터 품질이 AI의 인류사회 혁신 좌우

현재 디지털공간에 축적된 데이터의 상당부분은 부정확하거나 불필요하게 중복되어 있다. 데이터를 애초에 설계할 때 설계이론에 따라 적법하게 중복시킨 것, 즉 불가피 중복에 대해서는 시스템이 알아서 원본 데이터와 사본 데이터 간의 값이 항상 일치하도록 보장해주지만 부적법하게 일종의 불법으로 중복시킨 것에 대해서는 시스템은 아무 조치를 하지 않는다. 즉 중복 사본 중 어느 것을 검색하느냐에 따라 결과 값이 달라질 수 있는 것이다. 값의 정확성이 흔들리면 흔들린 만큼 AI 결과 역시 흔들릴 수밖에 없다.

AI전문가는 오로지 확률 통계에만 관심을 쏟으며 세상 데이터가 정확할 것이라는 전제 하에서 인류 미래를 예견하다보니 과대 포장하게 되는 것이다. AI시대가 아니라 착각의 시대다. AI의 작동기반 불가결 여건에 대한 이해와 사상누각적 한계, 더 나아가 데이터 품질 진단 및 격상 노력 없이는 AI를 통한 인류사회 혁신은 한낱 지나친 수사에 불과할 뿐이다.

카이스트 경영대학원

명예교수