오피니언 금요진단

금요진단

AI 투자 진짜 승부는 메모리에 있다

2026-04-17 13:00:03 게재

한국의 개인들이 주식투자를 하는 전략은 거의 대부분 다음의 세 가지를 조합하는 방식이라고 한다. ‘투자 보유 기간과 판단 근거 자료’라는 관점에서 보자면 ‘차트·단타·수급형’이고, ‘시장과의 관계 및 포트폴리오의 구조’라는 관점에서 보자면 ‘미국 대형 기술주·우량 성장주 직접보유형’ 인데 특히 ‘테마·섹터 추종형’으로서 한국 개인은 ‘기업 한 곳’만이 아니라 AI, 반도체, 바이오, 2차 전지, 정책 수혜, 자원개발 같은 이야기 축에도 강하게 반응한다고 한다.

다른 나라에서는 어느 정도 관련 분야에 종사하거나 전문가들이나 알만한 AI, 반도체, 바이오, 2차 전지, 자원개발과 관련된 지식들이 전국민의 기본 교양 지식이 되어 버린 느낌이다. 구글이 최근 발표한 ‘터보 퀀트’라는 압축 기술에 대해서 전 언론은 물론이고 거의 일반 국민들조차도 깊은 관심을 가지고 기사를 분석하며 이를 반도체 주가와 연동지어서 공부하고 토론한 경우는 아마 한국이 유일할 것이다.

AI 본질은 시스템 경쟁

이제는 대부분의 사람들이 AI와 LLM을 거의 동일시 한다. 이는 마치 웹브라우저를 인터넷과 동일시 하던 90년대의 모습과도 비슷하지만 이미 대중들이 이런 방식으로 이해를 하고 있으니 AI 전공자들 마저도 이제는 이를 받아들여야 하는 상황이 되어 가고 있다. 거대 규모의 LLM 상용 서비스로는 그 유명한 챗GPT, 제미나이, 클로드 등이 있는데, 이들 이름은 서비스 이름이기도 하지만 사실은 LLM의 모델(인공신경망의 구조) 이름이기도 하다.

그런데 이들 LLM 모델을 이용해서 실제로 AI 서비스를 하고자 한다면 반드시 필요한 것이 바로 추론 엔진(Inference Engine)이다. 실제로 LLM 서비스가 가동되고 어떤 사용자가 그 서비스를 실제로 사용하게 되면 즉 LLM과 대화를 나누게 되면 LLM 모델 내부에서 그 사용자에 특화된 정보들이 생성되어서 쌓이게 된다. 이렇게 LLM 모델 내부에 해당 사용자에 특화된 정보들이 쌓여있는 덕분에 LLM은 그 사용자와의 과거 대화를 기억하며 대화 맥락을 이해하고 이어나갈 수 있는 것이다.

한편 LLM이 특정 개인과 대화를 나누어 갈 때마다 그 모든 내용은 LLM 모델 내부에서 KV(Key-Value) 캐시(Cache)라는 데이터 형식으로 생성되며, 이렇게 생성된 KV 캐쉬가 다시 해당 LLM 모델에 입력되어야만 그 LLM 모델은 대화의 맥락을 잃어버리지 않고 사용자와 대화를 이어갈 수 있는 것이다.

결국 추론 엔진이 여러 사용자들 각자의 KV 캐쉬들을 저장하고 관리하면서 각 사용자들과의 대화가 진행될 때마다 그 사용자에 해당되는 KV 캐쉬를 LLM 모델에 다시 입력해 주고 그 과정에서 다시 추가되는 KV 캐쉬를 받아서 누적 관리해 주는 식으로 서비스가 구동되는 것이다. 그러다 보니 실제 서비스 상황에서는 KV 캐쉬를 제대로 관리해 주는 것이 사용자들이 체감하는 서비스의 수준을 가늠하는 핵심이 되어 버렸다.

KV 캐쉬 관리가 서비스 수준의 핵심으로

실제 하드웨어 시스템에서 KV 캐쉬가 위치하는 장소가 바로 GPU의 메모리이다. 흔히 말하는 HBM이다. 그런데 현실에서의 GPU와 이에 내장된 HBM은 매우 비싼 자원이다.

그래서 대두되는 문제가 바로 어떻게 하면 KV 캐쉬의 크기를 줄일 것인가와 현재 자주 사용되는 KV 캐쉬는 HBM쪽에 위치시키면서 자주 사용되지 않는 KV 캐쉬는 CPU 관할의 DRAM이나 로컬저장소인 SSD, 또는 최근 언급되고 있는 PCIe 슬롯에 연결 가능한 CXL 메모리로 옮겨서 보관했다가 필요할 때 다시 HBM으로 유연하게 이동시킬 것인가 등의 기능이 매우 중요한 주제가 되어 버렸다.

획기적인 구글의 ‘터보퀀트’기술 발표

이 중에서 KV 캐쉬 압축 방식을 획기적으로 개선(용량을 최대 1/6로 축소, 속력을 최대 8배로 향상)한 기술이 구글이 발표한 ‘터보퀀트’다. 한편 KV 캐쉬의 페이징(Hot/Cold 여부에 따라서 여러 저장소 사이를 건너 다니는 방식)과 관련되어 엔비디아가 최근 발표한 획기적 기술이 KVTC이다. 그럼 이제 서비스 질의 핵심 중 하나라고 할 수 있는 KV 캐시를 압축하는 영역과 페이징 하는 영역에서 큰 기술적인 진보를 이루었으니 하드웨어 메모리의 수요량이 줄어들 것인가. 필자는 전혀 그렇지 않다고 생각한다. 최근 AI 서비스의 핵심 방향이 이제는 LLM과의 대화를 넘어서 실제로 사용자가 원하는 일을 자동으로 수행해주는 Agent로 바뀌었다.

흔히 말하는 Physical AI도 그 본질은 바로 Agent이다. 상용 서비스 가운데 ‘클로드 코워크’, 공개 소스 프로젝트 가운데 ‘오픈 클로’가 바로 현 시점에서 가장 유명한 AI Agent 서비스이다.

그런데 이들 Agent들이 일하는 방식은 첫 번째 Agent가 사용자가 원하는 일을 받아서 이를 WBS(Work Breakdown Structure)에 따라서 잘게 나눈 다음 이렇게 나누어진 각각의 일들을 다시 자식 Agent들에게 넘겨버리고, 이를 받은 자식 Agent들도 또 다시 WBS로 일들을 나눈 다음 다시 자신들의 자식 Agent들에RP 넘겨버리는 행위를 반복한다. 그다음, 더 이상 잘게 나누기 힘든일을 마무리한 마지막 단계의 자식 Agent가 자신을 호출한 부모 Agent에게 그 결과를 보내고, 이렇게 자식 Agent들이 되돌려준 일들이 모두 다시 모이게 되면 해당 부모 Agent는 그 결과를 취합해서 그 자신을 호출한 자신의 부모 Agent에게 보내는 식으로 진행하게 된다.

그러다 보니 사용자의 눈에는 그 저 자신의 일을 받아간 하나의 Agent만 보일 뿐이지만 실제로 시스템 내에서는 사용자가 지시한 일 하나를 처리하기 위해서 여러 개를 넘어서 수십, 수백, 심지어 수천개의 Agent들이 작업을 진행할 수도 있다.

일 쪼개는 Agent의 구조

그런데 앞에서 언급한 대로 이들 Agent들이 일을 제대로 처리하기 위해서는 부모 Agent들로부터 KV 캐쉬를 넘겨 받아야만 한다. 그러다 보니 AI Agent가 제대로 동작하기 위해서는 필요한 메모리 특히 HBM의 용량이 지금의 대화형 채팅 서비스와는 달리 최소 수배에서 몇 십배 내지 몇 백배로 커질 수도 있다. 즉 AI 서비스가 발전할수록 필요한 메모리의 용량은 KV 캐쉬 압축기술로 줄일 수 있는 크기보다 몇 갑절 내지 몇십 갑절로 커지게 될 것이다.

이미 삼성전자, 하이닉스, 마이크론의 주가 회복을 통해서도 알 수 있듯이 ‘터보퀀트’ 기술 발표로 메모리 수요가 줄어들까하는 염려는 기술과 인류사에 대한 지식 부족과 내돈을 날리면 어떡하지 하는 지나친 염려가 낳은 일종의 해프닝으로 보인다. 그리고 중요한 기술적인 포인트 하나를 지적하자면 현재의 AI Agent들이 부모와 자식들 사이에 KV 캐시를 공유하지 못하고 있는데, 이를 모두 통합해서 공유할 수 있도록 하는 것이 메모리 용량의 대폭적인 축소와 서비스 속력 향상의 키가 될 것이다.

HBM 등 메모리 수요는 더 커진다

이런 방식의 Agent간 공유 메모리 기술이 개발되면 메모리 수요가 줄어들까하는 걱정은 하지 않아도 될 듯하다. AI Agent 서비스의 질이 좋아지면 그 수요는 폭발적으로 증가할 것이고 이는 또 다시 엄청난 메모리 수요로 이어질 게 분명해 보이기 때문이다. 끝으로 매우 중요한 사실 한 가지가 있는데, 현재 LLM 서비스의 핵심 경쟁장이 되고 있는 추론 엔진과 KV 캐쉬를 다루는 이 영역은 수십년 전부터 운영체제(OS) 이론에서 이미 다 다루어졌고 그 역사적 해결책들을 열심히 추론 엔진 분야로 이전시키고 있다는 것이다. 지금 LLM 서비스 경쟁의 핵심은 AI 전공자들의 모델 경쟁이 아니라 운영체제나 하드웨어와 같은 시스템의 가장 하단부를 책임지는 엔지니어들의 경쟁으로 옮겨갔다.