메모리 절약 ‘터보퀀트’ 화제
“사용량 6분의 1로 줄어”
“AI 사용 확대에 도움”
구글이 최근 선보인 인공지능(AI) 메모리 관리 기술 ‘터보퀀트’가 주목을 받고 있다.
기술 효과로 메모리 수요가 줄어들 것이라는 추측에 삼성전자 SK하이닉스 등 국내 메모리 반도체 기업 주가가 급락했다.
27일 업계에 따르면 구글은 지난 24일(현지시간) 구글리서치 블로그에 터보퀀트 논문을 공개했다. 터보퀀트는 거대언어모델(LLM)의 추론 과정에서 발생하는 메모리 병목 현상을 해결해 AI 효율성을 극대화하는 기술이다.
AI모델 발전은 서비스 질 향상을 가져왔지만 그에 따른 저장공간(메모리) 수요도 기하급수적으로 커지고 있다. 병목현상까지 발생하고 있는 상황이다.
AI는 사용자에게 정보를 제공하는 과정에서 두가지 측면에서 메모리를 사용한다. 기본적인 것은 AI 모델(LLM)을 운용하기 위한 저장공간이다. 이 공간은 AI 모델 크기에 따라 필요한 저장공간 크기도 다르다. AI서비스 제공기업들은 저장공간을 효율적으로 사용하기 위해 서비스 종류에 따라 모델 크기를 달리한다.
두 번째는 AI모델이 사용자의 요청에 응답하기 위한 과정에 필요한 저장공간이다. AI는 사용자에게 맥락에 맞는 답을 내놓기 위해 앞에서 진행한 대화를 기억하는 것이 필요하다. 이 대화 내용을 저장하는 공간이 키밸류캐시(KV CACHE)다. KV캐시는 AI와 사용자의 대화가 길어질수록 급속하게 크기가 커진다. AI모델 보다 몇배 커지는 경우도 생긴다.
구글 터보퀀트는 이와 같은 KV캐시 데이터를 압축을 통해 줄이는 기술이다. 아직 논문이 나온 수준이지만 그 효과가 획기적이라 화제가 된 것이다.
구글은 터보퀀트 기술이 KV캐시 메모리 사용량을 정확도 손실 없이 최소 6배 절감할 수 있다고 했다. 또 이를 통해 엔비디아 H100 그래픽처리장치(GPU) 성능을 최대 8배까지 높일 수 있다고 발표했다.
숀 김 모건스탠리 분석가는 불룸버그 인터뷰에서 “모델이 성능 저하 없이 메모리 요구량을 낮춰 실행할 수 있다면 비용이 크게 감소해 AI 도입의 수익성이 높아질 것”이라며 “비용이 낮아지면 제품 채택 수요도 증가해 장기적으로 메모리 제조사에도 이익이 될 것”이라고 내다봤다.
고성수 기자 ssgo@naeil.com