“내 PC·모바일도 인공지능 인프라로”
KAIST 한동수 교수팀 ‘저렴한 AI’ 기술 개발
소비자급 GPU 활용해 LLM 비용 67.6% 낮춰
국내 연구진이 고가의 데이터센터 그래픽처리장치(GPU) 사용을 줄이고, 주변에 분산된 저렴한 그래픽처리장치(GPU)를 활용해 인공지능(AI) 서비스 운영 비용을 낮출 수 있는 기술을 개발했다. 대규모 언어모델(LLM) 기반 인공지능 서비스가 데이터센터 고가형 GPU에 과도하게 의존해 온 구조적 한계를 개선할 수 있을지 주목된다.
KAIST(총장 이광형)는 전기및전자공학부 한동수 교수 연구팀이 데이터센터 외부에 널리 보급된 소비자급 GPU를 활용해 대규모 언어모델 추론 인프라 비용을 절감하는 기술인 ‘스펙엣지(SpecEdge)’를 개발했다고 28일 밝혔다.
스펙엣지는 데이터센터 GPU와 개인용 컴퓨터나 소형 서버에 탑재된 엣지 GPU가 역할을 분담해 대규모 언어모델 추론을 수행하는 구조다. 연구팀에 따르면 이 방식을 적용할 경우 데이터센터 GPU만 사용하는 기존 방식과 비교해 토큰(언어모델이 문장을 생성하는 최소 단위)당 비용을 약 67.6% 줄일 수 있는 것으로 나타났다.
연구팀은 이를 위해 ‘추측적 디코딩(speculative decoding)’ 기법을 활용했다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스(단어 또는 단어 일부가 순서대로 이어진 형태)를 먼저 생성하면, 데이터센터의 대규모 언어모델이 이를 일괄 검증하는 방식이다. 엣지 GPU가 서버 응답을 기다리지 않고 연속적으로 토큰을 생성함으로써 추론 속도와 인프라 효율을 동시에 높였다는 설명이다.
실험 결과, 데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다. 연구팀은 일반적인 인터넷 환경에서도 안정적으로 작동해, 별도의 특수 네트워크 없이 실제 서비스에 적용할 수 있음을 확인했다고 밝혔다.
또 서버가 여러 엣지 GPU의 검증 요청을 효율적으로 처리하도록 설계돼 GPU 유휴 시간을 줄이고 동시 처리량을 높일 수 있는 구조도 구현했다. 이를 통해 데이터센터 자원 활용도를 높이는 대규모 언어모델 서빙 인프라를 제시했다.
이번 연구에는 KAIST 박진우 박사와 조승근 석사과정이 함께 참여했다. 연구 결과는 이달 2~7일 미국 샌디에이고에서 열린 인공지능 분야 최고 권위 국제 학회인 신경정보처리시스템 학회에서 상위 3.2%의 ‘스포트라이트’ 논문으로 발표됐다.
장세풍 기자 spjang@naeil.com