KAIST, GPU 의존 낮춘 LLM 서빙 기술 개발
카카오 AI 육성 프로젝트 대상… 다중 AI 가속기 통합 운용 소프트웨어 제시
챗GPT 등 대규모 언어모델(LLM) 서비스는 고가의 GPU 서버에 대한 의존도가 높아, 확장 과정에서 비용과 전력 부담이 커지는 한계를 안고 있다. 욱내 연구진은 GPU에만 의존하지 않고 다양한 AI 가속기를 통합해 LLM을 효율적으로 운영할 수 있는 기술을 개발했다.
KAIST는 전산학부 박종세 교수를 중심으로 한 애니브릿지(AnyBridge) AI 팀이 GPU에만 의존하지 않고 다양한 AI 가속기를 통합 활용해 LLM을 효율적으로 운영할 수 있는 인프라 소프트웨어를 개발해, 카카오가 주최한 ‘4대 과학기술원×카카오 AI 육성 프로젝트’에서 대상을 수상했다고 30일 밝혔다.
이번 프로젝트는 카카오와 KAIST·광주과학기술원(GIST)·대구경북과학기술원(DGIST)·울산과학기술원(UNIST)이 공동 추진한 산학협력 프로그램으로, AI 기반 예비 창업팀을 대상으로 기술력과 사업성을 종합 평가해 우수 팀을 선발했다. 대상 수상팀에는 2000만원의 상금과 최대 3500만원 규모의 카카오클라우드 크레딧이 지원된다.
애니브릿지 AI 팀은 현재 대부분의 LLM 서비스가 GPU 인프라에 집중돼 있어 서비스 규모가 확대될수록 운영 비용과 전력 소모가 급증하는 구조적 한계를 안고 있다는 점에 주목했다. 연구진은 문제의 원인이 특정 하드웨어 성능이 아니라 GPU뿐 아니라 신경망처리장치(NPU), 메모리내연산(PIM) 반도체 등 다양한 AI 가속기를 효율적으로 연계·운용할 수 있는 시스템 소프트웨어 계층의 부재에 있다고 분석했다.
이에 따라 가속기 종류와 관계없이 동일한 인터페이스와 실행 환경에서 LLM을 서비스할 수 있는 통합 소프트웨어 스택을 개발했다. GPU 중심으로 고착화된 기존 서빙 구조에서 벗어나, 여러 종류의 AI 가속기를 하나의 시스템에서 함께 활용할 수 있는 ‘다중 가속기 LLM 서빙 실행 소프트웨어’가 핵심이다.
이 기술을 적용하면 특정 벤더나 하드웨어에 종속되지 않고 작업 특성에 따라 적합한 AI 가속기를 선택·조합할 수 있어, LLM 서비스의 비용과 전력 소모를 줄이고 확장성을 높일 수 있다는 설명이다.
애니브릿지 AI 팀은 또 LLM 서빙 시스템 시뮬레이션 연구를 기반으로 실제 대규모 인프라를 구축하지 않고도 다양한 하드웨어·소프트웨어 설계 조합을 사전에 검증할 수 있는 연구 체계를 갖추고 있다. 이는 기술의 완성도와 산업적 실현 가능성을 동시에 보여줬다는 평가를 받았다.
박종세 KAIST 전산학부 교수는 “이번 수상은 GPU 중심 AI 인프라의 한계를 넘어 다양한 AI 가속기를 통합하는 시스템 소프트웨어의 필요성을 인정받은 결과”라며 “연구 성과를 산업 현장과 창업으로 확장할 수 있었다는 점에서 의미가 있다”고 말했다.
한편 애니브릿지 AI 팀은 향후 카카오를 비롯한 산업 파트너들과 협력해 기술 고도화와 실증을 진행하고, 차세대 LLM 서빙 인프라 핵심 기술로 발전시켜 나갈 계획이다.