서강대, 대규모언어모델 추론가속 논문 채택

2026-03-22 10:38:54 게재

ASPLOS 2026 최고학회 발표

정확도 유지하며 속도 2배 개선

서강대학교는 인공지능학과 송근수 석사과정생과 이영민 교수 연구팀의 논문이 시스템 소프트웨어 및 아키텍처 분야 국제 학술대회 ‘ASPLOS 2026’에 채택됐다고 20일 밝혔다.

ASPLOS는 한국정보과학회가 인정하는 최우수학술대회로, 3월 22일부터 26일까지 미국 피츠버그에서 개최된다.

이번 연구는 대규모언어모델(LLM) 추론 속도를 높이는 기술을 제안했다.

연구팀은 이상치가 특정 위치에 집중되는 특성을 활용해 FFN(피드포워드 네트워크) 계층 가중치를 재배열하는 방식의 추론 가속 기법(oFFN)을 개발했다. 출력 뉴런 활성화 빈도와 이상치 발생 빈도를 함께 고려해 구조적으로 재배열함으로써 활성 희소도를 효율적으로 활용할 수 있도록 했다.

그 결과 정확도 저하 없이 FFN 기준 최대 5.46배, 전체 추론 시간 기준 최대 2.01배의 속도 향상을 달성했다. 기존 최고 수준 대비 약 13%의 추가 성능 개선도 확인됐다.

연구팀은 기존 방식이 희소도 예측의 어려움과 배치 크기 증가에 따른 성능 저하 한계를 지닌 점을 지적하고, 이상치 차원과 뉴런을 군집화하는 방식으로 이를 개선했다.

이영민 교수는 “활성 희소도를 활용한 LLM 추론 가속의 한계를 극복한 연구”라며 “다양한 환경에서 실제 성능 향상을 구현했다는 점에서 의미가 있다”고 밝혔다.

장세풍 기자 spjang@naeil.com
장세풍 기자 기사 더보기