KAIST, 거대언어모델 ‘전문가 혼합’ 구조 보안 취약성 세계 첫 규명
전문가 혼합 구조 악용 시 유해 응답 최대 80%… 국제 보안학회 ACSAC 최우수논문
KAIST 연구진이 거대언어모델(LLM)에 널리 쓰이는 ‘전문가 혼합’ 구조가 새로운 보안 위협이 될 수 있음을 세계 최초로 규명했다.
KAIST(총장 이광형)는 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합(Mixture-of-Experts, MoE) 구조를 악용해 거대언어모델의 안전성을 심각하게 훼손할 수 있는 공격 기법을 규명하고, 해당 연구로 정보보안 분야 국제 학회인 ACSAC 2025에서 최우수논문상을 수상했다고 26일 밝혔다.
전문가 혼합 구조는 구글 Gemini 등 주요 상용 거대언어모델에 적용된 방식으로, 여러 개의 소형 인공지능(AI) 모델 가운데 상황에 맞는 일부만 선택해 사용함으로써 효율을 높인다. 연구팀은 이 구조가 오히려 보안 취약점으로 작동할 수 있음을 실험적으로 입증했다.
연구 결과, 공격자가 거대언어모델의 내부 구조에 직접 접근하지 않더라도 악의적으로 조작된 ‘전문가 모델’ 하나가 오픈소스로 유통될 경우, 이를 포함한 전체 모델이 위험한 응답을 생성하도록 유도될 수 있는 것으로 나타났다. 정상적인 전문가들 사이에 단 하나의 악성 전문가만 포함돼도 특정 상황에서 해당 전문가가 반복 선택되며 모델의 안전성이 무너질 수 있다는 설명이다.
이 과정에서 모델 성능 저하는 거의 나타나지 않아 사전 탐지가 어렵다는 점도 문제로 지적됐다. 실험에서는 연구팀이 제안한 공격 기법 적용 시 유해 응답 발생률이 기존 0%에서 최대 80%까지 증가했다.
이번 연구는 오픈소스 기반 거대언어모델 개발 환경에서 발생할 수 있는 새로운 보안 위협을 처음으로 제시했다는 점에서 의미가 크다. 연구팀은 향후 AI 모델 개발 과정에서 성능뿐 아니라 전문가 모델의 출처와 안전성 검증이 필수적이라고 강조했다.
신승원·손수엘 교수는 “효율성을 이유로 확산 중인 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 실증적으로 확인했다”며 “이번 수상은 인공지능 보안의 중요성을 국제적으로 인정받은 사례”라고 말했다.
이번 연구에는 KAIST 전기및전자공학부 김재한·송민규 박사과정, 나승호 박사(현 삼성전자), 신승원 교수, 손수엘 교수가 참여했다. 연구 결과는 2025년 12월 12일 미국 하와이에서 열린 ACSAC에서 발표됐다.
한편 이번 연구는 과학기술정보통신부와 한국인터넷진흥원, 정보통신기획평가원의 지원을 받아 수행됐다.