서강대, 다중 이미지 추론 성능 높인 LVLM 기법 제안
최준석 교수팀 ‘ICLR 2026’에 채택 … 구분 토큰 분석 기반 정보 누수 억제
서강대학교(총장 심종혁) 컴퓨터공학과 최준석 교수 연구팀이 다중 이미지 입력 환경에서 대규모 비전-언어 모델(LVLM)의 성능 저하 원인을 규명하고 이를 개선하는 기법을 제안해 인공지능 분야 국제 학술대회 ICLR 2026에 논문이 채택됐다.
20일 서강대에 따르면 이번 연구에는 이민영 박사과정, 박예지 석박통합과정, 황동준 박사과정, 김예진 석사과정이 참여했다. ICLR은 인공지능·머신러닝 분야 대표 학술대회로 4월 브라질 리우데자네이루에서 열린다.
이미지와 문장을 함께 이해하는 대규모 시각·언어 모델은 한 장의 이미지를 처리할 때는 높은 성능을 보이지만, 여러 이미지를 동시에 입력하면 서로 다른 이미지의 정보가 섞이는 문제가 발생한다. 이로 인해 모델이 잘못된 이미지를 근거로 답을 생성하는 등 추론 정확도가 낮아지는 한계가 있었다.
기존에는 이미지를 구분하기 위해 구분 토큰을 사용했지만, 연구팀 분석 결과 해당 토큰이 이미지 간 정보 흐름을 충분히 차단하지 못하는 것으로 나타났다. 서로 다른 이미지 특징이 내부 표현 공간에서 뒤섞이면서 오류가 발생하는 구조적 문제가 확인됐다.
연구팀은 구분 토큰의 내부 표현 크기를 조정해 같은 이미지 안의 정보 교환은 강화하고 서로 다른 이미지 간 불필요한 정보 교환은 억제하는 방법을 제안했다. 별도의 모델 구조 변경이나 추가 학습 없이 적용할 수 있어 계산 부담을 늘리지 않으면서 성능을 개선할 수 있는 점이 특징이다.
실험 결과 제안 기법은 다중 이미지 과제에서 정확도를 높이고 정보 혼합으로 인한 오류를 줄이는 효과를 보였다. 연구팀은 이를 통해 여러 이미지를 동시에 처리하는 인공지능의 신뢰성을 높일 수 있음을 확인했다.
이번 연구는 그동안 크게 주목받지 않았던 구분 토큰의 기능을 체계적으로 분석하고, 간단한 방법으로 성능을 개선할 수 있는 해법을 제시했다는 점에서 의미가 있다. 향후 다중 이미지 검색, 의료 영상 분석, 문서 이해 등 다양한 분야에 활용될 것으로 기대된다.