서강대, ICLR 2026 채택 … 경량 멀티모달 AI 기술 제시

2026-02-17 06:09:09 게재

지시어 기반 이미지 분할 성능 향상

파라미터 2%로 최고 성능 달성

서강대는 전자공학과 강석주 교수 연구팀 논문이 인공지능 분야 국제 학술대회 ICLR 2026에 채택됐다고 13일 밝혔다. ICLR은 인공지능 분야 최상위 학회 가운데 하나로 올해 채택률은 약 28%다. 학회는 4월 브라질 리우데자네이루에서 열린다.

논문은 텍스트 설명을 기반으로 이미지 속 특정 객체를 픽셀 단위로 찾아내는 지시어 기반 이미지 분할 기술을 제안했다. 복잡한 배경이나 가려진 대상, 모호한 텍스트 조건에서도 정확한 분할이 가능하도록 설계했다.

연구팀은 기존 파라미터 효율 튜닝 방식이 시각 정보와 언어 정보를 결합하는 중간 단계 구조를 충분히 반영하지 못해 성능 병목이 발생한다는 점에 주목했다. 이를 개선하기 위해 정보 융합 구조와 경량 튜닝 전략을 결합한 프레임워크를 개발했다.

이미지를 겹치지 않는 윈도우 단위로 분할해 처리하는 구조를 적용해 긴 시퀀스 처리 과정에서 발생하는 정보 손실 문제를 줄였다. 텍스트 정보를 강화하는 어댑터와 다중 스케일 정렬 모듈을 추가해 시각·언어 정합도를 높였다.

그 결과 전체 모델 파라미터의 약 1~2%만 업데이트하면서도 RefCOCO·RefCOCO+·G-Ref 등 주요 데이터셋에서 기존 최고 성능을 넘어섰다.

연구팀은 기술이 자율주행·로봇 상호작용·지능형 이미지 편집 등 다양한 산업 분야의 기반 기술로 활용될 수 있다고 설명했다.

강 교수는 “경량화 튜닝과 정보 융합 구조의 중요성을 확인한 연구”라며 “멀티모달 AI 효율성을 높이는 데 기여할 것”이라고 말했다.

이번 연구는 과학기술정보통신부와 정보통신기획평가원·한국연구재단 등의 지원을 받아 수행됐다.

장세풍 기자 spjang@naeil.com
장세풍 기자 기사 더보기