문장 입력하면 2초만에 그림이 '뚝딱'

2024-01-26 11:19:04 게재

ETRI 이미지 생성형AI

오픈AI '달리'보다 5배 빨라

국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장 입력 시 2초만에 이미지를 만드는 기술을 개발했다.
ETRI연구진이 문장 입력으로 이미지를 만드는 코알라(KOALA) 모델을 시연하고 있다. 사진 ETRI 제공


한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는데 기존 대비 5배 빠른 '코알라'(KOALA)3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 '코라바'(Ko-LLaVA) 2종 등 총 5종 모델을 일반에 공개한다고 26일 밝혔다.

코알라 모델은 공개SW 모델의 25억개 매개변수(파라미터)를 지식 증류 기법을 적용해 7억개로 획기적으로 줄였다.

파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다.

연구진은 모델 크기를 1/3로 축소했고, 고해상도 이미지를 기존 대비 2배, 오픈AI 달리(DALL-E)3 대비 5배가량 빠르게 개선했다.

ETRI는 "모델 생성 속도를 2초 내외로 만들고 모델의 크기도 대폭 줄였다"며 "8기가바이트(GB)의 저용량 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다"설명했다.

ETRI에 따르면 연구진이 "달 아래 화성에서 책을 읽고 있는 우주비행사의 사진"이라는 문장을 입력하자 코알라는 1.6초 만에 이미지를 뚝딱 만들어 냈다.

같은 문장을 다른 이미지생성AI에 입력할 경우 칼로(카카오브레인)는 3.8초, 달리2(오픈AI)는 12.3초, 달리3(오픈AI)는 13.7초가 걸렸다.

한편 연구진은 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관해 질의응답할 수 있는 대화형 시각언어모델인 '코라바'(Ko-LLaVA)모델도 함께 공개했다.

이용주 ETRI 시각지능연구실장은 "향후 다양한 시도를 통해 크기는 작지만 성능이 뛰어난 다양한 모델을 공개할 계획"이라며 "기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정"이라고 말했다.

고성수 기자 ssgo@naeil.com
고성수 기자 기사 더보기