LG, 그림 설명해주는 인공지능 키운다

2023-01-31 10:53:59 게재

전 세계 연구자 대상

AI 경진대회 개최

LG AI연구원은 전세계 인공지능(AI) 연구자 대상 'LG 글로벌 AI 챌린지'를 개최한다고 31일 밝혔다.
LG의 초거대 멀티모달 AI 엑사원이 생성한 이미지 설명. 사진 LG 제공


이번 행사는 내달 1일부터 4월말까지 온라인으로 진행하며 '제로샷 이미지 캡셔닝'을 주제로 'AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지 평가'하는 대회다. 제로샷 이미지 캡셔닝은 AI가 마치 사람의 시각·인지 능력처럼 처음 본 사물이나 동물 풍경 등이 포함돼 있는 그림을 봤을 때 기존 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 문장으로 설명할 수 있는 기술이다. 토끼를 한번도 본 적이 없는 사람이 토끼 여러마리와 고양이 한마리가 함께 있는 것을 봤을 때 동물들 생김새와 특성의 공통점과 차이점을 학습하고 '토끼도 털은 있지만 고양이와는 다르게 귀가 길고 뒷다리가 발달했다'라고 설명할 수 있는 것과 같다.

이 기술이 점차 고도화되면 이미지 인식 AI기술의 정확성과 공정성이 향상되고 결국 사람들의 실생활에 직접적으로 도움을 줄 수 있는 기술 개발로 이어질 수 있다.

예를 들어 하루에도 방대한 분량의 이미지 데이터들이 온라인상에 올라오고 있는데, AI가 자동으로 캡션과 키워드를 생성해 검색 편의성과 정확도를 향상시킬 수 있다. 또한 의학 전문 데이터를 추가 학습할 경우 의학 영상을 분석하는 '의학 전문가 AI'로 활약할 수 있다.

제로샷 이미지 캡셔닝은 인간의 학습 구조를 모방한 초거대 AI가 등장하며 기술연구가 활발해지고 있다. 최근 화두가 되고 있는 텍스트를 이미지로 변환하는 '생성형 AI 모델'의 성능은 물론 이미지 검색의 정확도를 높이는 데도 활용되고 있다.

LG는 이 기술이 이미지를 문자로 표현하고, 문자를 이미지로 시각화할 수 있는 초거대 멀티모달 AI인 '엑사원'(EXAONE) 기술개발 생태계에 크게 기여할 것으로 기대하고 있다.

LG AI연구원은 공동연구센터를 설립해 초거대 멀티모달 AI인 엑사원을 연구 중인 '서울대학교 AI대학원', 이미지 캡셔닝 AI의 상용화 서비스를 공동으로 준비 중인 '셔터스톡'과 함께 이번 대회를 진행한다. 특히 셔터스톡은 편향성과 선정성 등에 대한 AI 윤리 검증을 끝낸 고품질의 이미지-텍스트 데이터셋 2만6000개를 무료로 제공한다.

고성수 기자 ssgo@naeil.com
고성수 기자 기사 더보기