AI산업 발전 이끌 데이터댐 완성

2021-06-18 11:09:31 게재

학습용 데이터 170종 구축

오늘부터 AI허브에 개방

인공지능(AI) 산업발전을 견인할 '데이터댐'이 완성됐다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 인공지능 학습용 데이터 170종을 AI허브를 통해 개방한다고 18일 밝혔다.

과기정통부는 2017년부터 기업이나 연구자 등이 시간이나 비용문제로 구축하기 어려운 인공지능 학습용 데이터를 구축·개방해왔다. 2017년부터 2019년까지 21종의 데이터를 구축·개방했다.


이번에 개방하는 데이터는 △한국어 방언 등 음성·자연어 39종 △암진단 영상 등 헬스케어 관련 32종 △도로주행영상 등 자율주행 관련 21종 등 8대분야 170종 4억8000만건이다. 지난해 디지털 뉴딜 데이터댐 사업으로 데이터 구축규모를 대폭 확대해 추가로 구축한 것이다. 과기정통부와 NIA는 데이터를 18일 60종을 시작으로 6월말까지 순차적으로 개방할 예정이다.

과기정통부 관계자는 "이번에 개방하는 학습용 데이터는 데이터 기획부터 구축까지 산업계, 전문가뿐만 아니라, 많은 국민들이 참여한 결과물"이라고 설명했다.

정부는 지난해 데이터댐 구축을 시작하며 산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 인공지능 학습용 데이터를 기획했다. 그간 국내 AI 기업들은 인공지능 개발에 필요한 데이터 확보를 위해 해외 공개데이터를 많이 활용해왔다. 그러나 언어 등 국내 실정을 반영하지 못해 국내 AI 서비스 개발에 활용되기 어려운 문제가 있었다.

정부와 업계는 이번 학습용 데이터 개방으로 그동안 국내 AI 산업계에서 가장 큰 걸림돌로 꼽은 문제인 '데이터 갈증'을 어느 정도 해소할 수 있을 것으로 전망한다.

대표적인 예가 한국어 방언 발화 데이터와 자율주행 데이터다, 오는 30일 공개 에정인 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 AI 서비스 문제점을 상당 부분 해결할 수 있을 것으로 예상된다.

18일부터 30일까지 순차적으로 공개될 자율주행 데이터는 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 제공한다. 이에 따라 자율주행차 개발을 한층 앞당길 것으로 기대된다.

데이터 구축에는 국내 주요 AI·데이터 전문기업은 물론 48개 대학, 25개 대형병원 등 총 674개 기업·기관이 함께했다. 특히 데이터 수집·가공 등 구축과정에는 경력단절여성, 취업준비청년 등 4만여명이 참여했다.

데이터 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 모았다.

정부는 지난해 9월부터 산·학·연 전문가 80여명이 참여하는 '품질자문위'를 운영해 전문적인 품질관리 지원체계를 구축했다. 또 대기업 스타트업 대학·연구기관 등이 참여해 구축된 데이터 활용성을 검증했다.

검토과정에서 한국어 방언 발화 데이터를 검증한 기업들은 △자연스러운 방언이 수집됨 △기존 서비스의 인식률이 12% 향상됨 등의 좋은 평가를 내놨다.

정부는 이용자와 함께 더 나은 데이터 제공을 위한 개선점을 찾기 위해 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다.

임혜숙 과기정통부 장관은 18일 오전 LG사이언스파크에서 열린 'AI 데이터 활용협의회' 출범식에서 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용되어 혁신의 열매를 맺을 수 있기를 기대한다"며 "정부는 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않을 것"이라고 말했다.

고성수 기자 ssgo@naeil.com
고성수 기자 기사 더보기