“AI 데이터 분쟁, 출처 검증 체계 구축해야”
오픈소스 법적 리스크 대비 세미나
“데이터 수집단계부터 관리는 필수”
생성형 인공지능(AI) 학습데이터를 둘러싼 저작권·라이선스 분쟁이 확산하는 가운데 데이터 출처 검증과 관리 체계 구축 등 대응이 중요하다는 전문가 제언이 나왔다.
법무법인 율촌과 LG AI연구원은 23일 서울 강남구 섬유센터빌딩에서 ‘AI 학습데이터의 보이지 않는 법적 리스크, 라이선스·저작권·분쟁 대응 전략’ 세미나를 개최하고 AI 학습데이터 관련 법적 리스크와 대응 방안을 논의했다.
이날 이화영 LG AI연구원 상무는 거대언어모델(LLM) 학습데이터의 99% 이상이 오픈소스 데이터셋(데이터집합)에 의존하는 현실을 지적했다. 이 상무는 “오픈소스 데이터셋은 평균 10단계로, 하위 데이터셋이 꼬리를 무는 복잡한 누적 구조를 가진다”며 “하위 단계에서 저작권이나 개인정보보호에 문제가 있는 오염된 데이터가 섞여 들어올 경우 사람이 일일이 확인하기는 불가능하다”고 설명했다. 그는 이에 데이터의 상업적 이용 가능 여부와 개인정보 침해 위험 등을 자동으로 분석해 위험도를 등급화해 관리하는 것이 필요하다고 밝혔다. 그러면서 오는 9월 공개 예정인 LG AI연구원이 개발한 ‘엑사원 넥서스’ 플랫폼을 소개했다.
대릴 림 펜실베이니아주립대학교 교수는 미국 AI 기업 엔트로픽이 저작권 소송 과정에서 복제 데이터 저장 등 문제로 15억달러(한화 약 2조3000억원)의 합의금을 지불하게 된 사례를 소개했다. 림 교수는 “AI 저작권 분쟁의 핵심은 결과물이 아닌 데이터 생성·수집·유통 과정에 있다”면서 데이터 공급망 전반에 대한 검증 필요성을 강조했다.
임형주 율촌 변호사는 미국과 유럽을 중심으로 AI 학습데이터 관련 저작권 소송이 급증하고 있다면서 “기업 실무자들은 데이터 소싱 단계에서 크롤링(자동 수집) 금지 규약과 이용 약관을 반드시 확인하고, 학습 시 중복 제거를 통해 메모리라이즈(기억·암기) 현상을 기술적으로 회피해야 한다”며 “분쟁에 대비해 메타데이터와 검증 기록을 체계적으로 남겨둬야 한다”고 당부했다.
박광철 기자 pkcheol@naeil.com