문송천 칼럼
AI보다 데이터 품질이 먼저다
생성형 인공지능(AI)에 대한 관심이 지나칠 정도다. 어느 정도인가 하면 자자체들이 예산을 반영하기 쉽지 않은 상황에서도 예비비 명목으로 내년 예산 일부를 재편성해 AI기술을 통한 대시민 서비스 쪽으로 급거 돌리려고 한다. 지자체간 경쟁적 자세 때문이기도 하지만 AI를 활용 방향으로 강하게 몰고가는 중앙정부의 자세가 사실은 더 중대한 요인으로 작용하고 있다.
왜 이런 일이 갑자기 일어나게 됐을까. 혜성과 같이 등장한 챗GPT라고 불리는 신종기술 때문이다. 챗GPT는 무엇일까. 그것은 일종의 예측하는 점쟁이로 보면 된다. 주어진(수집한) 것들을 종합해 어떤 점괘 결과를 내놓는 식이다.
그런데 어느 점쟁이는 점괘를 거의 그럴싸하게 내놓고 어느 다른 점쟁이는 엉뚱한 점괘를 내놓는다. 왜 그럴까. 사용하는 데이터가 다르고 그들을 통해 유추하는 절차가 다르기 때문이다. 여기서 여러 사실들은 데이터이고 점괘는 그런 데이터들을 통해 유추해낸 결과라고 볼 수 있다. 그러니까 이를 다른 표현으로 하면 누가 준 데이터를 읽고 그를 통해 어떤 정보를 구해냈다는 뜻이다.
이때 데이터는 식재료이고 정보는 그런 원료들을 조합해서 지지고 볶는 가공과정을 거쳐 결과적으로 나온 음식 요리에 해당한다고 보면 된다. 생선요리를 예로 들면 생선은 그 자체로 데이터고 요리는 정보로 보면 정확하다.
데이터와 AI의 상관관계 정확히 알아야
데이터와 정보는 태생부터 완전히 다른 것이다. 데이터라는 원유를 먹어야 정보라는 휘발유가 나온다는 사실을 잊어서는 안된다. 그런 만큼 데이터와 정보를 동일시하겠다면 그것은 AI와 데이터 간의 상관관계에 대해서 따져볼 생각이 없다는 뜻이 된다.
문제가 심각한 것은 AI쪽에서는 이런 구분을 중시하지 않는다는 점이다. 데이터는 물론 정보까지도 마구잡이로 데이터 범주에 같이 포함시키는 우를 범하고 있다.
생소하겠지만 컴퓨터 분야에는 데이터 전문가가 따로 있고 AI 전문가가 별도로 나뉘어져 있다. 데이터 전문가와 AI 전문가 사이에는 데이터를 정의하는 시각 차이가 현저하게 크다는 사실이 그동안 수면 위로 드러나지 않았다. 그런데 생성형AI 분야가 화두로 떠오르면서 데이터쪽과 AI쪽이 역사상 처음으로 만나는 장이 만들어졌다. AI쪽에서는 그동안 데이터 문제를 간과해왔으며 지금처럼 방대한 데이터를 다뤄봐야 하는 상황을 접해본 적이 한번도 없었다.
그런데 데이터에 대해 그간 감춰져 있던 양쪽 견해의 차이가 수면 위로 드러나면서 AI쪽에서는 데이터가 기술적으로 제대로 데이터 설계이론을 준수해 적법하게 만들어진 데이터인지 또 정확한 데이터인지에 대해서는 별 주의조차 기울여 오지 않았다는 사실까지 밝혀졌다. 데이터쪽 전문가들 입장에서는 경악을 금치 못할 사건이다.
데이터쪽에서는 데이터 적법성과 정확성을 심각하게 따진다. 컴퓨터 처리에서 데이터 정확성보다 더 중요한 게 있을 수 없다는 철학에서 비롯된다. AI쪽에서 어떤 과정을 거쳤든 데이터가 정확하게 만들어졌을 것이라는 가정에서 출발하는 점과는 매우 대조적이다.
각종 매체에서 쏟아내는 AI 관련 기사를 볼 때 이런 기초지식을 토대로 해서 어느 분야 전문가가 쓴 것인지 잘 보고 평가해야 한다. 그래야 컴퓨터 분야가 어떻게 돌아가는지 이해할 수 있다.
데이터와 AI 간의 인과관계에 대해서는 데이터가 원인제공자이고 AI는 결과라기보다 오히려 데이터를 섭취해 가공 처리하는 중간과정으로 이해하면 된다. 이런 과정이 완전 종료된 후 나오는 것이 결과다. 이게 컴퓨터가 돌아가는 단순 원리다. 여기서 과정이 컴퓨터언어로 표현된 것을 프로그램 코드(코딩)라고 부른다.
제 아무리 기술이 빠른 속도로 발전하는 것 같아도 반드시 알고 넘어가야 할 가장 핵심적 내용이 있다. 데이터는 AI 이전의 사안이며 AI가 제대로 존재가치를 발휘하려면 AI 결과라고 알리기 이전에 그 결과가 도대체 어떤 데이터를 가져다 쓴 것이고 그 데이터가 어떤 점에서 적법하다고 판정했는지에 대한 설명까지 곁들여야 한다는 사실이다. 그 이전에 AI 결과를 그냥 믿으려 들면 안된다.
데이터 검증없이 AI 결과 믿으면 안돼
따라서 지자체는 물론 어느 조직에서든 자체 보유 데이터의 품질이 과연 적법한 수준인지 심각하게 자문하고 AI보다 데이터 품질 프로젝트를 먼저 가동하는 순서로 들어가는 것이 논리상 앞뒤가 맞다. 이 선후행 관계가 확실히 지켜지지 않으면 어떤 AI 프로젝트도 밑 빠진 독에 물붓기 식으로 자동 실패할 수밖에 없다.
문제는 조직들이 가지고 있는 데이터의 절반 정도가 적법하지 않게 설계돼 있어 데이터 품질 개선부터 먼저 거치는 게 필요하다는 점이다. 쓰레기덩어리가 들어갔는데 어떻게 보물이 쏟아져 나오겠는가. 컴퓨터 내에서는 AI보다 데이터 품질이 최대 관건이라는 사실을 알아야 한다.