인터뷰 | 김희섭 국립중앙도서관장
“인공지능 시대, 공공성은 도서관이 지켜야”
“도서관, 기술 수혜자 아닌 개발의 주체 돼야” … 학습데이터 이력 관리까지 공공 책임 확대
2026년 개관 81주년을 맞은 국립중앙도서관이 또 한번의 전환기를 맞고 있다. 지난 80년이 국가문헌을 수집·보존하는 시간이었다면 앞으로의 80년은 인공지능(AI)과 데이터 기술을 바탕으로 지식 기반시설을 재설계하는 시간이 될 전망이다. 인공지능 기반 국가문헌보존관, 공공 인공지능 학습데이터 구축, 사서 업무 지원 모델 등은 이러한 변화의 신호탄이다. 12일 김희섭 국립중앙도서관장을 집무실에서 만나 기술 전환기 속 국가대표도서관의 역할과 중장기 구상을 들었다.
●국가문헌보존관은 기존 보존 방식과 무엇이 다른가.
국가문헌보존관은 평창에 조성되는 사업이다. 지난해 본예산을 확보했고 올해 실시설계에 들어간다. 기본적으로 국가문헌을 안전하게 보존하는 시설이지만 단순한 공간 확장이 아니다. 보존관에는 디지털화 작업 공간이 함께 마련된다. 보존은 자료를 쌓아두는 것이 아니라 이후 어떻게 활용할 것인가까지 포함하는 개념이다. 그래서 인공지능 적용 방안도 함께 고민하고 있다. 핵심은 자동화 서고이다. 사람이 직접 자료를 찾는 구조가 아니라 로봇이 자료를 찾아주며 여기에 인공지능이 적용된다. 온도·습도 등 보존 환경 역시 인공지능이 예측·관리하는 체계를 포함한다.
디지털화된 자료를 서버에 저장하고 이를 인공지능 학습용 데이터로 전환하는 과정까지 구상하고 있다. 나아가 보존관을 인공지능 메이커스페이스(열린 제작공간)처럼 활용해 스타트업과 연구자들이 연구 환경으로 활용할 수 있도록 하는 방안도 검토 중이다. 검색 역시 키워드 중심을 넘어 자연어·의미 기반 검색까지 확대하는 것이 목표다.
●인공지능 학습데이터 관리와 이력 추적은 어떻게 해야 하나.
앞으로 다양한 기관이 인공지능 학습용 데이터를 생산하게 될 것이다. 이러한 데이터 역시 도서관이 체계적으로 관리할 필요가 있다. 인공지능이 오류를 냈을 경우 무엇을 학습했는지 추적할 수 있어야 책임 소재를 명확히 할 수 있다. 원본 학습데이터를 공공 차원에서 관리하고 이력을 남기는 기관이 필요하다는 판단이다. 상업적 가공 데이터와 달리 공공 영역에서는 책임성과 추적 가능성을 담보해야 한다. 이 역할을 도서관이 수행해야 한다는 입장이다. 도서관은 인공지능 시대에도 공공성과 책임성을 기반으로 역할을 확장해야 한다.
●인공지능 학습데이터 구축을 도서관이 직접 해야 한다고 보는 이유는 무엇인가.
인공지능은 인풋 프로세스 아웃풋 피드백의 구조로 작동한다. 여기서 인풋은 학습데이터다. 학습데이터 품질에 따라 인공지능 성능이 달라진다. 인공지능이 뛰어나도 학습데이터가 부실하면 결과 역시 좋지 않다.
국립중앙도서관은 오랜 기간 납본 제도를 통해 방대한 자료를 수집해 왔고 사서들이 이를 조직·구조화하며 메타데이터를 구축해 왔다. 인공지능 학습데이터 역시 기계가 읽을 수 있도록 구조화하는 작업이라는 점에서 본질적으로 연결돼 있다. 국립중앙도서관 장서는 인쇄본의 경우 1500만점이 넘고 디지털 자료는 2000만점을 넘어섰다. 다만 인쇄본의 디지털화는 아직 절반 수준이다.
보존용 디지털화와 인공지능 학습용 전환은 과정이 다르며 비용도 상당하다. 지난해 30억원대 예산을 확보해 광학문자인식(OCR) 기술 기반 인공지능 학습용 전환 작업을 진행했으나 예상보다 비용과 시간이 많이 소요된다는 점을 확인했다. 고문헌은 전문가 검토와 번역이 필요하고 현대 자료는 저작권 제약이 있다. 이에 따라 공공저작물부터 인공지능 학습용 전환을 우선 검토하고 있다.
●인공지능 기반 사서 업무 지원 모델은 어떤 구상인가.
인공지능은 반복적이고 규칙 기반의 업무를 지원하는 도구이다. 분류·목록 규칙을 시스템화하면 자료의 메타데이터 생산, 주제 분류, 목차 분석 등을 상당 부분 자동화할 수 있다. 이용자 질문과 사서의 답변을 학습시키면 24시간 인공지능 참고 서비스도 가능하다. 이는 사서를 대체하는 구조가 아니라 업무 부담을 줄이고 전문성을 강화하는 지원 모델이다. 도서관은 인공지능 기술의 수혜자가 아니라 적극적으로 활용·개발하는 기관이 돼야 한다.
●인공지능 토론 서비스는 무엇인가.
독서 토론에도 인공지능을 적용할 수 있다. 발언 비중을 분석해 균형을 조정하고 관련 자료를 즉시 제시하며 토론 흐름을 정리하는 보조 기능을 수행한다. 이는 사회자를 대체하는 것이 아니라 토론의 질을 높이는 지원 도구이다. 현재 예산을 확보했고 시범 개발을 추진할 예정이다. 도서관은 기술을 수동적으로 받아들이는 기관이 아니라 서비스 모델을 개발해 확산시키는 주체가 돼야 한다는 구상이다. 이를 위해 내부 인공지능 데이터·서비스 전략을 수립한 상태다.
●올해 부산 세계도서관정보대회(WLIC)의 의미는 무엇인가.
이번 부산 세계도서관정보대회는 한국 도서관이 참여하는 입장을 넘어 주최하는 위치에 서게 됐다는 점에서 의미가 있다. 그동안 추진해 온 디지털화와 데이터 구축, 인공지능 도입 경험을 공유하는 자리가 될 것이다. 국립중앙도서관이 해 온 변화는 세계 도서관들도 함께 고민하는 과제와 연결돼 있다. 이번 대회가 그런 논의를 나누는 계기가 되길 기대한다.
●국제 교류와 공적개발원조(ODA)는 어떤 방향으로 추진하는가.
국제 교류는 이제 방문과 행사에 머무르는 단계는 지났다고 본다. 서로에게 실질적으로 도움이 되는 협력 구조가 돼야 한다. 해외 한국학 사서들과 네트워크를 강화하고 자료 제공을 넘어 디지털화·장기 보존·서비스 방식까지 함께 논의해야 한다. 공적개발원조 역시 시설 지원을 넘어서 디지털화 경험과 데이터 구축 역량을 공유하는 방향으로 가야 지속 가능하다. 국제 교류의 목표는 일방적 지원이 아니라 상호 성장 구조를 만드는 것이다.
송현경 기자 funnysong@naeil.com