고려대, 판결문 개인정보 AI로 자동 비식별화
정확도 99% 수준 … 공개 지연 문제 해결 기대
대규모 데이터셋 구축 … 사법 투명성 강화 기여
고려대학교 컴퓨터학과 정연돈 교수 연구팀이 인공지능을 활용해 판결문 속 민감한 개인정보를 자동으로 비식별화하는 기술을 개발했다고 17일 밝혔다.
헌법에 따라 재판과 판결은 공개가 원칙이지만, 이름과 주민등록번호, 주소 등 개인정보 보호가 병행돼야 한다. 기존에는 수작업으로 개인정보를 가리는 데 문서 1건당 약 2주가 소요돼 공개가 지연되는 문제가 있었다. 현재 비식별화가 완료된 판결문은 전체의 5.97% 수준에 그친다.
자동화 시도도 있었지만 기존 시스템의 정확도는 약 8%에 머물러 실효성이 낮았다.
연구팀은 이를 해결하기 위해 대규모 데이터셋 ‘K-LegalDeID’와 인공지능 모델 ‘KLUEBERT-CRF’를 개발했다. 39개 법률 분야 판결문 2000건과 사회관계망서비스 대화 데이터를 결합해 약 100만 건 규모의 학습 데이터를 구축했다.
해당 모델은 문맥을 고려해 단어 간 관계를 분석하는 조건부 무작위장 기법을 적용해 한국어와 법률 문서의 복잡한 구조를 효과적으로 처리하도록 설계됐다.
성능 평가 결과, 개인정보 식별 정확도를 나타내는 개체 수준 마이크로 F1 점수에서 0.9923을 기록해 세계 최고 수준의 성능을 보였다. 또한 모델 규모를 기존 대비 크게 줄여 메모리 사용량을 낮추는 등 실무 적용성을 높였다.
연구팀은 “데이터 부족으로 정체돼 있던 국내 리걸테크 분야의 한계를 극복한 성과”라며 “판결문 비식별화 자동화를 통해 공개 범위를 확대하고 사법 투명성을 높일 수 있을 것”이라고 밝혔다.
이번 연구는 자연어처리 분야 국제학회 ‘EACL 2026’에서 발표됐으며, 국내 특허로도 출원됐다.