‘한국어 학습자 말뭉치’ 대폭 확충
2025-08-29 10:29:27 게재
문화체육관광부 국립국어원
문화체육관광부 국립국어원이 29일부터 외국인 학습자의 한국어 사용 데이터를 모아 구축한 ‘한국어 학습자 말뭉치’를 대폭 확충해 공개한다.
국립국어원은 ‘한국어 학습자 말뭉치 나눔터’(https://kcorpus.korean.go.kr)를 통해 218만 어절을 추가 공개한다. 이번 공개로 전체 말뭉치 규모는 총 1588만 어절에 이른다.
한국어 학습자 말뭉치는 외국인이 한국어를 학습하며 작성한 글쓰기 말하기 자료를 수집해 컴퓨터가 활용할 수 있도록 가공한 언어 데이터다. 국어원은 원시 말뭉치, 형태 주석 말뭉치, 오류 주석 말뭉치 등 다양한 형태로 구축해 연구자와 교원이 자유롭게 활용할 수 있도록 하고 있다.
특히 이 자료는 한국어 교재 개발, 교수법 개선, 사전 편찬, 기계 번역 연구 등 다양한 분야에서 폭넓게 쓰인다. 학습자의 오류 유형과 자주 틀리는 표현까지 분석할 수 있어 한국어 교육 현장에서 실질적인 도움이 될 것으로 기대된다.
국어원은 또 8월부터 12월까지 ‘한국어 학습자 말뭉치 아카데미’를 총 4회에 걸쳐 운영해 연구자와 교원들에게 활용법을 소개한다.
국어원 관계자는 “인공지능 시대에 한국어 학습자 말뭉치의 중요성이 더욱 커지고 있다”며 “앞으로도 말뭉치 구축과 공개를 확대해 다양한 연구와 교육 현장에서 활용될 수 있도록 하겠다”고 밝혔다
송현경 기자
funnysong@naeil.com
송현경 기자 기사 더보기