KT 자체 개발 AI 성능평가서 ‘합격점’

2026-01-05 13:00:05 게재

국내 중소형 중 1위

KT는 자체 개발한 초거대 인공지능(AI) 모델 ‘믿:음K’가 글로벌 AI 모델 성능을 종합 평가하는 플랫폼 ‘AAII’에서 국내 중소형 모델 가운데 1위를 달성했다고 5일 밝혔다.

AAII는 전 세계 주요 AI 모델의 성능을 단일 시험이 아닌 다수의 공개 벤치마크 결과를 종합해 제공한다.

이번 평가에서 믿:음K는 추론 전문지식 수학·프로그래밍 에이전트수행능력 등 10여개 핵심 평가 항목에서 전반적으로 우수한 점수를 기록해 ‘범용적으로 똑똑한 AI’임을 공식적으로 인정받았다.

구체적으로 믿:음K는 주요 에이전트 성능 벤치마크 중 하나인 ‘타우 스퀘어 벤치’(τ²-bench)에서 87%를 기록하며 에이전텍 에이아이 분야 최정상 모델로 이름을 올렸다

타우 스퀘어 벤치는 AI가 실제 업무 환경에서 사람과 협업하며 여러 도구를 활용해 과업을 끝까지 수행할 수 있는지를 평가하는 에이전트 특화 벤치마크다. 믿:음K가 기록한 수치는 최정상 수준으로 구글의 최신 모델인 제미나이3와도 어깨를 나란히 했다. 믿:음K는 에이전틱 지표 외에도 전문 지식과 고난도 추론 능력을 평가하는 MMLU Pro, GPQA, HLE 등 주요 벤치마크에서도 고르게 우수한 성적을 거뒀다. 특히 한국어 이해 성능 지표에서는 84%로 국내 최고 수준을 달성했다.

고성수 기자 ssgo@naeil.com

고성수 기자 기사 더보기