금요진단

인공지능(AI)의 무한질주 그 끝은 어디일까

2025-04-25 13:00:01 게재

지난 10여년 이상 전세계적으로 숨가쁘게 개발 경쟁을 벌이던 인공지능(AI) 관련 기술이 어느덧 한 챕터를 마무리하고 있는 것으로 보인다. 합성곱신경망을 이용한 시각인식에서의 놀라운 성공은 인공지능 분야에서 사실상 사람의 수준에 도달한 최초의 사례였고, 이는 인공지능을 연구해 온 수많은 사람과 조직들에게 할 수 있다는 자신감과 희망을 크게 증폭시키는 계기가 되었다.

그런데 영상인식 분야에서 사람의 인식능력과 대등해진 놀라운 성공과는 달리 다른 분야에서는 아직 사람의 능력에 미치지 못하는 결과들이 수년 동안 지속됐지만 ‘거대언어모델’의 등장으로 인공지능에 대한 연구와 투자는 또 다시 불타오르게 된다.

거대언어모델 인간의 지능 앞지르기 시작

거대언어모델의 등장으로 인해 인공지능은 엄청난 인프라와 전력 소모를 담보로 하는 일종의 머니게임 시장의 성격을 가지게 된다. 올해 초부터 전세계적인 주목을 받은 중국의 딥시크가 훨씬 저렴한 인프라와 비용 투자로도 좋은 성능을 낼 수 있는 거대언어모델을 발표했지만 딥시크의 모델조차도 더 큰 인프라와 전력을 소비할수록 더욱 좋은 결과를 보여준다.

거대언어모델의 등장으로 달라진 또 하나의 흐름은 인공지능이 도출하는 결과에 대한 신뢰도가 추락하기 시작했다는 점이다. 인공지능은 컴퓨터에서 구동되는 것이고 컴퓨터는 계산이라는 측면에서 보자면 그 속력과 정확도에서 인간을 완전히 압도하기 때문에 최첨단 인공지능이 도출하는 결과에 오류가 있다는 것은 어찌 보면 황당하다고 할 수 있다.

거대언어모델의 등장으로 말미암아 인간처럼 말하는 최초의 인공지능이 구현되었다고 기대를 모았는데 인공지능이 도출하는 말 가운데 신뢰할 수 없는 말 이른바 환각을 말한다는 것은 사실 심각하게 고려해야 할 사항이다. 그리고 거대언어모델이 등장하면서 이 모델이 기존에는 다른 분야라고 인식되어 흩어져 있던 각종 인공지능 관련 기술들인 영상인식 영상생성 음성인식, 음성생성 등의 여러 요소기술들을 통합하는 플랫폼 역할을 맡게 되었다. 그러면서 거대언어모델은 ‘생성형 인공지능’ 나아가 ‘인공 일반지능’이라는 호칭까지도 포괄하게 되는 경지에 이르게 된다.

그런데 거대언어모델의 경우에는 그 직전이라고 할 수 있는 합성신경망(CNN), 순환신경망(RNN), 장단기 메모리(LSTM), 적대적 생성 신경망(GAN) 등의 기술들과 크게 다른 측면이 있는데 바로 소스코드의 공개여부다. 거대언어모델 이전의 인공지능 관련 기술들의 소스코드는 대부분 공개되어 있었다. 대표적으로 텐서 플로우, 케라스, 파이토치 등과 같은 인공지능용 라이브러리들을 예로 들 수 있다. 하지만 거대언어모델의 경우에는 메타가 라마를 통해서 불완전하게나마 소스코드를 공개했고, 딥시크가 소스코드를 완전히 공개하기 이전까지는 소스코드를 공개한 사례가 사실상 없었다.

물론 소스코드가 공개되더라도 이 소스코드를 활용해서 실제 인공지능 서비스를 구동시키기 위해서는 엄청난 인프라 투자가 동반되어야 함은 물론이고 학습을 위한 데이터 관련 작업에도 엄청난 투자가 동반되어야만 한다. 그러다 보니 전세계적으로 각축전을 벌이는 거대언어모델들의 경쟁에서 과연 어떤 것이 우월한가에 대한 측정 도구와 방법에 대한 연구와 비판도 매우 활발하게 일어나고 있다. 대부분의 거대언어모델 기업들이 자체적인 벤치마크 도구를 이용해서 각자 자신들의 모델이 우월하다고 주장하고 있는 형국이다.

이런 가운데 상당히 중립적이면서도 명성이라는 측면에서도 어느 누구도 함부로 무시하기 힘든 연구소에서 거대언어모델에대한 평가를 발표했다. 바로 ‘인공지능을 위한 벡터 연구소’다. 설립자는 제프리 힌튼이다. 제프리 힌튼은 노벨 물리학상 수상자이며, 컴퓨터 과학의 노벨상이라고 불리는 튜링상 수상자이자 현 시점 전세계 인공지능 분야의 몇 손가락 안에 드는 대부들 가운데 한 사람이다. 사실상 현존하는 인공지능 분야의 최고권위자라 할 만하다.

‘인공지능을 위한 벡터 연구소’의 평가

이 독립적인 비영리 인공지능 연구소는 수학, 일반 지식, 코딩, 안전 및 기타 영역의 16가지 벤치마크를 기준으로 11가지 최고의 오픈소스 및 독점 모델을 테스트하고 그 결과를 완전히 공개했다. 테스트 대상 모델은 두가지 유형의 벤치마크에 따라 순위가 매겨졌다. 하나는 짧은 질문-답변 작업으로 구성된 ‘기본 벤치마크’이고, 다른 하나는 여러 단계로 이루어진 문제를 해결하기 위해 순차적인 결정과 도구 사용이 필요한 ‘에이전트 벤치마크’다. 언어 이해, 수학, 코드 생성, 일반 인공지능 지원, 인공지능 유해성, 상식 추론, 소프트웨어 공학, 대학원 수준의 지능 및 기타 작업에 대한 테스트가 진행됐다.

이러한 기준으로 행해진 테스트의 결과 종합 점수는 오픈AI o1과 딥시크 R1이 가장 높았다고 한다. 하지만 중요한 결론들 가운데 하나는 작업이 복잡해질수록 추론 능력과 이해력 측면에서 현재의 인공지능은 큰 벽에 부딪히게 된다는 것이다. 여러 단계를 필요로 하는 복잡한 작업에 대해서 현재의 인공지능은 추론 능력과 이해도 측면에서 큰 벽에 부딪히기 때문에 아직도 범용적인 인공지능과는 거리가 멀다는 평가를 받았다. 비교대상 모델들 모두 일반 지식, 안전, 코딩과 관련된 실제 문제 해결 능력을 평가하기 위해 고안된 ‘에이전트 벤치마크’에 어려움을 겪었다. 그나마 클라우드3.5소네트와 o1이 이 분야에서 가장 높은 순위를 기록했지만 한계를 보였다. 이미지와 텍스트에 대한 추론 능력 수학 금융 음악 역사 등의 주제를 다루는 질문에 대해서는 o1이 가장 뛰어났고, 그 다음이 클라우드3.5소네트였지만 역시 마찬가지로 한계를 가지고 있었다.

인공신경망 구조가 가진 분명한 한계

결국 벡터 연구소가 공개한 벤치마크 결과를 보면 현재의 거대언어모델을 기반으로 각종 기술들을 통합 조합한 최신이자 최고의 인공지능도 일반적으로 느끼고 기대하는 수준에 비해 많은 한계를 가지고 있다는 것을 알 수 있다. 이는 제프리 힌튼과 공동으로 튜링상을 수상하기도 했던 또 한 사람의 인공지능 대부인 뉴욕대 얀 르쿤 교수의 비판과 지적이 상당한 의미를 가진다는 것을 강력하게 지지한다. 그리고 천재라는 명칭이 항상 따라다니는 '매쓰메티카' '울프람 알파’의 제작자이기도 한 스티븐 울프람이 주장하는 바와도 일치한다.

'깊은 신경망’ 이론은 이미 1980~1990년대부터 있어왔지만 거대한 인프라와 데이터가 도입되면서부터 다른 방법들에 대해서 결정적인 우위를 보여주기 시작했다. 거대한 인프라와 데이터가 도입되기 전에는 ‘깊은 신경망’이 이처럼 뛰어난 성능을 보여줄 거라고 예상했던 사람들은 거의 없었다. 하지만 ‘깊은 신경망’ 철학의 최고 절정의 작품이라 할 수 있는 거대언어모델 기반 인공지능은 이미 지구상에 존재하는 대부분의 지식들로 학습을 마쳐가고 있음에도 불구하고 진짜 사람처럼 추론하고 생각하는 분야에 있어서는 뚜렷한 한계를 가지고 있다는 게 점차 드러나고 있다.

스티븐 울프람은 신경망이라는 구조 내에서는 그 어떤 부분도 추론이라는 기능을 제대로 수행하고 있지는 못하다고 말했고, 합성곱신경망 성공의 당사자인 얀 르쿤은 현재 방식의 인공신경망 구조로는 분명한 한계를 가지기 때문에 인공지능을 위한 새로운 구조가 나와야만 한다고 말한다.

추론이라는 관점에서만 보자면 현재의 인공지능은 아직도 초기 인공지능의 방법론이었던 ‘기호연산 기반 인공지능’에 도달하지 못하고 있다. 이미 현재의 인공지능 기술은 실용성과 활용성에서는 꽤 쓸 만한 수준이고 이를 적극 도입하는 조직과 개인은 생산성이라는 측면에서는 크게 앞서 나갈 것이 분명해 보인다. 그러나 현재의 인공지능이 궁극의 목표라는 곳에서 아직 한참 먼 것도 사실이다.

이해성 내일e비즈 CTO/부사장