오픈AI, 화면 없는 ‘말하는 AI기기’ 준비

2026-01-02 13:00:01 게재

음성 AI 전면 강화

애플과 정면 경쟁 예고

챗GPT 개발사 오픈AI가 ‘음성 중심’ 개인용 하드웨어(기기) 출시를 염두에 두고 오디오 인공지능(AI) 역량 강화에 조직과 개발 자원을 집중하고 있다.

미국 IT 전문매체 디인포메이션은 1일(현지시간) 오픈AI가 오디오 모델 성능 개선을 위해 엔지니어링팀·제품팀·연구팀을 통합하는 방식으로 내부 개편을 진행했다고 전·현직 관계자들을 인용해 보도했다.

보도에 따르면 오픈AI 내부에서는 현재 챗GPT 음성 기능을 구동하는 오디오 모델이 텍스트 기반 모델 대비 정확도와 응답 속도에서 뒤처진다는 문제의식이 공유돼 왔다.

이에 새 오디오 모델 아키텍처를 개발해 보다 자연스러운 소리 내기(발화), 감정 표현이 담긴 응답, 더 정확한 답변, 실시간 대화에서의 ‘끼어들기’(interruption) 처리 등을 개선하는 방향으로 고도화를 추진 중이다. 목표 시점은 2026년 1분기(1~3월)로 거론된다.

이번 작업은 '캐릭터.AI' 출신으로 알려진 쿤단 쿠마르가 주도하는 것으로 전해졌다.

오픈AI는 최근까지도 개발자용 음성·오디오 모델을 잇달아 내놓으며 품질·신뢰성 개선을 강조해왔다. 2025년 12월에는 음성 에이전트 구축에 필요한 생산 워크플로(전사·TTS·실시간 음성-음성)를 겨냥한 업데이트를 공개했고, 2025년 3월에는 차세대 오디오 모델을 API로 소개한 바 있다.

오픈AI가 음성 AI를 ‘하드웨어 전제’로 끌어올리려는 배경에는 스마트폰 중심 인터페이스가 차세대 AI 경험에 최적이 아니라는 판단이 깔려 있다. 오픈AI는 전 애플 디자인 총괄 조니 아이브가 참여한 하드웨어 스타트업을 2025년 5월 약 65억달러(주식거래)로 인수하기로 했고 아이브가 오픈AI의 디자인·크리에이티브를 이끄는 구도를 공식화했다.

샘 올트먼 최고경영자(CEO)와 아이브는 ‘화면 없는(또는 화면 의존도를 낮춘) 기기’ 구상을 여러 차례 시사해 왔다. 2025년 11월 공개된 인터뷰 보도들에 따르면 두 사람은 시제품(프로토타입)을 개발 중이며 출시 시점을 “2년 이내(또는 2년보다 짧게)”로 언급했다는 전언도 나왔다.

다만 ‘화면 없는 디자인’이 사용자 몰입을 낮춰 중독 문제를 줄일 수 있다는 기대가 있는 반면 음성 기반 기기는 주변 소리를 상시적으로 다룰 수 있어 프라이버시·오작동·책임소재 같은 논쟁이 더 커질 수 있다. 결국 기기 성공의 전제 조건은 “말을 알아듣고(인식) → 즉시 이해하고(추론) → 자연스럽게 답하는(합성) 전 과정”의 신뢰성과 안전성이라는 지적이 나온다.

한편 오픈AI가 음성 AI를 전면에 세울수록 과거의 ‘스카이(Sky)’ 논란도 다시 소환될 가능성이 있다. 오픈AI는 2024년 5월 챗GPT 음성 옵션 가운데 한 목소리가 영화 ‘그녀(Her)’의 AI ‘사만다’와 유사하다는 지적을 받았고, 배우 스칼릿 조핸슨은 “자신과 ‘섬뜩할 정도로 비슷하다’”며 문제를 제기했다.

당시 논란은 음성 합성 기술이 고도화될수록 △초상·성명 못지않은 ‘목소리 권리’(퍼블리시티권·유사 권리) 이슈 △동의·라이선스의 투명성 △딥페이크 악용 위험이 동시에 커진다는 점을 보여줬다. 화면 없는 기기가 일상 대화를 더 깊게 파고들수록 기술 완성도뿐 아니라 권리·윤리·안전장치의 설계가 경쟁력을 좌우할 것이라는 관측이 힘을 얻는다.

오픈AI의 ‘음성 우선’ 전략은 AI가 텍스트에서 생활 인터페이스로 이동하는 변곡점이 될 수 있다. 그런만큼 사람의 목소리와 일상을 다루는 기술에 요구되는 기준도 더 높아질 전망이다.

정재철 기자 jcjung@naeil.com

정재철 기자 기사 더보기