OpenAI가 새롭게 선보인 음성 AI 모델이 업계를 다시 한 번 뒤흔들고 있다. 'GPT-4o-Transcribe'를 비롯한 세 가지 모델을 공개하며, 텍스트 기반 애플리케이션에 음성 기능을 손쉽게 추가할 수 있도록 지원하는 것이 핵심이다.
이번에 발표된 모델은 'GPT-4o-Transcribe', 'GPT-4o-Mini-Transcribe', 그리고 'GPT-4o-Mini-TTS'로, 개발자들을 위한 API와 별도의 데모 사이트(OpenAI.fm)를 통해 제공된다. 특히 ‘GPT-4o-Mini-TTS’는 사용자가 텍스트 입력만으로도 원하는 감정과 억양을 자유롭게 설정할 수 있어, 맞춤형 음성 제작에 최적화됐다.
이 모델들은 기존의 GPT-4o를 기반으로 추가 학습 과정을 거쳐 음성 인식 및 변환 성능을 극대화한 것이 특징이다. OpenAI에 따르면 새로운 모델은 과거 오픈소스로 공개한 'Whisper'보다 단어 오류율이 낮으며, 100개 이상의 언어에서도 개선된 성능을 보인다. 예를 들어, 영어에서의 단어 오류율은 2.46%로, 이전 모델보다 훨씬 정교한 인식 능력을 갖췄다. 또한 소음 환경에서도 안정적인 성능을 유지하고, 다양한 억양과 속도를 인식하는 능력 또한 개선됐다.
시장 반응도 긍정적이다. AI 기반 고객 서비스 기업 엘리스AI(EliseAI)는 새로운 음성 모델을 도입한 이후, 보다 자연스러운 고객 응대가 가능해졌다고 평가했다. 또한 AI 음성 애플리케이션 개발사 데카곤(Decagon)은 최신 GPT-4o-Transcribe의 도입 이후 음성 인식 정확도가 30% 향상됐다고 밝혔다.
그러나 OpenAI의 이번 발표는 경쟁이 치열한 AI 음성 시장에서 새로운 변수로 작용할 전망이다. 경쟁사인 일레븐랩스(ElevenLabs)의 'Scribe'는 다중 화자 분석 기능을 포함하고 있으며, 인식 정확도도 96.7%에 달한다. 또한 휴메AI(Hume AI)의 ‘Octave TTS’는 문장 단위뿐 아니라 단어별 감정 및 발음을 커스터마이징할 수 있어, OpenAI가 직면할 도전에 대한 전망도 엇갈리고 있다.
한편, OpenAI는 새로운 모델을 API 형태로 제공하며 'GPT-4o-Transcribe'는 100만 단어 입력 기준 6달러(약 8,640원), 'GPT-4o-Mini-Transcribe'는 3달러(약 4,320원)에 이용할 수 있다. 또한 'GPT-4o-Mini-TTS'는 텍스트 입력 기준 100만 개당 0.60달러(약 860원), 음성 출력 기준 100만 개당 12달러(약 17,280원)로 책정됐다.
업계에서는 OpenAI가 새롭게 추가한 모델들이 실시간 대화보다는 음성 변환 및 저장에 최적화돼 있어, ChatGPT의 실시간 음성 대응 능력 향상에는 시간이 걸릴 것으로 보고 있다. 하지만 OpenAI는 "향후 추가적인 개선과 최적화를 진행해 AI 음성 경험을 더욱 발전시킬 계획"이라고 밝혀 기대감을 높이고 있다.