말하는 AI 기술의 진화 흐름 속에서, 음성 인식 스타트업 딥그램(Deepgram)이 비즈니스용 음성 애플리케이션을 겨냥한 새로운 텍스트 음성 변환(TTS) 모델 ‘오라2(Aura-2)’를 출시했다. 딥그램은 이번 신제품이 실시간 대화 환경에서 자연스러운 인간-기계 커뮤니케이션을 지원하는 *게임 체인저*라고 평가하고 있다.
오라2는 낮은 지연(latency), 일관된 맥락 처리 능력, 그리고 가독성 높은 음성 생성이라는 세 가지 요소를 중심으로 설계됐다. 고객 서비스 챗봇, 음성 도우미, 콜센터 시스템 등에서 활용될 수 있는데, 특히 산업별 전문 용어를 정확히 인식하고 발화할 수 있는 기능으로 눈길을 끈다. 기존 TTS 엔진이 대체로 감정 표현이나 캐릭터 보이스 등 엔터테인먼트 분야에 최적화됐던 것과 달리, 오라2는 도메인 특화 발음을 강점으로 내세웠다.
딥그램 측은 오라2가 산업 현장에서의 실제 요구를 반영한 솔루션이라고 강조한다. 금융권의 전문 용어, 화학 제품명처럼 일반인에게 낯선 단어조차 정확히 표현하며, 고객의 발화 중단에도 유연하게 대응하고 의미 단위의 끝맺음을 자연스럽게 처리하는 기능이 포함됐다. 짧게는 200밀리초 내 응답이 가능해 실시간 대응에도 손색이 없다. 현재 오라2는 미국 각 지역 방언을 포함한 40개 이상의 영어 음성을 지원하며, 사용자 브랜드 정체성을 살릴 수 있도록 공감형, 차분형, 전문적 톤 등 다양한 보이스 옵션을 제공한다.
딥그램의 스콧 스티븐슨 최고경영자(CEO)는 “이제 기업들은 단순히 실제처럼 들리는 음성이 아니라, *신뢰성 있는 대화 능력을 갖춘 AI 음성*을 필요로 하고 있다”며, 오라2가 그런 요구에 부합하는 차세대 모델이라고 설명했다.
성능 면에서도 오라2는 경쟁사 대비 강점을 입증했다. 마이크로소프트(MSFT)와 오픈AI(OpenAI)의 고급 음성 모델과 비교 평가한 자료에 따르면, 사용자 선호도 조사에서 오라2가 가장 높은 평가를 받은 것으로 나타났다. 또한 대규모 음성 API 호출을 동시에 처리할 수 있는 확장성까지 갖추어 실제 콜센터 도입에도 무리가 없다.
비용 역시 경쟁력이 높다. 1,000자당 3센트(약 43원)로, 동일 조건에서 일레븐랩스 터보(Elevenlabs Turbo)의 5센트와 카르테시아 소닉(Cartesia Sonic)의 3.8센트보다 저렴하다. 요금은 모든 음성 스타일에 동일하게 적용되며 고빈도 사용자를 위한 티어 요금도 제공된다.
한편 오라2는 ‘딥그램 엔터프라이즈 런타임’이라는 맞춤형 인프라 기반에서 작동한다. 이 플랫폼은 자동 모델 최적화, 실시간 LLM 교체(핫스와핑) 등 고도화된 기능을 지원하고 있어, 시간의 흐름에 따라 자연스레 성능 향상을 기대할 수 있다. 고객은 자체 프라이빗 클라우드나 온프레미스 환경에서도 이를 실행할 수 있으며, 이로 인해 데이터 보안과 지연 최소화 모두를 충족할 수 있다.
딥그램은 오라2 출시와 함께 200달러 상당의 무료 크레딧 프로모션을 제공하며, 자사 인터랙티브 플레이그라운드를 통해 누구나 직접 오라2의 성능을 실험해볼 수 있도록 하고 있다. AI 음성 기술이 점점 더 ‘사람 같은 비즈니스 대화’를 요구받는 시대, 딥그램은 오라2로 자신들의 기술력을 다시 한 번 각인시켰다.