아마존(AMZN)이 음성 기반 인터페이스 시장에 본격적으로 공격적인 행보를 보이고 있다. 8일(현지시간) 아마존은 새로운 생성형 AI 음성 모델인 '아마존 노바 소닉(Nova Sonic)'을 공개하며, 복잡한 음성 처리를 단일 모델로 구현할 수 있는 기술 혁신을 제시했다. 특히 이 모델은 알렉사 플러스(Alexa+)에 적용돼 고객 요청에 더욱 신속하고 자연스럽게 대응할 수 있도록 설계됐다.
기존 음성 인식 시스템은 음성을 텍스트로 변환하고, 이를 다시 텍스트 기반 생성 모델과 음성 합성 엔진에 순차적으로 전달하는 세 단계의 프로세스를 거친다. 하지만 노바 소닉은 이러한 복잡한 과정을 하나의 모델로 통합해 처리 속도와 개발 편의성을 동시에 향상시켰다. 아마존은 노바 소닉이 사용자 입력에 평균 1.09초 만에 반응한다고 밝혔으며, 이는 오픈AI와 구글(GOOGL)의 경쟁 모델보다 빠른 수준이다.
노바 소닉의 차별점은 뛰어난 *적응형 음성 생성* 기능이다. 사용자와의 대화 맥락에 따라 음성 톤을 바꾸거나, 요청 정보가 부족할 시 후속 질문을 던지며 대화를 이어나갈 수 있다. 또한, 외부 시스템과 연동돼 상품 재고 확인, 주문 처리 등 복합적인 작업도 자동으로 수행할 수 있다.
업계에서는 이 모델이 특히 고객센터, 스마트 디바이스, 전자상거래 등 고도의 실시간 상호작용이 요구되는 영역에서 파급력을 발휘할 것으로 전망하고 있다. 노바 소닉은 대화 내용을 실시간으로 기록하고, 이를 외부 AI 시스템으로 전송하는 기능도 지원해 고객 분석 등 데이터 기반 활용 역시 가능하다.
현재 노바 소닉은 영어와 다양한 억양을 지원하며, 향후 더욱 많은 언어로 확장될 예정이다. 개발자들은 아마존 웹서비스(AWS)의 '아마존 베드록(Amazon Bedrock)'을 통해 이 모델에 접근할 수 있다. 로힛 프라사드 아마존 인공지능 부문 수석부사장은 “노바 소닉은 음성 인터페이스를 빠르고 정밀하게 구축할 수 있는 차세대 기반 기술”이라며, “더 자연스러운 고객 경험을 만드는 데 핵심적인 역할을 할 것”이라고 강조했다.
이번 발표는 AWS가 지난주 공개한 웹 브라우저 자동화 모델 '노바 액트(Nova Act)'와 전날 업그레이드된 영상 생성 모델 '노바 릴(Nova Reel)'에 이은 것으로, 아마존이 생성형 AI 전반에서 기술 플랫폼을 빠르게 확장하고 있음을 방증한다.