인공지능 음성 인식 분야에서 새로운 돌풍이 일고 있다. 프랑스 AI 스타트업 글라디아(Gladia)가 실시간 다국어 음성 인식 AI 모델 ‘솔라리아(Solaria)’를 공식 출시하며 시장의 판도를 바꿀 준비에 나섰다. 전 세계 고객과의 실시간 소통이 기업 경쟁력으로 부상한 상황에서, 솔라리아는 100개 언어를 지원하며 특히 서비스 사각지대에 있던 42개 언어를 포괄한 점에서 주목받고 있다.
글라디아는 이번 솔라리아 공개와 함께 AI 음성 기술의 *정확도*와 *속도*에서 획기적인 성과를 제시했다. 영어, 스페인어, 프랑스어 등 주요 언어에 대해 평균 94%의 단어 인식 정확도를 기록했으며, 사용자가 말문을 열면 첫 단어가 화면에 나타나기까지 270밀리초밖에 걸리지 않을 정도로 응답 속도가 빠르다. 이는 애플 시리나 구글 어시스턴트와 대화할 때 체감하는 시간과 비슷하며, 실시간 대응이 필수인 콜센터나 AI 상담 챗봇에 특히 적합한 스펙이다.
자체 벤치마크에 따르면 솔라리아가 전체 문장을 완전하게 텍스트로 변환하는 데 걸리는 평균 시간은 698밀리초로, 경쟁사인 딥그램(Deepgram)의 1,040밀리초와 스피치매틱스(Speechmatics)의 1,158밀리초보다 훨씬 빠르다. 이처럼 낮은 지연 시간은 사용자와의 대화 흐름을 보다 자연스럽고 끊김 없이 유지할 수 있게 만든다.
글라디아는 오픈소스 기반 음성 에이전트 프레임워크 ‘라이브킷(LiveKit)’과 손잡고, 솔라리아의 AI API를 활용해 다국어 처리 기반의 실시간 음성 챗봇 개발을 지원할 계획이다. 글라디아의 공동 창업자 겸 CEO 장루이 케기네르(Jean-Louis Quéguiner)는 “인간의 음성과 AI가 진정으로 같은 언어로 소통할 수 있는 시대가 열렸다”면서 “솔라리아는 기업의 업무 효율을 뛰어넘어 고객 경험의 패러다임을 진화시킬 것”이라고 강조했다.
솔라리아는 단순 번역·전사 기능을 넘어 현장 소음이 심한 환경에서도 의학·금융 등 산업 특화 용어를 인식할 수 있도록 설계됐다. 특히 방글라데시·인도 등 콜센터 외주 거점에서 널리 쓰이는 타갈로그, 벵골어, 타밀어, 우르두어 등도 포함돼 있어 글로벌 기업들의 업무 자동화와 고객 응대 품질 향상에 실질적인 기여가 기대된다.
글라디아는 2023년 첫 음성인식 API 서비스를 선보인 이후 일 년 반 만에 솔라리아 출시까지 이어지며 급성장했다. 이미 어텐션(Attention), 서클백(Circleback), 리콜AI(Recall AI), VEED.IO 등 700여 개 글로벌 고객사가 글라디아의 플랫폼을 도입한 상태다. 이번 솔라리아의 출시는 AI 기반 음성 인터페이스가 차세대 디지털 전환의 핵심으로 부상하는 흐름을 다시 한 번 각인시킨 계기가 됐다.