메타(Meta)가 유네스코(UNESCO)와 협력해 언어 AI 기술을 발전시키기 위한 새로운 프로그램을 발표했다. 이를 통해 다양한 언어의 음성 데이터와 전사본을 수집하고 AI 번역 및 음성 인식 모델에 적용할 계획이다.
이번 프로그램은 '언어 기술 파트너 프로그램(Language Technology Partner Program)'으로 명명됐으며, 협력자들은 10시간 이상의 음성 녹음 데이터와 전사본, 대량의 텍스트 자료, 번역된 문장 세트를 제공할 수 있다. 수집된 데이터는 메타의 AI 연구팀과 협업해 처리되며, 궁극적으로 오픈소스로 공개될 예정이다.
현재까지 이 프로그램에 참여 의사를 밝힌 기관으로는 캐나다 누나부트(Nunavut) 자치정부가 포함됐다. 누나부트 지역은 인구가 희박하지만, 전통적인 인욱투투(Inuktut) 언어를 사용하는 원주민들이 거주하는 곳이다. 메타는 블로그 게시글을 통해 "이번 프로젝트는 대표성이 적은 언어를 지원하고, 세계적인 언어 다양성을 보존하는 유네스코의 취지에 맞춰 진행된다"고 밝혔다.
이와 함께 메타는 AI 기반 번역 모델의 성능을 평가할 수 있는 오픈소스 기계 번역 벤치마크도 공개했다. 언어학자들이 만든 문장을 활용한 이 벤치마크는 7개 언어를 지원하며, AI 개발자 플랫폼인 허깅페이스(Hugging Face)에서 접근 및 기여할 수 있다.
메타가 이번 프로젝트를 순수한 공익적 목적으로 홍보하고 있지만, AI 기반 음성 인식 및 번역 기술의 강화는 자사의 비즈니스 생태계에도 긍정적인 영향을 미칠 전망이다. 메타는 지속적으로 지원하는 언어를 확대하고 있으며, 크리에이터를 위한 자동 번역 기능 도입에도 힘쓰고 있다. 지난해 9월에는 인스타그램 릴스(Reels)에서 음성을 자동으로 번역하고 립싱크를 구현하는 테스트를 시작하기도 했다.
그러나 메타의 다국어 콘텐츠 처리는 그간 여러 차례 논란이 되어왔다. 한 보고서에 따르면, 페이스북은 영어 콘텐츠에 비해 스페인어 및 이탈리아어로 된 가짜 정보를 제대로 검열하지 않아 방치한 비율이 훨씬 높았다. 내부 문서 유출을 통해 아랍어 게시물이 반복적으로 혐오 발언으로 잘못 분류되는 문제도 드러났다. 이에 따라 메타는 번역 및 콘텐츠 검열 기술을 개선하려는 노력을 강화하고 있다.