미스트랄 AI가 새롭게 발표한 '미스트랄 OCR' API가 글로벌 시장에서 최고 성능을 자랑하는 광학 문자 인식(OCR) 기술로 평가받고 있다. 이 API는 문서 이해 능력을 한층 강화해 기업의 데이터 처리 방식을 혁신할 것으로 기대된다.
미스트랄 OCR은 손글씨 메모, 타이핑된 텍스트, 이미지, 표, 수식을 포함한 다양한 비정형 데이터를 구조화된 형식으로 변환하는 기술을 제공한다. 특히 여러 언어를 지원하며 빠른 처리 속도를 자랑한다. 미스트랄 AI는 블로그 게시물을 통해 "기업 데이터의 90%가 비정형 데이터"라며, 이 API가 AI 애플리케이션 구축 및 내부·외부 지식 관리에 중요한 역할을 할 것이라고 강조했다.
기존 OCR 기술이 단순한 텍스트 추출에 집중했던 것과 달리, 미스트랄 OCR은 문서 내 서식과 구조를 유지하며 다양한 요소를 해석할 수 있다. 미스트랄 AI의 최고 과학 책임자인 기욤 램플은 "이 기술이 기업 내 문서 접근성을 획기적으로 개선할 것"이라고 밝혔다.
벤치마크 테스트 결과에 따르면, 미스트랄 OCR은 구글 도큐먼트 AI, 마이크로소프트 애저 OCR, 오픈AI의 GPT-4o보다 높은 정확도를 기록했다. 특히 수식 인식, 스캔된 문서 처리, 다국어 텍스트 처리에서 강점을 보였다.
미스트랄 OCR은 현재 미스트랄 AI의 개발자 플랫폼인 ‘라 플라트포름(la Plateforme)’을 통해 제공되며, 클라우드 및 온프레미스 배포 옵션도 지원할 예정이다. 가격 정책은 1,000페이지당 1달러로 책정됐으며, 대량 처리 시 2,000페이지당 1달러의 요율이 적용된다. 또한 공식 웹사이트 'Le Chat'에서 무료 체험이 가능하다.
OCR 기술이 1950년대 등장한 이후 지속적으로 발전해 왔으며, 최근에는 AI 기반 문서 처리가 주요 트렌드로 자리 잡고 있다. 미스트랄 AI는 OCR 기술을 한 단계 끌어올려, 단순한 문자 인식 수준을 넘어 문서 전체를 이해할 수 있는 AI 모델을 개발하는 데 집중하고 있다. 기업과 개발자들은 이를 활용해 다양한 산업에서 문서 처리 자동화를 가속화할 수 있을 것으로 기대된다.