코히어, 20만자 읽는 AI 임베딩 '임베드 4' 공개…기업용 검색 혁신

| 김민준 기자

에이전트 기반 생성형 AI(RAG)가 기업 환경에서 빠르게 주류로 자리잡는 가운데, 코히어(Cohere)가 멀티모달 탐색 역량을 강화한 임베딩 모델 '임베드 4(Embed 4)'를 공개했다. 이번 신모델은 기존 임베드 3의 기능을 확장해, 최대 128,000토큰(약 200페이지 분량)의 문서를 처리할 수 있는 긴 컨텍스트 창과 비정형 데이터를 정교하게 다룰 수 있는 기능을 새롭게 탑재했다. 기업용 AI 솔루션에 초점을 맞추고 있는 코히어는 이 모델이 기업 내부 정보의 맥락을 이해하는 데 최적화되어 있다고 강조했다.

코히어는 자사 블로그를 통해 “기존 임베딩 모델은 복잡한 비정형 멀티모달 비즈니스 데이터를 제대로 인식하지 못해, 각 기업들이 정확도를 높이기 위해 복잡하고 비효율적인 전처리 파이프라인을 구성해왔다”며 “임베드 4는 이러한 한계를 근본적으로 해결해, 검색불가능한 정보에서 유의미한 인사이트를 빠르게 추출할 수 있도록 한다”고 설명했다.

미국 내 주요 산업군에 알맞도록 설계된 이 모델은 특히 금융, 헬스케어, 제조 분야와 같이 규제 영향이 큰 업계에서 높은 정확도를 보여준다. 실제로 임베드 4는 오탈자, 형식 오류 등 현실 데이터를 포함한 ‘노이즈’에도 강건한 성능을 발휘하며, 스캔 문서나 필기 텍스트까지 검색 가능하도록 지원한다. 법률 문서, 보험 청구서, 영수증 등 기존에 검색이 어려웠던 포맷에 대해 사전 준비 과정 없이 곧바로 분석이 가능한 것이 핵심 장점으로 꼽힌다.

임베드 4는 기업의 보안 요구에 맞춰 가상 프라이빗 클라우드나 온프레미스 환경에서도 실행 가능하며, RAG 기반 AI 에이전트의 성능 향상에도 기여할 수 있다는 평가다. AI 에이전트가 특정 문서를 참조해 정확한 답변을 생성해야 하는 상황에서, 임베딩 시스템의 정교함과 탐색 효율성이 곧 에이전트의 품질로 직결되기 때문이다. 코히어는 “임베드 4는 데이터 유형을 불문하고 정확하게 응답할 수 있는 최적의 탐색엔진이 될 수 있다”며 “대규모 조직의 요구를 충족시킬 만큼 확장성과 효율성 모두 갖췄다”고 밝혔다.

글로벌 전자상거래 스타트업 아고라(Agora)도 이미 임베드 4를 자사 AI 검색엔진에 도입해 성과를 입증했다. 아고라 창업자인 파람 자기(Param Jaggi)는 “복잡한 이미지 및 텍스트 설명을 포함하는 이커머스 데이터 특성상 하나의 임베딩으로 제품을 통합 표현할 수 있게 되면서, 검색 속도는 빨라지고 내부 툴링 운영 효율성도 향상됐다”고 말했다.

임베드 4는 이전 버전과 마찬가지로 100개 이상의 언어를 지원하며, 저장 공간 최적화를 위한 데이터 압축 알고리즘도 포함돼 있다. 경쟁사로는 코드 임베딩부터 시작해 범용 문서까지 다룰 수 있는 Qodo의 모델과 최근 몽고DB에 인수된 보야지 AI(Voyage AI)의 솔루션 등이 있다. 특히 이들과의 경쟁에서 코히어는 ‘엔터프라이즈 특화’라는 차별화된 전략으로 시장을 확대해 나가고 있다.