맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

RAG 평가, 이제 숫자로 말한다…'Open RAG Eval'로 AI 성능까지 잡는다

작성자 이미지
김민준 기자
0
0

벡타라와 워털루대 지미 린 교수가 공동 개발한 'Open RAG Eval'이 RAG 시스템의 성능을 객관적으로 수치화해 평가할 수 있는 오픈소스 도구로 주목받고 있다. 환각률·검색 정확도·응답 품질 등 핵심 지표 기반 분석으로 기업 AI 최적화에 기여할 전망이다.

RAG 평가, 이제 숫자로 말한다…'Open RAG Eval'로 AI 성능까지 잡는다 / TokenPost Ai

기업들이 RAG(Retrieval-Augmented Generation) 시스템 구축에 시간과 비용을 집중하고 있지만, 정작 그 성능을 과학적으로 측정할 방법은 부족한 실정이다. 이 같은 평가 공백을 메우기 위한 새로운 오픈소스 프레임워크 ‘Open RAG Eval’이 벡타라(Vectara)와 워털루대학교 지미 린(Jimmy Lin) 교수 연구팀의 협업으로 등장했다. 이 프레임워크는 RAG 시스템의 검색 정확도, 응답 품질, 환각률을 수치로 평가해 기업 AI 시스템의 신뢰성과 효율성을 높이는 데 초점을 맞췄다.

Open RAG Eval의 가장 큰 전환점은 평가 기준의 *객관화*다. 기존의 ‘어느 쪽 답변이 더 나은가’라는 주관적 비교 방식에서는 정확한 문제 진단이 어려웠다. 이에 대해 린 교수는 “측정할 수 없는 것은 개선할 수 없다”며, 이번 프레임워크가 정보 검색 분야에서 검증된 정량적 기준을 RAG 평가지표로 적용하게 됐다고 설명했다. Open RAG Eval은 검색 지표와 생성 지표라는 두 축을 중심으로 파이프라인 전반을 살펴, 각 요소의 개선 여지를 과학적으로 도출한다.

특히 이번 프레임워크는 ‘너겟 기반 평가’ 방식을 도입했다. 너겟은 응답문에서 핵심 정보 단위를 의미하며, 시스템이 얼마나 잘 요점을 포착했는가를 숫자로 판단할 수 있게 한다. 이를 위해 자동 너겟 추출, 출처 인용 신뢰도, 환각 여부 감지 등 네 가지 핵심 지표가 포함됐다. 여기에 검색 품질을 전반적으로 검증할 수 있는 UMBRELA(통합 검색 평가법)를 통해 일관된 기준을 제공한다.

기술적인 측면에서도 Open RAG Eval은 주목할 만하다. 평가 과정 대부분을 대형언어모델(LLM)이 자동화한다는 점에서 기존 수작업 방식보다 효율성과 일관성이 뛰어나다. 파이썬 기반의 프롬프트 엔지니어링으로 구성된 이 프레임워크는, LLM이 응답의 진위 여부 및 중요 정보를 자동으로 추출·평가하도록 설계돼 기존 ‘좌-우 응답비교’ 방식의 한계를 넘어섰다.

RAG 평가의 중요성은 이미 실무 현장에서 실감되고 있다. 벡타라의 공동창업자이자 CEO인 아므 아와달라(Amr Awadallah)는 최근 인터뷰에서 “에이전트 기반 시스템에서는 단계별로 오류가 누적되기 쉬워 초기 평가의 정확성이 전체 결과에 치명적인 영향을 준다”고 지적했다. 단계적 오류를 조기에 감지할 수 있는 과학적 프레임워크가 절실하다는 것이다.

이미 부동산 테크 기업 Anywhere.re의 제품·기술 수석부사장 제프 허멀(Jeff Hummel)은 이 프레임워크를 도입하기로 결정했다. 그는 “그동안 평가 기준 없이 유저 피드백에만 의존했고, 이로 인해 시스템 확장이 힘들었다”며, “Open RAG Eval을 활용하면 인프라 최적화와 비용 제어가 훨씬 정밀해질 것”이라고 기대감을 드러냈다.

경쟁사들의 움직임도 활발하다. 최근 허깅페이스(Hugging Face)는 기업 내부 데이터를 활용한 평가 프레임워크 ‘Yourbench’를 공개했고, 갈릴레오(Galileo)는 에이전트 오류 탐지 기술 ‘Agentic Evaluations’를 내놓았다. 하지만 Open RAG Eval은 RAG 파이프라인 전체를 종합적으로 측정할 수 있는 데 가치를 두며, 기존 환각 탐지 모델인 HHEM을 통해 이미 350만 건 이상 다운로드된 신뢰 기반을 갖고 있다.

앞으로 Open RAG Eval은 성능 측정에 그치지 않고 ‘최적화’ 단계로 확장될 예정이다. 구성 요소를 자동 조정하거나 LLM 선택, 검색 알고리즘, 청킹 전략 등에 대한 개선 제안을 제시하는 기능이 추가된다. 비용 지표 도입도 예고돼 평가와 운영 효율 간의 균형을 이룰 수 있을 전망이다.

빠르게 진화하는 생성형 AI 시장에서, Open RAG Eval은 단순한 점수화 평가를 넘어 기업들이 RAG 시스템을 설계하고 개선하는 데 실질적 기준을 제시하는 ‘성능 나침반’ 역할을 할 가능성이 크다. AI를 적극 도입하려는 대기업뿐 아니라 초기 단계의 기업들에게도, 실패 리스크를 줄일 수 있는 객관적 벤치마크로서 의미 있는 도구가 될 것으로 보인다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

0

추천

0

스크랩

Scrap

데일리 스탬프

0

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1