허깅페이스, 기업 맞춤형 AI 평가 도구 '유어벤치' 공개… GPT-4o·제미니 등 성능 비교

김민준 기자

2025.04.03 (목) 06:46

허깅페이스가 오픈소스 기반 AI 모델 평가 도구 ‘유어벤치’를 출시했다. 기업 맞춤형 검증을 통해 GPT-4o, 제미니 등 주요 LLM 성능을 비교할 수 있다.

허깅페이스, 기업 맞춤형 AI 평가 도구 '유어벤치' 공개… GPT-4o·제미니 등 성능 비교 / TokenPost Ai

AI 모델의 성능을 평가할 때 보통은 업계 공용 벤치마크 지표를 활용하지만, 이들 대부분은 일반적인 언어 능력을 기준으로 하기 때문에 실제 기업의 문제 해결 역량과는 괴리가 클 수 있다. 이런 한계를 보완하기 위해 모델 저장소 플랫폼 허깅페이스(Hugging Face)가 오픈소스 기반의 맞춤형 평가 도구 ‘유어벤치(YourBench)’를 공개했다.

유어벤치는 기업과 개발자들이 직접 자신들의 내부 데이터를 활용해 AI 모델을 평가할 수 있는 도구다. 사용자는 회사 문서나 기록 등 실제 정보를 기반으로 맞춤형 질문과 평가 지표를 생성할 수 있어, 기존 벤치마크보다 훨씬 정밀하고 목적 특화된 성능 검증이 가능해진다. 허깅페이스 평가팀 소속 연구원 수묵 샤시다르(Sumuk Shashidhar)는 “모델이 특정 업무에서 얼마나 잘 작동하는지가 핵심”이라고 강조하며, 유어벤치가 이를 실현할 수 있는 도구라고 설명했다.

이 도구는 문서 수집, 의미 기반 청킹(Semantic Chunking), 요약 단계를 거쳐 질문 생성과 응답 평가에 이르기까지 전체 분석 파이프라인을 제공한다. 사용자는 평가 질문을 생성한 뒤, 원하는 대형언어모델(LLM)을 불러와 응답 정확도를 비교할 수 있다. 실제 테스트에는 GPT-4o, 제미니 2.0 플래시, 미스트랄 라지, 클로드 3.7 소넷 등 주요 상용 모델이 활용됐다. 샤시다르는 “제미니와 알리바바의 Qwen 모델은 매우 낮은 비용으로도 탁월한 성능을 보인다”고 전했다.

허깅페이스는 유어벤치를 MMLU(Massive Multitask Language Understanding) 벤치마크 일부를 간접 재현하는 방식으로 설계해, 소스 텍스트 양을 최소화하면서 모델 간 상대 성능 순위는 그대로 유지하는 성과를 거뒀다고 주장한다. 한 번의 추론에 드는 비용은 약 15달러(약 2만 1,600원)에 불과하다.

다만 유어벤치의 활용에는 상당한 컴퓨팅 자원이 필요하다는 점도 지적된다. 현재 허깅페이스는 자체 GPU 인프라와 구글 클라우드를 활용해 평가 수요를 감당하고 있지만, 샤시다르는 “처리 용량을 가능한 빠르게 확충하고 있다”고 밝혔다.

기존 벤치마킹이 AI 모델의 일상 사용 성능을 완벽히 반영하진 못한다는 비판도 존재한다. 일부 연구자들은 벤치마크가 오히려 모델의 취약점을 감추거나 잘못된 결론을 이끌어낼 수 있다고 경고한다. 그럼에도 불구하고 AI 모델의 선택지가 다양해진 지금, 기업들이 자체 니즈에 맞는 평가 체계를 갖추는 것은 불가피한 흐름이 되고 있다.

최근 구글 딥마인드는 사실 기반 평가 도구인 FACTS를, 예일대와 칭화대 연구진은 프로그래밍용 LLM을 평가하는 자기호출장 코드를 기반으로 한 벤치마크를 발표하는 등 맞춤형 검증 도구 개발은 업계 전반으로 확산되고 있다.

유어벤치의 등장은 그 연장선에 있으며, 기업이 실제 현업 문서와 목적에 기반해 LLM을 테스트하고 구축할 수 있는 효과적인 수단으로 주목받고 있다. AI 성능 검증 방식이 점점 더 업무 현실에 가까워지고 있는 것이다.

뉴스를 실시간으로...토큰포스트 텔레그램 가기

광고문의 기사제보 보도자료

#AI성능검증 #허깅페이스 #유어벤치 #LLM비교 #GPT4o #제미니 #오픈소스벤치마크