일론 머스크의 xAI, AI 벤치마크 조작 의혹… OpenAI와 논쟁 격화

정민석 기자

2025.02.23 (일) 08:05

일론 머스크의 AI 스타트업 xAI가 Grok 3의 성능을 과장 발표했다는 의혹이 제기됐다. OpenAI와 xAI 간 벤치마크 데이터 왜곡 여부를 두고 논란이 확산되고 있다.

일론 머스크의 xAI, AI 벤치마크 조작 의혹… OpenAI와 논쟁 격화 / Tokenpost

일론 머스크의 AI 스타트업 xAI가 자사의 인공지능(AI) 모델 Grok 3의 벤치마크 결과를 부풀렸다는 의혹이 제기됐다. 최근 OpenAI의 한 직원은 xAI가 Grok 3의 성능을 과장되게 발표했다고 주장하며, 이를 두고 AI 업계에서 논란이 확산되고 있다.

xAI는 공식 블로그를 통해 Grok 3의 AIME 2025 평가 결과를 공개했다. AIME 2025는 최근 수학 경시대회 문제를 기반으로 한 벤치마크 시험으로, AI 모델의 수학적 사고력을 평가하는 데 자주 사용된다. 발표된 그래프에 따르면, Grok 3의 두 가지 변형 모델(Grok 3 Reasoning Beta, Grok 3 Mini Reasoning)은 OpenAI의 최신 모델인 o3-mini-high보다 높은 점수를 기록한 것으로 나타났다.

그러나 OpenAI 직원들은 xAI의 발표 방식에 이의를 제기했다. 그들은 xAI가 OpenAI의 모델 성능을 평가할 때 중요한 벤치마크 지표인 "cons@64" 결과를 제외했다고 주장했다. cons@64는 한 문제에 대해 64번 시도한 결과 중 최빈값을 정답으로 채택하는 방식으로, 모델의 성능을 보다 정확히 측정하는 기준이다. OpenAI 직원들은 xAI가 cons@64 값을 누락함으로써 자사의 모델이 실제보다 뛰어난 것처럼 보이게 만들었다고 비판했다.

이에 대해 xAI 공동 창립자인 이고르 바부슈킨은 OpenAI 역시 과거에 유사한 방식으로 벤치마크 데이터를 발표한 적이 있다고 반박했다. 그는 xAI의 데이터 역시 정당한 기준을 따랐으며, 특정 지표를 제외했다고 해서 결과가 왜곡된 것은 아니라고 주장했다.

AI 연구원 네이선 램버트는 벤치마크 논란 자체보다 중요한 점은 각 모델이 최고 성능을 달성하는 데 걸린 연산 비용과 자원 소모량이라고 지적했다. 그는 "AI 벤치마크는 모델의 한계를 충분히 설명하지 못하는 경우가 많다"면서 단순 점수 비교보다는 보다 세밀한 성능 분석이 필요하다고 강조했다.

이번 논란은 AI 업계에서 벤치마크 결과 발표의 신뢰성과 투명성을 둘러싼 논쟁을 다시 한번 촉발시켰다. AI 모델의 성능을 객관적으로 평가하기 위해서는 공정한 비교 기준이 필요하며, 기업들이 이를 모두 공개하는 것이 중요하다는 지적이 나오고 있다.

뉴스를 실시간으로...토큰포스트 텔레그램 가기

광고문의 기사제보 보도자료

#일론머스크 #xAI #OpenAI #AI벤치마크 #인공지능

많이 본 기사