맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

AI 벤치마크 새판짜기…GAIA·ARC, '진짜 지능' 측정 기준 되나

작성자 이미지
김민준 기자
0
0

GAIA와 ARC-AGI 등 새로운 AI 평가 기준이 기존 벤치마크의 한계를 극복하며 주목받고 있다. 단순 점수 대신 실제 활용 역량 중심의 테스트로 AI 지능 평가 방식이 바뀌고 있다.

AI 벤치마크 새판짜기…GAIA·ARC, '진짜 지능' 측정 기준 되나 / TokenPost Ai

AI의 지능을 정량화하기 위한 시도는 오랜 세월 이어져 왔지만, 그 기준은 여전히 모호하다. 인간 지능조차 시험 하나로 평가하기 어려운 것처럼, 생성형 AI 모델의 성능 역시 단순한 수치나 테스트 점수로는 온전히 설명할 수 없다. 학문적 다지문 시험 방식의 기존 벤치마크들은 AI 모델 간 비교에 유용하지만, 현실의 복잡도와는 거리가 있다는 지적이 계속 제기돼 왔다.

대표적인 예가 MMLU(광범위 학문 기반 객관식 테스트)로, 이는 오랫동안 AI 모델의 성능을 측정하는 주요 수단으로 사용돼 왔다. 그러나 GPT-4.5와 클로드 3.5 소넷이 유사한 점수를 기록함에도 불구하고 실제 사용성에서는 확연한 차이를 보인다는 점에서, 단일 점수가 진짜 지능을 측정하는 데는 한계가 있다는 비판이 나온다.

이 같은 논의는 최근 ARC-AGI와 GAIA라는 새로운 기준의 등장으로 다시 불붙었다. ARC-AGI는 일반적 추론과 창의적 문제 해결력을 끌어낸다는 목적에서 개발됐고, GAIA는 보다 현실적인 상황에서 AI가 수행할 수 있는 능력을 측정한다는 점에서 주목받고 있다. 특히 GAIA는 메타(META), 허깅페이스(HuggingFace), 오토GPT(AutoGPT) 등 주요 AI 연구팀이 협업해 만든 벤치마크로, 웹 검색, 멀티모달 이해, 코드 실행 등 실제 업무에 필요한 역량을 평가하는 데 중점을 두고 있다.

GAIA의 테스트는 난이도에 따라 1단계부터 3단계까지 나뉘며, 최대 50단계의 작업을 요구한다. 이는 단순한 답안 추출이 아닌 도구 간 연동과 다양한 추론 과정을 포괄하므로, 실제 기업 환경을 보다 현실적으로 반영한다. 특히 주목할 만한 대목은 하나의 유연한 AI 모델이 GAIA에서 75% 정확도를 기록하며 높은 복잡도를 뛰어넘었고, 이는 마이크로소프트(MSFT)의 매그네틱-1(38%)과 구글(GOOGL)의 랭펀 에이전트(49%) 대비 압도적인 성과라는 점이다.

이처럼 GAIA는 SaaS 응용 프로그램 기반의 AI 시대에서 다중 도구를 연동하는 에이전트형 AI로 시장이 전환하는 흐름 속에서, 지능의 본질을 측정할 수 있는 새로운 표준이 되어가고 있다. 단순한 지식 암기와 정답 찾기를 넘어서, AI가 실질적으로 문제를 해결하고 의사결정을 수행할 수 있는지를 가늠하는 진일보한 모델 평가 방식이 필요한 시점이다.

GAIA와 ARC-AGI처럼 AI의 실제 역량을 나타내는 벤치마크가 확산될수록, 기업 및 사용자들은 더 신뢰도 높은 기준에 따라 AI를 선택하고 활용하게 될 것이다. 이는 궁극적으로 '지능'을 추상적 개념이 아닌, 실행 가능한 능력으로 재정의하는 중요한 전환점이라 할 수 있다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

0

추천

0

스크랩

Scrap

데일리 스탬프

0

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1