아마존웹서비스(AWS)가 기존 AI 코딩 평가 도구의 한계를 넘어서기 위한 새로운 기준점을 제시했다. AWS는 23일(현지시간) 개발자와 연구자를 위한 다국어 기반 AI 코딩 보조 도구 성능 평가용 벤치마크 ‘SWE-PolyBench’를 발표했다. 이 벤치마크는 실제 오픈소스 코드 환경을 반영해 다양한 언어와 과제 유형을 포함하고 있으며, AI 코딩 에이전트 성능을 보다 정밀하게 검증할 수 있도록 설계됐다.
SWE-PolyBench는 자바, 자바스크립트, 타입스크립트, 파이썬 등 주요 4개 언어에서 총 2,000건 이상의 실제 깃허브 이슈 기반 문제를 담고 있다. 이 중 500건은 빠른 실험을 위한 하위 세트로 구성됐다. 기존의 표준 평가 지표였던 SWE-Bench가 파이썬 중심의 버그 수정 업무에 치중된 데 반해, 아마존의 벤치마크는 언어의 다양성을 확보하고 기능 추가나 코드 리팩토링 등 복합 업무 유형까지 평가 가능하도록 영역을 넓혔다.
아마존의 생성형 AI 애플리케이션 디렉터 아누프 데오라스는 "현실 세계의 소프트웨어 문제는 여러 파일에 동시에 접근해야 해결이 가능하다"며, 기존 단순 문제 해결능력만으로는 AI 코딩 도구의 진짜 역량을 평가하기 어렵다고 강조했다. 따라서 SWE-PolyBench는 기존처럼 단일 ‘패스율(Pass rate)’만 측정하는 데 그치지 않고, 파일 수준 식별 성능과 코드 구조 분석 기반 정밀도 및 재현율 측정도 포함하고 있다.
아마존은 공개된 오픈소스 코딩 에이전트들을 대상으로 PolyBench를 실험한 결과, 파이썬에서 일관된 성능을 보였지만 문제의 복잡도가 높아질수록 에이전트들의 수행 능력은 뚜렷하게 차이를 보였다고 밝혔다. 특히, 세 개 이상의 파일을 동시에 수정해야 하는 작업에서는 성능이 현저히 낮아지는 경향이 발견됐다.
또한 문제 설명의 명확성도 AI 도구의 성공률에 상당한 영향을 미치는 요인으로 분석됐다. 이는 실제 기업 환경에서 AI 코딩 어시스턴트를 활용할 때, 개발자가 문제를 어떻게 기술하느냐에 따라 성능 차이가 벌어질 수 있음을 시사한다.
아마존은 SWE-PolyBench를 공개 생태계로 구축하고 있다. 평가 데이터는 허깅페이스(Hugging Face), 분석 도구는 깃허브(GitHub)를 통해 모두 공개됐으며, AI 코딩 에이전트 성능 비교를 위한 독립 리더보드도 운영 중이다. 데오라스는 "향후 지원 언어와 과제 유형을 지속적으로 확장함으로써 이 벤치마크를 AI 코딩 도구 평가의 기준으로 발전시킬 계획"이라고 밝혔다.
AI 코딩 보조 도구는 이제 단순 테스트용 데모를 넘어서, 실제 개발 현장에서 복잡한 다언어 프로젝트를 지원해야 하는 수준으로 진화하고 있다. SWE-PolyBench는 이런 현실을 반영해 AI 코딩 도구의 **실질적인 기술역량**을 가늠할 수 있는 드문 기준점을 제공한다. 마케팅 메시지에 휘둘리기보다는, SWE-PolyBench와 같은 철저한 평가 체계를 통해 도구의 진짜 가치를 판단할 시점이다.