LLM, 연산 자원 늘려도 답 못 찾는다… MS "추론 전략이 더 중요"

| 김민준 기자

대형 언어모델(LLM)의 연산 성능을 향상시키는 '추론 시간 스케일링'(Inference-Time Scaling)이 모든 상황에서 해법이 되진 않는다는 연구 결과가 나왔다. 마이크로소프트 리서치가 최근 발표한 연구결과에 따르면, 문제 해결을 위해 더 많은 연산 자원을 투입하더라도 반드시 정확도가 높아지거나 효율성이 향상되는 것은 아니며, 오히려 *비용 불확실성*이 커지는 경향이 나타났다.

이번 연구는 GPT-4o, 클로드 3.5 소네트(Claude 3.5 Sonnet), 제미니 2.0 프로(Gemini 2.0 Pro), 라마 3.1(LLaMA 3.1) 같은 범용 모델은 물론, *추론 최적화에 맞춰 설계된 특화 모델*까지 포함한 총 9종의 최신 LLM에 대해 진행됐다. 연구진은 각 모델을 수학, 과학, 일정 계획, 공간 추론 등 다양한 복잡도와 성격을 지닌 문제에 투입한 뒤, 세 가지 추론 방식인 체인 오브 쏘트(CoT), 병렬 스케일링, 순차 스케일링을 적용해 결과를 분석했다.

분석 결과, 가장 눈에 띄는 결론은 "토큰을 많이 쓴다고 더 정확한 정답이 나오는 게 아니라는 것”이다. 예를 들어 AIME 2025 수학 평가에서 오픈소스 모델인 딥시크(DeepSeek)의 R1 모델은 클로드 3.7 소네트보다 다섯 배 이상 많은 토큰을 사용했지만 정확도는 거의 차이가 없었다. 모델의 특정 문제에 대한 응답 길이 자체가 성능을 가늠하는 신호가 되지는 않는다는 지적이다. 마이크로소프트 측은 일부 모델에서 추론 길이가 길어질수록 오히려 답을 못 찾는 경우가 많았다고 부연했다.

특히 기업 입장에서 주요한 시사점은 *비용 예측 불가능성*이다. 같은 문제, 같은 모델에 같은 프롬프트를 반복해 입력하더라도 토큰 소비량은 상황마다 크게 들쑥날쑥한 것으로 드러났다. 이는 서비스 예산을 짤 때 상당한 변수를 발생시키는 요인이 될 수 있다. 마이크로소프트의 수석연구원 베스미라 누시(Besmira Nushi)는 “정확한 응답을 꾸준히 제공하는 모델일지라도 토큰 사용량의 표준 편차가 크다면 재무상 불확실성을 키울 수 있다”고 말했다. 그녀는 이와 관련한 프로파일링 도구 개발이 중요하다고 강조했다.

또 한 가지 주목할 점은 '완전한 검증자(perfect verifier)'가 모델 성능을 일관되게 향상시켰다는 사실이다. 이는 추론 능력 향상에 단순한 연산 자원 투입뿐 아니라, *정확한 검증 메커니즘*이 중요하다는 점을 시사한다. 연구진은 여러 모델이 문항에 대한 평균적인 정확도에서는 큰 차이가 없지만, 검증과 선택 알고리즘을 접목했을 때 명확한 향상이 있다는 점에 주목했다. 특히 기존 GPT-4o 같은 모델도 추론 방식만 달리하면 특화 모델 수준의 성능을 낼 수 있다는 점에서, 단순한 성능 향상이 아니라 '스마트한' 리소스 활용이 중요하다는 결론이 나온다.

다양한 도메인에서 모델의 효율성과 비용 문제를 고려해야 하는 기업에게 이번 연구는 중요한 의사결정 기준을 제공한다. 향후 기업용 생성형 AI 애플리케이션 개발 시에는 단순히 연산 자원을 늘리기보다, 응답의 품질과 비용을 균형 있게 맞출 수 있는 최적화 전략이 필요하다는 지적이다. 누시는 “모델의 정확도와 비용 예측 가능성을 함께 고려한 결정이 더 이상 선택이 아니라 필수가 됐다”고 강조했다.

결국 기업들이 AI 도입을 통해 실질적인 성과를 내려면, 모델 선택부터 프롬프트 설계, 검증 체계 그리고 추론 전략까지 전체 생태계를 면밀히 설계할 필요가 있다는 것이 이번 연구를 통해 드러난 본질적 메시지다.