대형 언어모델(LLM)의 복잡한 추론 능력을 한층 끌어올릴 수 있는 새로운 강화학습 기법이 미국 스탠퍼드대학교와 구글 딥마인드(Google DeepMind) 연구진에 의해 발표됐다. ‘단계적 강화학습(SWiRL, Step-Wise Reinforcement Learning)’로 명명된 이 방법은 다단계 추론과 도구 활용이 필요한 실제 기업용 작업 시나리오에 최적화됐다는 점에서 AI 업계의 주목을 받고 있다.
기존 LLM 기반 시스템은 주로 단일 질문-응답 형태의 태스크에 특화돼 있어, 마케팅 기획이나 재무보고처럼 복잡한 중간 단계와 도구 호출이 필요한 업무에는 적합하지 않다는 평가를 받아왔다. SWiRL은 이런 한계를 보완하기 위해 모델이 복잡한 문제를 여러 개의 하위 작업으로 분해하고, 각 단계에서 어떤 도구를 어떻게 호출할지, 호출된 정보를 어떻게 반영할지 순차적으로 학습하도록 설계됐다.
연구진은 우선, LLM이 검색엔진이나 계산기 등의 외부 도구를 활용하며 다단계 문제를 해결하는 과정, 즉 ‘추론 경로(trajectory)’를 대량으로 합성해냈다. 이 데이터는 단일 최종 답변의 정확성뿐 아니라 중간 단계의 추론 논리성도 기준으로 판별됐다. 특히 단순히 정답 여부로 데이터를 평가하는 기존 방식과 달리, SWiRL은 각 단계의 사고 과정이 타당한지를 중점적으로 평가해 학습 데이터로 삼는다. 실제로 연구진은 “정답이 틀린 결과물임에도 추론 과정이 올바르고 일관된 경우, 도리어 모델 성능 향상에 더 기여했다”고 강조했다.
이후 두 번째 단계에서는 앞서 생성한 경로 데이터를 바탕으로 LLM을 훈련시킨다. 이 과정에서 모델은 각 추론 단계마다 다음 행동을 예측하도록 강화학습 방식으로 조정되며, 예측값은 별도의 생성형 보상 모델에 의해 평가된다. 결과적으로 LLM은 ‘최종 정답’을 맞히려는 게 아니라, 각 시점에서 가장 논리적인 추론 단계를 거쳐가는 능력을 극대화하게 된다.
실제 평가에서도 SWiRL의 성과는 뚜렷했다. 대표적인 다단계 질문·응답 벤치마크인 GSM8K, HotPotQA, MuSiQue 등에서 기존 대비 최대 21%의 정확도 향상을 보였으며, 특히 프로세스 중심의 데이터 필터링 방식을 사용할 때 가장 뛰어난 성적을 냈다. 이는 모델이 단순히 정답을 외우기보다 고차원 논리 전개의 구조를 학습하고 있다는 의미로 해석된다.
흥미로운 점은 SWiRL의 일반화 능력이다. 연구팀은 SWiRL로 질문·응답 중심 데이터를 학습시킨 모델이 수학 문제 해결처럼 전혀 다른 유형의 태스크에서도 성능을 향상시켰다는 점에 주목했다. 이는 LLM이 특정 도메인에 특화된 미세조정(fine-tuning) 없이도 다방면에서 쓰일 수 있는 가능성을 시사한다. 연구를 이끈 애나 골디(Google DeepMind 연구과학자)와 아잘리아 미르호세이니(스탠퍼드대학교 컴퓨터공학과 부교수)는 “SWiRL은 후속 학습 없이도 다른 태스크로의 전이가 뛰어나며, 특히 모델 규모가 클수록 적용 효과가 더욱 커질 것”이라고 말했다.
기업 입장에서는 이 같은 기술이 제공하는 실질적 이점이 크다. 문서 작성, 고객 지원, 회계 검토 등에서 다양한 도구를 유기적으로 조합해 업무를 자동화할 수 있기 때문이다. 따라서 SWiRL은 생성형 AI를 기초로 기업용 지능형 시스템을 구축하려는 시장에서 중요한 전환점이 될 것으로 전망된다.