2025년은 많은 전문가들이 예측했던 ‘AI 에이전트의 해’로 기대를 모았지만, 현실에서는 여전히 대부분의 AI 에이전트가 실제 업무 환경보다는 실험실 수준에 머물러 있는 실정이다. 하지만 이 같은 흐름에 변화를 줄 수 있는 새로운 접근법이 등장했다. 미국 노스웨스턴대와 마이크로소프트, 스탠퍼드, 워싱턴대의 공동 연구팀은 차세대 AI 에이전트 훈련 시스템인 ‘RAGEN’을 발표하며 기존 한계를 뛰어넘을 방법을 제시했다.
이 프로젝트에는 중국 AI 회사 딥시크(DeepSeek) 출신 연구자이자 현재 노스웨스턴대에서 박사 과정을 밟고 있는 지한 왕(Zihan Wang)도 참여했다. RAGEN은 복잡한 상호작용 상황에서 AI 에이전트가 유연하게 *적응*하고 *기억*하며 *추론*할 수 있도록 설계된 학습 프레임워크다. 단순한 문제 풀이나 코드 생성처럼 고정된 과제를 넘어서, 다회성 대화나 불확실성을 포함한 의사결정 과정을 중심으로 학습하는 점이 핵심이다.
RAGEN의 기반에는 스타포(StarPO)라는 맞춤형 강화학습 프레임워크가 있다. 이 구조는 ‘상태-사고-행동-보상’ 과정을 최적화하며, 단순 응답이 아닌 전체 추론 흐름을 학습 대상으로 삼는다. 스타포는 에이전트가 생성한 전체 상호작용을 관찰한 뒤, 누적 보상에 따라 모델을 재훈련한다. 덕분에 불안정하거나 블랙박스처럼 보이는 기존 정책 최적화 알고리즘보다 해석 가능성과 안정성이 향상됐다는 평가다.
실험 데이터는 알리바바의 오픈소스 LLM인 ‘Qwen 1.5’와 ‘Qwen 2.5’ 기반의 파인튜닝 모델을 사용했다. 공개된 사전학습 모델을 활용하면 후속 연구자들 또한 실험을 재현하거나 확장하는 데 유리한 조건을 갖출 수 있어, RAGEN의 공개 목적에도 부합한다.
하지만 강화학습 모델 훈련 과정에서는 되풀이되는 문제도 명확하게 나타났다. 연구팀은 이를 ‘에코 트랩(Echo Trap·반복의 함정)’으로 명명했다. 처음에는 상징적인 사고 기반으로 응답하지만, 시간이 지나면 보상이 높은 언어나 전략만 반복적으로 쓰이면서 탐색 능력이 축소되고 성능이 오히려 하락한다는 것이다. 보상 편차 감소, 기울기 이상치, 사라지는 추론 흔적 등도 함께 발견됐다.
이러한 한계를 극복하기 위해 연구진은 StarPO의 개량형인 StarPO-S를 도입했다. 핵심 변경점은 세 가지다. 우선 불확실한 결과를 낸 롤아웃을 우선적으로 훈련에 반영해 다양성을 살리고, 기존 정책과의 괴리를 허용해 탐색 범위를 확장하며, 고보상을 받은 롤아웃을 더 강하게 학습하도록 비대칭 클리핑 방식을 적용했다.
실험 환경 또한 단순히 코드 테스트에 머물지 않고 상징적 추론을 중심으로 구성됐다. '밴딧'(Bandit)은 단발성 위험-보상 과제를, '소코반'(Sokoban)은 불가역적인 퍼즐 문제를, '프로즌 레이크'(Frozen Lake)는 다회불확정 계획 과제를 제공해 에이전트의 전천후 의사결정 능력을 평가했다. 특히 밴딧 과제에서 드래곤과 피닉스 슬롯에 상징적 의미를 부여하고, 이를 추론 기반으로 해석해야 하는 설정은 주목할 만하다.
강화학습의 지속 가능성 역시 중요한 과제로 떠올랐다. 아무리 개선된 프레임워크라 해도, 긴 훈련 주기에서는 여전히 학습 붕괴가 나타난다고 논문은 인정한다. 이는 실제 업무에 적용하려는 기업 입장에서도 풀어야 할 질문이다. 예컨대 고객 서비스나 송장 처리 같은 업무에 RAGEN을 적용하려면 전용 시뮬레이션 환경이나 보상 체계를 새롭게 설계해야 할 수도 있다는 것이다.
기술적 요소 외에도 ‘좋은 에이전트’를 만드는 세 가지 요건이 지적됐다. 즉, *과제의 다양성*, *행동의 세분화*, *학습 데이터의 현행성*이 그것이다. 이 요소들이 갖춰질 때, AI는 단순한 작업 수행자를 넘어서 계획하고 풀어가는 존재로 발전할 수 있다.
RAGEN 프로젝트가 공개한 시연 사이트에서는 에이전트가 문제를 ‘해결하는’ 과정뿐 아니라, 중간 사고 과정까지 시각화해 보여준다. 예컨대 수학 문제를 푸는 경우, 에이전트가 먼저 ‘변수를 고립시켜야 한다’는 사고를 하고 나서 결과를 제출하는 식이다. 이러한 투명성은 LLM의 의사결정 이해도를 크게 높여준다.
다만, 모든 강화학습이 명확한 추론 향상으로 이어지지는 않는다. 특히 다회성 시나리오에서는 추론 흐름이 빠르게 감소하는 경향이 확인됐다. 이는 보상 체계가 최종 정답만을 중시하는 경우 설명력을 유도하지 못한다는 구조적 한계를 보여준다.
현재 RAGEN과 StarPO 프레임워크는 깃허브를 통해 오픈소스로 공개돼 있지만, 공식 라이선스는 명시되지 않아 기업에서의 활용에는 주의가 필요하다. 성공적인 채택을 위해서는 라이선스 명확화와 실사용 사례의 확대가 뒷받침돼야 한다.
AI가 자율성과 판단력을 갖춘 에이전트로 진화하고자 할 때, RAGEN은 단순한 툴을 넘어 중요한 지침을 제공한다. 실제 산업 현장에 적용되는 데는 시간이 걸릴 수 있지만, 이 시스템이 제시하는 ‘학습의 동역학’은 AI 훈련의 방향성을 새롭게 정의하고 있다.