중국계 AI 연구 조직 딥시크(DeepSeek)가 대형 언어모델(LLM)을 위한 차세대 보상 모델링 기술을 공개하며, 인공지능 훈련 방식의 새로운 전환점을 제시했다. 최신 기술인 ‘자기원칙 비평 튜닝(Self-Principled Critique Tuning, SPCT)’은 기존 기법이 가지던 범용성 한계와 확장성 문제를 혁신적으로 개선한다는 점에서 업계 전문가들의 주목을 받고 있다.
보상 모델은 LLM에 대한 강화학습에서 핵심 역할을 담당한다. 모델의 출력을 평가해 점수, 즉 ‘보상(reward)’을 부여하고 이를 바탕으로 모델 성능을 조정하는 구조다. 다만 현재까지의 보상 모델은 수학 문제처럼 정답이 확실한 좁은 분야에선 우수했지만, 열린 형태의 질의나 주관적 요구를 포함한 복잡한 환경에선 효과가 제한적이었다.
딥시크는 이러한 제약을 극복하기 위해 SPCT라는 새로운 훈련 메커니즘을 제안했다. GRM(Generative Reward Model, 생성형 보상 모델)에 원칙과 비평 기준 자체를 생성하게 만들고, 이를 통해 다양한 입력에 적응 가능한 보상 판별 역량을 부여하는 방식이다. 이 기술은 보상 기준이 명확하지 않은 복잡한 도메인에서도 더욱 유의미한 평가 결과를 출력할 수 있도록 유도한다.
SPCT는 두 단계로 구성된다. 첫 번째 단계인 ‘거절 기반 정제 학습’에서는 질의와 응답 쌍을 기반으로 원칙과 비평을 동시에 생성하도록 GRM을 훈련시켜, 목적에 부합하는 보상 예측 결과만을 선별해 반복 학습시킨다. 이어지는 ‘규칙기반 강화학습’ 단계에선 예측된 보상 결과의 정확성 여부를 기반으로 모델을 점진적으로 보완해 나간다. 이 과정을 통해 GRM은 보다 정교하고 일관된 판단 기준을 자체적으로 형성하게 된다.
확장성 문제에 대한 해법으로는 동일 입력에 대해 원칙과 비평을 다각도로 생성하고, 이들 결과를 투표 방식으로 집계하는 기법이 도입됐다. 의견의 다양성을 확보하면서도 판단의 정확도를 높이는 전략이다. 여기에 ‘메타 RM’이라는 보조 보상 모델이 추가됐다. 이는 GRM이 생성한 평가 기준의 질을 사전에 판별해 저질 또는 편향된 결과물을 사전 차단함으로써 최종 품질을 제고한다.
딥시크는 구글의 공개형 LLM ‘Gemma-2-27B’에 SPCT를 적용한 ‘DeepSeek-GRM-27B’를 통해 기술력을 검증했다. 기존의 단일 점수 기반 모델이나 간단한 판별 모델들과 비교해 SPCT 기반 모델은 데이터 세트가 동일한 조건에서도 현저한 성능 우위를 보였다. 특히 추론 단계에서 계산 리소스를 추가로 투입할수록 성능이 비례 향상되는 ‘추론 확장성’ 부문의 개선은 NM4-340B 또는 GPT-4o와 같은 대규모 모델을 상회하는 수준을 기록했다.
물론 개선이 필요한 부분도 있다. SPCT 기반 GRM은 정답이 명확한 일부 태스크에선 기존 단순 보상 모델보다 효율성이 떨어지는 경향이 있으며, 계산 자원 소모도 큰 편이다. 이에 따라 딥시크는 향후 온라인 RL 설계 통합, 정책 모델과의 동시 확장 방식 탐구, 그리고 대규모 평가 시스템으로서의 역할 강화 등을 연구 로드맵에 포함시킨 상태다.
전문가들은 이번 기술 발표가 단순한 퍼포먼스 경쟁을 넘어 LLM의 활용 가능 영역을 실질적으로 넓힐 수 있는 잠재력을 갖췄다고 평가한다. 특히 마케팅, 고객 응대, 창조적 콘텐츠 생성 등 동적이고 모호한 환경에서 유연하게 판단할 수 있는 범용 보상 시스템의 수요는 향후 AI 분야 전반에 걸쳐 더욱 확대될 전망이다.