AI 검열 넘는다…美 스타트업, 딥시크 '편향 제거 기술' 공개

| 김민준 기자

중국의 인공지능(AI) 모델 딥시크(DeepSeek)가 국가 안보에 위협이 될 수 있다는 미국 의회의 경고가 나온 가운데, 한 스타트업이 이를 비롯한 대형 언어모델의 검열 기제를 완전히 회피할 수 있는 새로운 기술을 공개했다. 엔터프라이즈 리스크 관리 스타트업 CTGT는 일부 AI 모델에 내재된 편향과 검열을 제거하는 프레임워크를 개발했다고 발표했다. 이 기술은 컴퓨팅 자원을 최소화하면서도 모델의 정확도나 성능에 영향을 주지 않고, 정책 기반의 유연한 제어가 가능하다는 점에서 주목받고 있다.

딥시크는 최근 미 하원 중국특위가 발표한 보고서에서 "미국 안보에 중대한 위협"으로 지목된 모델이다. 보고서는 미국 정부가 수출 통제를 강화하고, 모델 역외 확산에 제동을 걸어야 한다고 권고하고 있다. 문제는, 이러한 위협 우려와 별개로, 언어모델이 실제로 사용자 질문을 제대로 응답하지 못하게 만드는 *불필요한 검열 메커니즘*이 수많은 AI 모델에 존재한다는 점이다. 특히 민주화 운동이나 방화벽 우회 방법 등 민감한 소재에 대한 질문은 빈번히 차단된다.

CTGT는 이러한 문제를 해결하기 위해, 모델 내부의 특정 뉴런이나 잠재 변수(latent variable)들이 '유해 감정'이나 '검열 신호'와 연결돼 있다는 점에 주목했다. 실제로 연구진은 딥시크를 기반으로 한 DeepSeek-R1-Distill-Llama-70B 모델에서 특정 벡터가 검열성 응답을 유도한다는 사실을 확인했다. 이 벡터들을 식별하고 추적해 분리시킨 뒤, 모델이 응답할 때 해당 벡터의 작동 강도를 조절하는 방식으로 문제를 해결했다.

이 기술은 전통적인 파인튜닝(fine-tuning)이나 RLHF(인간 피드백 기반 강화학습)와는 본질적으로 다르다. 모델의 가중치를 재학습시키지 않고도, 새로운 응답에 즉시 반영할 수 있기 때문에 속도 면에서 압도적인 장점을 지닌다. 동시에, 변경 자체가 비가역적이지 않아 사용자가 원할 경우 검열 수준을 상황에 맞춰 조절하거나, 원상 복귀도 가능하다.

실험 결과는 주목할 만하다. CTGT는 총 100개의 '민감한' 질문 세트를 사용해 성능을 비교한 결과, 수정 이전의 딥시크 모델은 단 32%만 응답했으나, 수정된 모델은 96%의 문항에 답변했다. 나머지 4%는 지나치게 노골적인 콘텐츠로 분류돼 의도적으로 차단됐다. CTGT는 이 기술이 *방종한 AI 생성기*로 전락하는 것을 막기 위해, 검열 완화의 범위를 조절할 수 있도록 설계했다고 덧붙였다.

CTGT의 공동설립자인 시릴 고를라(Cyril Gorlla)는 해당 기술이 오픈 소스 기반의 라마(Llama) 등 다른 모델에도 적용 가능하다고 밝혔다. 또한 "우리는 현재 한 대형 AI 연구소와 협력해 차세대 언어모델의 설계 단계부터 신뢰성과 안전성을 확보하는 작업을 진행하고 있다"고 전했다. 그는 특히 보안, 금융, 의료처럼 AI 오작동 시 사회적 피해가 클 수 있는 산업에서 이 기술의 활용 가치가 클 것이라고 강조했다.

AI에 내재된 편향 여부는 주관적으로 해석될 수 있는 영역이다. 하지만 CTGT의 기술은 이런 체계 속에서 사용자와 기업이 모델의 행동방식을 세밀하게 조정할 수 있게 만든다는 점에서, 향후 상용 AI 개발에 상당한 영향을 미칠 가능성이 높다. 기업이 각자의 정책에 맞게 AI를 통제하고 신뢰성 있게 활용할 수 있도록 돕는 도구로 자리매김할 수 있을지 주목된다.