기업용 인공지능(AI) 시스템을 보다 정확하게 만들기 위해 고안된 ‘검색 증강 생성(RAG)’ 기술이 오히려 대형 언어모델(LLM)을 덜 안전하게 만들 수 있다는 연구 결과가 나왔다.
28일(현지시간) 블룸버그는 자체 연구 보고서를 통해 RAG가 적용된 LLM이 일반 설정에서는 거절하는 유해 질의를 처리하는 경향을 보인다고 지적했다. 이번 연구는 클로드3.5 소네트, 라마3 8B, GPT-4o를 포함한 11개의 주요 LLM을 분석했으며, 통상 RAG가 시스템을 더 안전하게 만든다는 기존 통념에 정면으로 반박했다. 연구 결과, 일부 모델은 RAG를 적용했을 때 오히려 더 많은 유해 응답을 생성하는 것으로 나타났다.
특히 라마3 8B 모델의 경우 RAG 적용 전에는 0.3%에 불과했던 유해 응답률이 RAG 적용 후 9.2%까지 급증했다. 블룸버그의 책임 있는 AI 부문 책임자인 세바스찬 게어만은 "기존에는 악의적인 질문을 입력할 경우 기본 내장된 안전장치가 이를 차단했지만, RAG가 도입되면 추가된 안전한 문서들이 오히려 위험한 질문에 대한 답변 생성을 촉진할 수 있다"고 설명했다.
RAG가 어떻게 기존 가드레일을 우회하는지에 대해서는 명확한 결론이 내려지지 않았지만, 연구진은 LLM이 긴 입력 값을 처리할 때 안전성과 정렬성이 저하된다는 데 주목했다. 입력 문서 수가 늘어나면 모델이 더 취약해진다는 것이다. 게어만은 "문맥 길이가 늘어나면서 아주 미묘한 방식으로 평소에는 하지 않던 답변을 하게 된다"며 RAG 시스템의 구조적 한계를 강조했다.
또한 블룸버그는 두 번째 연구 보고서를 통해 금융업계를 위한 특화된 AI 리스크 분류 체계를 제시했다. 기존의 일반 AI 안전 가이드라인은 금융 사기에 대한 민감한 대응, 기밀 정보 누출, 허위 서사 생성 등 특정 산업 분야의 리스크를 제대로 포착하지 못한다는 지적이다. 연구진은 라마가드, AEGIS, 쉴드젬마 등 오픈소스 가드레일 모델을 테스트했지만, 금융 부문 특유의 위험요소에 효과적으로 대응하지 못했다고 밝혔다.
블룸버그 AI 전략 및 연구 책임자 아만다 스탠트는 "RAG 시스템의 위험성은 회피할 수 있는 성격이 아니다"라며, "애초에 RAG 시스템 주위에 별도의 비즈니스 로직, 사실 검증, 보안 장치를 구축해야 한다"고 조언했다. 그녀는 또한 블룸버그가 자사 AI 시스템의 투명성을 중요 가치로 삼고 있으며, 모든 출력 결과를 원본 문서와 정확히 연결할 수 있도록 설계했다고 강조했다.
이번 연구는 기업들이 RAG 시스템을 도입할 때 기존의 가드레일과 별개로 생각해서는 안 되며, 직접적으로 상호작용할 수 있는 통합 안전 체계를 구축해야 한다는 경고를 보내고 있다. 특히 금융처럼 정밀한 규제가 필요한 산업에서는 범용 AI 안전 프레임워크를 넘어, 업계 맞춤형 리스크 모델을 마련하는 것이 필수적이라는 점이 다시 한 번 확인됐다.
게어만은 "이러한 위험이 발생할 수 있다는 사실을 인지하고, 이를 측정하고 식별한 후 해당 애플리케이션에 맞춘 맞춤형 안전장치를 개발하는 것이 무엇보다 중요하다"고 강조했다. AI가 점점 기업 핵심 시스템에 통합되고 있는 오늘날, 안전성은 단순한 규제 준수 의무를 넘어 기업의 경쟁력을 좌우하는 핵심 요소로 부상하고 있다.