트렌드 최전선에서 본격화된 생성형 인공지능(AI)의 상업화가 이제는 새로운 사이버 위협의 급증이라는 그림자로 되돌아오고 있다. 시스코(CSCO)의 최신 보안 보고서에 따르면, 기존 LLM(초거대 언어모델)에 공격 목적의 파인튜닝이 가해질 경우 모델의 위험도는 원형 모델 대비 22배 이상 폭증하는 것으로 나타났다. 이는 LLM이 더는 단순한 업무 자동화 도구가 아니라 해킹 툴처럼 다뤄지는 위기 상황을 방증한다.
시스코는 최근 Llama 2-7B, 마이크로소프트의 도메인 특화 LLM들을 포함한 여러 모델을 분석한 결과, 의료와 법률처럼 규제가 까다로운 산업에서도 파인튜닝을 통해 안전 장치가 광범위하게 무너진다는 심각한 결론을 내렸다. 특히 이러한 파인튜닝은 정제된 데이터셋을 기반으로 했음에도 불구하고 모델의 정렬 안정성을 약화시키고, 프롬프트 인젝션이나 '탈옥(Jailbreak)' 시도에 대한 방어력을 크게 떨어뜨렸다. 실제로 보안이 적용된 원형 모델에서는 실패했던 공격 시도가 파인튜닝된 모델에선 98% 이상 높은 확률로 성공했다.
가장 큰 위협은 이처럼 무기화된 LLM들이 이제 다크웹과 텔레그램 등지에서 구독형 소프트웨어(SaaS)처럼 유통되고 있다는 점이다. 고스트GPT(GhostGPT), 다크GPT(DarkGPT), 프로드GPT(FraudGPT)와 같은 모델은 월 75달러(약 10만 8,000원)만 지불하면 피싱, 악성코드 개발, 카드정보 확인, 취약점 탐색 등에 즉시 활용 가능하다. API와 대시보드, 실시간 업데이트까지 지원되며, 합법적 소프트웨어와 외양상 거의 구분되지 않은 수준에 도달하고 있다.
더욱 우려되는 것은 인공지능의 공급망 자체가 흔들릴 수 있다는 점이다. 시스코는 구글, ETH 취리히, 엔비디아와 공동 수행한 연구를 통해 단돈 60달러(약 8만 6,000원)만으로도 오픈소스 데이터셋을 '독살'할 수 있다고 밝혔다. 폐기된 도메인을 악용하거나 위키피디아의 저장 시점을 노리는 방식으로, LAION-400M이나 COYO-700M 같은 대형 데이터셋의 0.01%만 조작해도 향후 LLM에 의미 있는 영향을 미칠 수 있었다. 이는 웹 크롤링 기반 AI 학습 구조가 가진 근본적 취약점을 정조준한 공격이다.
여기에 더해 시스코는 '분해 프롬프트(decomposition prompting)' 기법을 통해 LLM이 검증된 콘텐츠 필터를 우회하며 유료 뉴스기사나 저작권 자료를 재구성해 유출하는 사례도 포착했다고 밝혔다. 연구진은 뉴욕타임스와 월스트리트저널 등의 기사 20% 이상을 재현하는 데 성공했으며, 이는 의료나 금융처럼 GDPR, HIPAA, CCPA와 같은 규제를 받는 산업에서 특히 큰 법적 리스크를 유발할 수 있다. 해당 기법은 입력값이 아닌 출력값에서 정보를 추출해내기 때문에 탐지 및 차단이 훨씬 까다롭다.
시스코는 최종적으로 “LLM은 더 이상 애플리케이션이 아니라 인프라 자체다”라고 경고했다. 모델의 파인튜닝 수준이 높아질수록 공격 면적이 기하급수적으로 확대되는 만큼, 지금은 정적인 ‘가드레일’만으로는 방어할 수 없는 시대다. 이제 CISO를 포함한 보안 리더들은 실시간 가시성 확보와 적대적 테스트 확대, 보안 중심의 기술 스택 재구성을 요구받고 있다. 초거대 언어 모델이 가져다 준 업무 혁신의 시대가 순식간에 치명적인 보안 리스크로 전환될 수 있는 이유다.