2025년 1월, 인공지능 업계는 대형 언어 모델(LLM) 분야의 예상치 못한 도전자에게 충격을 받았다. 바로 중국의 스타트업 딥시크(DeepSeek)가 그 주인공이다. 딥시크는 OpenAI와 미국 빅테크 기업들이 주도해온 시장에 예고 없이 뛰어들어 존재감을 확실히 각인시켰다. 딥시크-R1은 성능 면에서 미국 기업들의 최상위 모델에 비해 약간 뒤처졌지만, 하드웨어와 에너지 효율성 측면에서는 오히려 새로운 고민을 던져주었다.
딥시크는 최고급 하드웨어를 쉽게 구할 수 없는 환경에서 효율성 혁신을 강하게 추구할 수밖에 없었다. OpenAI는 딥시크가 자사 모델을 무단으로 활용했을 가능성을 제기했지만, 이를 뒷받침할 직접적 증거는 공개되지 않았다. 다만 딥시크가 논문을 통해 결과를 공유했으며, 소규모 실험에서는 성과가 검증되기도 했다.
딥시크가 어떻게 이러한 비용 절감을 가능하게 했는지에 대한 해답은 ‘동기 부여’에 있다. 딥시크는 기술적 한계를 극복하기 위해 ‘KV 캐시 최적화’와 ‘모엡(MoE) 기술’을 적극 활용했다. KV 캐시는 대형 언어 모델의 주된 연산 메모리 부하 요소인데, 딥시크는 키(Key)와 값(Value) 간의 상관관계를 이용해 이들을 압축 저장하는 최적화에 성공했다. 이로 인해 메모리 사용량을 크게 줄이면서 성능 저하를 최소화했다.
또한 딥시크는 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처를 접목해 불필요한 연산 비용을 절감했다. MoE는 각 질문에 대해 관련성 높은 소수의 전문가 네트워크만 활성화해 작동하는 방식이다. 전통적인 방식이 모든 뉴럴 네트워크를 동원하는 구조였다면, MoE는 데이터 기반으로 필요한 부분만 선택해 활용하는 전략이다. 덕분에 성능을 크게 해치지 않으면서도 연산 효율성을 극대화할 수 있었다.
여기에 강화 학습(RL)을 통한 추가 최적화도 빼놓을 수 없다. 딥시크는 모델이 생각하는 과정을 먼저 생성하고 정답을 도출하는 체인 오브 소트(Chain-of-Thought) 방식을 강화했다. 기존에는 고가의 데이터셋이 필요했지만, 딥시크는 단순 태그 구조(
딥시크의 활약은 LLM 시장에 큰 변화를 가져올 전망이다. 이제 OpenAI가 영구적으로 시장을 지배할 것이라는 전망은 설득력을 잃었다. 기술은 이미 전 세계로 확산되었고, 규제 로비나 경쟁사 비방만으로 기존 지위를 유지하기는 어렵다. 오히려 모든 이가 혜택을 공유하는 방향으로 산업은 진화하고 있다.
딥시크는 구글(GOOGL)과 OpenAI를 포함한 선구적 연구자들의 토대 위에서 성장했지만, 실질적 기여를 해낸 것도 사실이다. 앞으로 LLM 시장은 다양한 주체들이 기술을 이끌어나가는 다극화된 양상을 보일 것으로 예상된다. 이는 단기적으로 대형 투자자들에게는 부담이 될 수 있지만, 장기적으로는 기술 혁신과 산업 전반에 긍정적 영향을 미칠 것이다.