맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

DeepSeek, 중국판 ChatGPT AI 산업 흔드는 초거대 언어 모델 등장

작성자 이미지
손정환 기자

2025.01.31 (금) 10:40

대화 이미지 1
하트 이미지 2

DeepSeek, 중국판 ChatGPT AI 산업 흔드는 초거대 언어 모델 등장 / 셔터스톡

DeepSeek이 6700억 개의 파라미터를 가진 세계 최대 오픈소스 AI 모델로 공개되면서, 저비용 고효율 AI 개발의 새로운 패러다임을 제시하고 있다.

30일(현지시간) 코인텔레그래프에 따르면, DeepSeek은 코딩, 논리적 추론, 수학 문제 해결 등 다양한 작업을 수행할 수 있는 AI 챗봇으로, OpenAI의 ChatGPT와 유사한 기능을 제공하지만 더욱 비용 효율적인 모델로 주목받고 있다. DeepSeek의 핵심 모델인 R1은 6700억 개의 파라미터를 갖추고 있으며, 이는 2025년 1월 28일 기준으로 가장 큰 오픈소스 대형 언어 모델(LLM)이다. 이 모델은 인간의 사고 과정을 모방해 점진적으로 응답을 생성하는 방식을 채택해, 메모리 사용을 줄이고 운영 비용을 절감하는 특징을 가진다.

DeepSeek의 개발 비용은 단 600만 달러로, OpenAI의 GPT-4 개발 비용인 1억 달러 이상의 극히 일부 수준이다. 비용 절감의 핵심 요소는 GPU 조달 전략이었다. DeepSeek의 창립자는 2022년 9월 이후 중국으로의 수출이 금지된 엔비디아 A100 칩을 대량으로 비축했으며, 여기에 비교적 저렴한 H800 칩을 병행 사용해 강력한 AI 모델을 구축했다. 이러한 방식으로 DeepSeek은 상대적으로 저렴한 비용으로 고성능 AI 모델을 개발하며 AI 업계의 경쟁 구도를 변화시키고 있다.

DeepSeek은 오픈소스 모델을 제공하지만, 학습 데이터는 비공개로 유지된다. 이는 연구자들이 모델 성능을 검증할 수 있도록 하면서도, 데이터의 출처와 투명성 부족으로 논란을 불러일으킬 가능성이 있다. DeepSeek의 R1 모델은 기존 LLM 대비 효율적인 연산 구조를 갖추고 있으며, 특히 Mixture-of-Experts(MoE) 아키텍처와 Multi-head Latent Attention(MLA) 기법을 적용해 성능을 최적화했다. MoE는 모델의 전체 파라미터 중 일부만 활성화해 연산 부담을 줄이는 방식으로, 거대한 단일 신경망 대신 여러 개의 ‘전문가 네트워크’를 활용하는 형태다. MLA는 기존 트랜스포머 모델이 대량의 정보를 저장해야 하는 부담을 줄이기 위해, 정보를 압축된 ‘잠재 표현(latent representation)’으로 변환하여 처리 속도를 높이는 기술이다.

DeepSeek의 기술적 강점은 비용 절감뿐만 아니라 연산 효율성에서도 드러난다. DeepSeek R1은 2048개의 엔비디아 H800 GPU에서 55일 동안 학습되었으며, 총 550만 달러의 비용이 투입됐다. 이는 ChatGPT가 약 1억 달러의 학습 비용이 소요된 것과 비교하면 10분의 1 수준에 불과하다. 이러한 비용 효율성 덕분에 DeepSeek은 AI 연구 및 활용을 더욱 저렴하게 만들고 있으며, 이를 통해 다양한 산업에서 AI 도입이 가속화될 것으로 예상된다.

DeepSeek을 개발한 량원펑(Liang Wenfeng)은 저장대학교에서 전자정보공학 및 컴퓨터과학을 전공한 인물로, 금융업에서 AI를 활용한 경험을 바탕으로 2023년 12월 DeepSeek을 설립했다. 그는 중국 최초로 100억 위안(약 1조8000억 원) 규모의 퀀트 헤지펀드를 조성한 '하이플라이어(High-Flyer)'의 CEO이기도 하다. DeepSeek은 하이플라이어와는 별개로 운영되지만, 여전히 주요 투자자로 남아 있으며 AI를 활용한 금융 데이터 분석 및 투자 전략 개발에도 영향을 미치고 있다.

DeepSeek의 등장은 AI 업계에 큰 파장을 불러일으키고 있다. 유명 벤처 캐피털리스트 마크 안드레센(Marc Andreessen)은 이를 "미국 AI 산업에 스푸트니크 모멘트(Sputnik moment)"라고 평가하며, 미국의 AI 주도권이 위협받고 있음을 시사했다. 스푸트니크 모멘트란 한 국가가 예상치 못한 기술적 격차를 경험하며 연구개발(R&D)에 집중하게 되는 순간을 의미하는데, DeepSeek의 등장이 미국 AI 업계에 새로운 도전 과제가 될 수 있음을 시사한 것이다.

그러나 DeepSeek은 정치적으로 민감한 주제에 대해 답변을 제한하는 검열 정책을 적용하고 있어, 글로벌 시장에서의 경쟁력에 대한 우려도 나오고 있다. 예를 들어, 1989년 톈안먼 사건이나 중국 공산당에 대한 질문을 받으면 "도움이 되지 않는 질문"이라는 응답을 제공하는 방식으로 회피한다. 또한, DeepSeek의 개인정보 보호 정책과 데이터 저장 방식에 대한 논란도 제기된다. 일부 서방 국가는 중국 AI 모델의 데이터 보안 및 프라이버시 이슈를 우려하며 신중한 접근을 요구하고 있다.

DeepSeek은 비용 효율적인 AI 모델 개발로 산업 내 새로운 패러다임을 제시하고 있으며, AI 대중화 및 연구 혁신을 촉진할 가능성이 크다. 현재 글로벌 AI 기업들이 데이터센터와 반도체 투자에 집중하는 가운데, DeepSeek은 제한된 하드웨어로도 강력한 AI 모델을 개발할 수 있음을 증명했다. 이러한 전략은 AI 기술이 반드시 막대한 비용과 첨단 하드웨어를 필요로 한다는 기존 인식을 뒤흔들고 있다.

DeepSeek의 등장은 AI 산업의 지형을 재편할 중요한 전환점이 될 것으로 보이며, 앞으로의 기술 발전과 글로벌 경쟁 구도에 어떤 영향을 미칠지 주목된다.

뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

많이 본 기사

관련된 다른 기사

주요 기사

[토큰포스트 오후 브리핑] TRUMP 출시 후 솔라나 기반 스테이블코인 공급량 73%↑ 外

댓글

1

추천

2

스크랩

스크랩

데일리 스탬프

2

매일 스탬프를 찍을 수 있어요!

등급 아이콘

디스나

12:08

등급 아이콘

흰토끼를따라가라

11:46

댓글 1

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

디스나

2025.01.31 12:08:50

감사합니다

답글달기

0

0
0

이전 답글 더보기

1