맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

엔비디아, 2530억 파라미터 LLM 공개…메타·구글과 오픈소스 경쟁 본격화

작성자 이미지
김민준 기자
0
0

엔비디아가 2530억 파라미터의 오픈소스 LLM을 공개하며 추론 성능과 효율성을 앞세워 메타·구글과의 경쟁 구도를 강화했다. 고성능임에도 하드웨어 부담을 줄인 설계와 범용 활용성으로 주목받는다.

엔비디아, 2530억 파라미터 LLM 공개…메타·구글과 오픈소스 경쟁 본격화 / TokenPost Ai

엔비디아(NVDA)가 오픈소스 대형 언어모델(LLM) 시장에서 존재감을 다시 한 번 입증했다. 메타가 최근 출시한 '라마 4(LLaMA 4)'를 둘러싼 평가 논란이 이어지는 가운데, 엔비디아는 메타의 이전 버전인 라마 3.1 기반 모델을 개선한 ‘Llama-3.1-Nemotron-Ultra-253B’를 새롭게 공개하며 고성능과 효율성을 동시에 확보했다고 밝혔다.

이번에 공개된 모델은 2530억 개의 매개변수를 갖춘 *밀집(dense)* 구조로 설계돼 고난도 추론과 명령어 이행에 최적화된 성능을 내세운다. 특히 경쟁 모델인 디프싹의 ‘DeepSeek R1’과 비교해 절반 이하의 파라미터 수에도 불구하고 여러 벤치마크에서 이를 뛰어넘는 결과를 기록해 주목을 받고 있다.

엔비디아는 해당 모델을 올해 3월 열린 GTC(GPU Technology Conference)에서 처음 예고한 바 있으며, 4월 7일부터 허깅페이스(Hugging Face)를 통해 모델 코드, 가중치, 사후 학습 데이터를 모두 공개했다. 사용자는 시스템 프롬프트를 통해 복잡한 추론이 필요한 모드와 단순 출력 모드를 전환할 수 있으며, 이중 작동 방식을 활용한 효율적인 AI 운용이 가능하다.

하드웨어 효율성을 극대화하기 위해 엔비디아는 *신경망 아키텍처 탐색(Neural Architecture Search)* 기법을 활용해 모델 구조를 최적화했다. 주목할 만한 변화로는 어텐션 레이어 일부를 건너뛰는 설계, 피드포워드 네트워크(FFN)의 병합 구조, 압축률 변화를 통한 메모리 사용량 감소가 있다. 이에 따라 H100 GPU 8개만으로 모델을 구동할 수 있어, 데이터센터 비용 부담도 크게 줄어든다.

사후 학습 단계에서는 수학, 코드 생성, 대화, 도구 활용 등 광범위한 도메인에 대한 지도학습과 정책 최적화를 통한 강화학습(RL)을 적용했다. 특히 GRPO(Group Relative Policy Optimization) 기법을 통한 신뢰도 높은 명령어 이행과 추론 능력 향상이 강조됐다. 학습에는 총 1530억 개 토큰이 활용됐고, ‘FineWeb’, ‘Buzz-V1.2’, ‘Dolma’ 등 다양한 오픈 데이터셋이 포함됐다.

성능 평가에서는 ‘MATH500’ 수학 벤치마크 기준으로 베이직 모드에서 80.4%였던 정확도가 추론 활성화 모드에서는 97.0%로 뛰었으며, ‘AIME25’에서도 72.5% 달성으로 전통적 모델 대비 두드러진 성능 향상을 보였다. 코드 생성 평가에서는 ‘LiveCodeBench’ 기준 66.31%로 두 배 이상 점수를 끌어올려 실전 적용 가능성을 입증했다.

‘DeepSeek R1’은 파라미터 수가 6710억 개에 달하는 최신 MoE(Mixture of Experts) 모델로 수학 벤치마크에서는 여전히 강세를 보이나, 추론 문해력 평가인 GPQA(76.01% vs 71.5%), 명령 이행 평가인 IFEval(89.45% vs 83.3%) 등 다수 항목에서는 엔비디아 모델이 앞서며 경쟁력을 입증했다. 상대적으로 수학 분야에서는 DeepSeek R1이 소폭 우위에 있긴 하지만 엔비디아의 밀집 모델이 MoE 구조에 필적하는 전반적 품질을 제공하고 있다는 점이 평가된다.

사용 측면에서도 실용성이 강조됐다. 최대 12만 8000토큰의 입력과 출력을 지원하며, 시스템 프롬프트를 통해 추론 수준을 세밀하게 조정할 수 있다. 영어 외에도 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 다양한 언어를 지원해 글로벌 수요에도 대응할 수 있다. 챗봇, AI 에이전트, RAG(재생성 보조 학습), 코드 생성 등 주요 LLM 활용 방안 전반에 적합하다는 게 엔비디아 측의 설명이다.

이번 모델은 ‘엔비디아 오픈 모델 라이선스’와 기존 ‘LLaMA 3.1 커뮤니티 라이선스’ 하에 상업 사용이 허용된다. 엔비디아는 AI 개발의 책임성과 안전성을 강조하며, 기업이 실제 적용에 앞서 모델의 정렬(Alignment)과 편향성(Bias) 평가를 병행할 것을 권고했다. 모델 발표 후, 엔비디아 AI 모델 사후 학습 디렉터인 올렉시 쿠차예프(Oleksii Kuchaiev)는 “2530억 파라미터 밀집 모델의 추론 온/오프 기능을 통합하고, 완전한 공개 가중치와 데이터를 제공하게 되어 기대가 크다”는 소감을 전했다.

이번 공개로 엔비디아는 오픈소스 LLM 시장에서 메타나 구글(GOOGL), 미드저니 같은 기존 강자들과 어깨를 나란히 하며 기술 주도권 경쟁에서 한발 앞서 나갔다는 평가가 나온다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

0

추천

0

스크랩

Scrap

데일리 스탬프

0

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1