메타, 초당 2,600토큰 라마 API 공개… AI 추론 시장 '판' 흔든다

2025년 4월 30일 05:23:44 | 김민준 기자

메타(META)가 세계 최대의 오픈소스 AI 모델 플랫폼으로서 한 단계 도약했다. 인공지능 칩 전문기업 세레브라스 시스템즈와의 전략적 협업을 통해 새로운 '라마(LLaMA) API' 서비스를 선보이며 경쟁사인 오픈AI(OpenAI), 구글(GOOGL), 앤스로픽(Anthropic)을 정면 겨냥하고 나선 것이다.

메타는 캘리포니아 멘로파크에서 열린 첫 개발자 콘퍼런스 '라마콘'에서 세레브라스와의 협업을 통해 GPU 방식보다 최대 18배 빠른 추론 속도를 제공하는 라마 API를 공식 출시한다고 밝혔다. 벤치마크에 따르면 이 API는 초당 최대 2,600개의 토큰을 처리할 수 있어, 기존 구글이나 오픈AI의 GPU 서비스 대비 월등한 속도를 자랑한다.

라마 API는 메타가 그간 오픈소스로 배포해온 LLaMA 모델들을 클라우드 인프라 기반의 유료 서비스로 확장시키는 길을 열었다. 메타가 자사 AI 모델에 기반한 상용 추론 서비스를 직접 제공하는 것은 이번이 처음으로, 이를 통해 자사 LLM 모델 10억 회 이상 다운로드라는 기록을 새로운 수익 모델로 연결하게 된다.

세레브라스의 CMO 줄리 신 최는 이번 협업에 대해 “초대형 클라우드 사업자(CSP)와의 첫 공식 파트너십”이라며, “고속 추론이 가능하도록 미국 내 다섯 곳에 위치한 데이터센터에서 연산 자원을 공급하게 될 것”이라고 설명했다.

세레브라스의 고유 장비인 웨이퍼 스케일 엔진은 일반 GPU 기반의 추론에 비해 월등한 속도를 구현하며, 특히 라마 4 스카우트 모델에서는 초당 2,648토큰이라는 처리 속도를 기록했다. 반면 오픈AI의 챗GPT는 130토큰, 딥시크는 25토큰 수준에 머물러 경쟁에서의 격차는 현격하다. 이에 메타는 실시간 음성 시스템, 저지연 대화형 에이전트, 복합적 코드 생성 등 고성능 연산이 필요한 차세대 AI 응용 분야를 빠르게 선점할 수 있을 것으로 기대된다.

이번 발표는 메타가 단순한 모델 제공자에서 벗어나, 토큰 기반 AI 추론 시장의 핵심 공급자로 변화하고 있음을 뜻한다. 기존에는 개발자들이 오픈소스 모델을 다운로드해 자체 서버나 기타 클라우드를 통해 운용했다면, 이제는 메타의 API를 통해 바로 AI 응용 프로그램을 구축할 수 있게 된 것이다. 특히 라마 API는 모델 세부 조정 및 평가 기능도 탑재해, 개발자들이 자체 데이터를 생성하고 학습, 테스트할 수 있는 일체형 환경을 제공한다.

메타는 고객 데이터는 자체 모델 학습에 사용하지 않겠다고 명시했으며, 라마 API를 이용해 빌드된 모델은 외부 클라우드로도 이식 가능하도록 지원해 경쟁사와 차별화된 개방성을 유지하고 있다. 또한 세레브라스 외에도 고속 AI 추론 기업 그로크(Groq)와 협업해 개발자들에게 다양한 연산 옵션을 제공할 계획이다.

업계에서는 이번 발표가 AI 인프라 주도권 경쟁의 판도를 흔들 것으로 보고 있다. GPU 기반 경쟁사들이 병목 현상에 시달리는 상황에서, 메타는 압도적 성능을 앞세워 추론 API 시장의 새로운 기준을 제시하고 있는 셈이다. 세레브라스에 따르면, 메타의 성능은 구글과 오픈AI 대비 약 20배 빠른 수준이다.

세레브라스 임원 제임스 왕은 “메타는 30억 사용자를 보유하고, 초대형 데이터 인프라와 광범위한 개발자 생태계를 갖춘 유일한 플랫폼”이라며, “이런 조건들이 결합돼 메타는 차세대 AI 시대의 지배적 위치를 더욱 확고히 할 것”이라고 강조했다.

현재 라마 API는 제한된 개발자를 대상으로 프리뷰 형식으로 제공되며, 곧 본격 상용화가 이뤄질 예정이다. 개발자들은 메타 SDK 내 Cerebras 옵션을 선택하고 API 키를 발급받으면 초고속 추론 환경을 손쉽게 활용할 수 있다.

향후 AI 산업의 핵심은 ‘얼마나 빨리 생각할 수 있느냐’에 있다고 메타는 강조한다. 단순히 모델의 성능만이 아니라, 그 모델이 작동하는 속도가 차세대 AI 경쟁력의 본질이라는 것이다. 그리고 메타는 지금, 그 속도를 앞세워 게임의 규칙을 다시 쓰고 있다.