메타가 최근 깜짝 공개한 차세대 인공지능 언어모델 ‘라마 4(Llama 4)’를 두고 성능 논란이 거세지고 있다. 예상보다 이른 출시와 함께 세 가지 모델을 앞다퉈 공개했지만, 실제 사용자들의 경험이 반영된 후기들은 기대를 충족시키지 못한 채 우려로 번지고 있는 상황이다.
메타는 라마 4를 통해 플래그십 AI 모델 시장에 강력한 존재감을 다시금 각인시키려 했다. ‘스카우트(Scout)’, ‘매버릭(Maverick)’, 추후 출시 예정인 초대형 ‘2T 모델’ 등 세 가지 버전으로 구성된 라마 4는 *혼합 전문가(MoE)* 아키텍처와 고정 하이퍼파라미터 기반 훈련 기법인 ‘메타P(MetaP)’로 학습돼 성능이 극대화됐다는 설명이다. 특히 1000만 토큰에 달하는 초대형 문맥 처리 능력을 내세우며, AI 모델의 대화 이해도와 생성 응답의 질이 대폭 향상됐다고 강조했다.
하지만 공개 직후 Reddit과 X(구 트위터) 등 온라인 커뮤니티에서는 성능 저하와 부정확한 학습 방식에 대한 비판이 이어지고 있다. 일부 사용자는 라마 4 매버릭 모델이 오픈 벤치마크 중 하나인 ‘aider polyglot’에서 고작 16% 수준의 정답률을 기록한 것을 지적하며, 오히려 이전 세대나 경쟁 모델보다 떨어지는 성능을 보였다고 비판했다. AI 전문가 안드리이 부르코프(Andriy Burkov) 또한 “1000만 토큰 문맥은 실제 훈련과정에서 지원되지 않았다”며 메타 측의 ‘과장된 성능 홍보’를 지적했다.
여기에 전 메타 연구원 나단 램버트(Nathan Lambert)는 메타가 LMArena ELO 벤치마크에 올린 비교 성능은 내부에서 실사용 용도로 튜닝된 별도의 라마 4 매버릭 모델이었다고 폭로했다. 그는 “공식 배포 모델과 비교 벤치마크에 활용된 모델이 다르다는 것은 매우 부적절하며, 커뮤니티 신뢰를 무너뜨리는 행위”라고 비판했다. 이 같은 지적 속에서 라마 4의 대화 응답이 이모티콘 위주의 유치한 스타일로 구성되거나, 수학 및 코딩과 같은 핵심 기술 능력에서 성능이 떨어진다는 평가도 덧붙였다.
비판이 커지자 메타 측은 대응에 나섰다. 메타의 생성형 AI 총괄인 아흐마드 알-다알레(Ahmad Al-Dahle)는 X를 통해 “라마 4는 사용자에게 가능한 빨리 제공하기 위해 빠르게 출시한 만큼 초기 버전의 구현 불안정성이 존재할 수 있다”고 해명했다. 이어 “일각에서 주장하는 테스트셋 기반 훈련은 사실이 아니며, 모델 품질 격차는 주로 외부 파트너들의 구현 상태에 따른 것”이라고 밝혔다. 하지만 이에 대해서도 AI 업계는 구체적인 기술 문서 없이 무성의한 해명에 불과하다며 우려의 목소리를 높였다.
한편 메타는 라마 4 출시 직후 주요 연구 조직 중 하나였던 ‘기초 AI 연구(FAIR)’ 부문의 부사장 조엘 피노(Joelle Pineau)가 퇴사한 것도 논란을 더욱 부추기고 있다. 피노는 라마 4 공개 직후 해당 모델을 홍보한 인물 중 하나로 평가받아왔다. 그녀의 갑작스러운 이탈은 라마 4의 개발 및 출시 과정에서 내부적인 갈등이나 조직 개편 신호로 해석하는 시각도 존재한다.
라마 4는 현재 다양한 추론 플랫폼에서 점차 확산 중이지만, 일각에서는 이번 출시가 메타에게 결정적 타격이 될 수 있다는 관측도 내놓고 있다. 오는 4월 29일 열리는 메타의 첫 라마 개발자 컨퍼런스 ‘라마콘(LlamaCon)’에서는 이러한 논란들이 뜨거운 이슈로 떠오를 가능성이 높다. 과연 메타가 라마 4를 통해 신뢰를 회복하고, AI 시장 경쟁에서 반전을 꾀할 수 있을지 업계의 이목이 집중되고 있다.