맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

中 바이트댄스, 'Seed-Thinking-v1.5' 공개… 생성형 AI 경쟁 본격화

작성자 이미지
김민준 기자
0
0

중국 바이트댄스가 고성능 추론형 AI 모델 'Seed-Thinking-v1.5'를 공개하며 메타, 구글 등과의 경쟁에 나섰다. 고효율 구조와 강화학습 최적화로 일반화 성능을 끌어올렸다고 밝혔다.

中 바이트댄스, 'Seed-Thinking-v1.5' 공개… 생성형 AI 경쟁 본격화 / TokenPost Ai

중국의 테크 대기업이자 틱톡의 모회사인 바이트댄스(ByteDance)가 차세대 추론형 인공지능(AI) 모델 ‘Seed-Thinking-v1.5’를 공개하며 생성형 AI 시장의 새로운 도약을 예고했다. 이 모델은 논리적 사고력을 기반으로 정답의 정확성을 끌어올리는 데 초점을 맞추고 있으며, 수학, 과학, 공학 등 이른바 STEM 분야뿐 아니라 일반 대화형 작업에서도 높은 성능을 자랑한다.

Seed-Thinking-v1.5는 최근 화두로 떠오른 ‘추론형 대형 언어모델’ 시장에서 메타(META)의 라마4(Llama 4), 미스트랄(Mistral)의 믹스트랄(Mixtral), 오픈AI(OpenAI)의 o3-mini-high와 경쟁할 수 있는 수준의 성능을 기록했다. 특히 AI 분야서 인공지능 일반화(GAI) 달성의 척도로 간주되는 ARC-AGI 벤치마크에서 구글(GOOGL)의 제미니 2.5 프로(Gemini 2.5 Pro)와 오픈AI 모델을 앞지른 점이 주목된다.

이번 모델의 기술적 핵심은 ‘전문가 혼합(Mixture-of-Experts, MoE)’ 구조에 기반을 두고 있다는 점이다. 전체 2000억 개 파라미터 중에서 매 연산 시 단 200억 개 파라미터만을 활성화함으로써 연산 효율과 속도를 동시에 확보했다. 모델이 각 도메인에 특화된 전문가 블록을 선택적으로 호출해 응답함으로써, 보다 정교하고 신뢰도 높은 답변을 낼 수 있는 구조다.

Seed-Thinking-v1.5은 인공지능 훈련에서 점차 높은 비중을 차지하는 강화학습(RL) 영역에서도 혁신을 더했다. 바이트댄스는 학습 안정성을 높이기 위해 VAPO(actor-critic 기반)와 DAPO(policy-gradient 기반)라는 두 가지 커스텀 프레임워크를 도입했으며, 체계적인 판단 기준을 부여하기 위해 ‘Seed-Verifier’와 ‘Seed-Thinking-Verifier’라는 이중 보상 모델도 적용됐다.

또한 훈련 데이터 전략에서도 차별화를 꾀했다. 전체 40만 개 샘플 가운데 30만 개는 수학·논리·코딩 등 정답이 명확한 ‘검증 가능한’ 문제로 구성되었고, 나머지 10만 개는 글쓰기나 롤플레잉 등 주관적인 판단이 필요한 ‘검증 불가능한’ 작업으로 구성됐다. 특히 AIME, Codeforces, GPQA 등 대표적인 벤치마크뿐만 아니라, 과도한 반복 노출에 따른 성능 과잉 현상을 방지하기 위해 문제 수준을 높인 ‘비욘드AIME(BeyondAIME)’ 같은 독자적 평가 기준도 고안했다.

인프라 측면에서도 바이트댄스는 강력한 최적화 역량을 발휘했다. 자체 개발한 하이브리드플로우(HybridFlow) 프레임워크에 기반해 GPU 효율성을 끌어올렸고, 강화학습 주기 속도를 3배 이상 높여주는 ‘스트리밍 롤아웃 시스템(Streaming Rollout System, SRS)’을 채택해 빠른 반복과 실험을 가능케 했다. FP8 혼합 정밀도 연산, 전문가 병렬 처리, 자동 튜닝 최적화 등도 적용돼 훈련 효율이 극대화됐다.

인간 중심의 평가에서도 모델은 인상적인 성과를 보였다. 문학 창작, 상식 질문, 일반 대화 등 여러 영역에서 사용자의 선호도를 반영한 테스트 결과 Seed-Thinking-v1.5는 동급 최고 성능을 보였던 DeepSeek R1보다 8% 높은 승률을 기록했다. 특히 수학 기반 학습을 거친 모델이 창의적 작업에서도 뛰어난 일반화 능력을 보인 점에 대해 개발진은 정형화된 학습 구조의 장점이라고 평가했다.

기업 및 데이터 엔지니어들에게 이번 모델이 갖는 의미 또한 상당하다. 세밀하게 구성된 데이터, 단계별로 진행되는 고안된 강화학습 방법론, 그리고 실환경 운영에서의 안정성까지 갖춘 Seed-Thinking-v1.5는 추론형 모델을 사업적으로 통합하고자 하는 조직에게 매력 있는 모범 사례가 될 수 있다. 특히 강화학습 중 실시간 보상 데이터를 반영할 수 있는 시스템 설계는 다양한 파이프라인 간 일관성을 유지하고, 신뢰성과 재현성을 확보해야 하는 AI 운영 환경에서 큰 강점이 될 수 있다.

Seed-Thinking-v1.5는 바이트댄스 내 ‘Seed LLM Systems’ 팀 주도로 개발됐으며, 팀장인 우용휘(Yonghui Wu)와 AI 연구 선도자인 해빈 린(Haibin Lin)이 프로젝트의 핵심으로 활동 중이다. 향후에는 비검증형 작업에 대한 보상 모델 정밀화와 강화학습 효율 개선, 그리고 비공개 벤치마크의 공개 등이 예고되어 있어 AI 연구 생태계 전반에 미칠 영향력이 기대되고 있다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

0

추천

0

스크랩

Scrap

데일리 스탬프

0

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1