맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

라벨 없이도 학습 가능? 데이터브릭스, 'AI 병목' 해결할 TAO 공개

작성자 이미지
최윤서 기자

2025.03.28 (금) 09:00

1
1

데이터브릭스가 라벨 없이도 고성능 언어모델 튜닝이 가능한 TAO 방식을 공개했다. 기존보다 더 높은 정확도와 빠른 개발속도로 기업용 AI 개발 판도에 변화를 예고했다.

라벨 없이도 학습 가능? 데이터브릭스, 'AI 병목' 해결할 TAO 공개 / TokenPost Ai

AI 모델의 성능은 결국 어떤 데이터를 학습하고 미세 조정하느냐에 달려 있다. 특히 기업 환경을 겨냥한 대규모 언어모델(LLM)의 경우, 양질의 라벨링 데이터를 얼마나 확보하느냐가 경쟁력을 좌우한다. 하지만 현실적으로 라벨을 달기 위한 시간과 비용, 조직 간 조율은 AI 도입의 *보이지 않는 병목*으로 작용해 왔다. 이런 문제 해결을 위해 빅데이터 및 AI 플랫폼 기업인 데이터브릭스(Databricks)가 새로운 해법을 제시했다.

데이터브릭스는 최근 라벨이 없이도 고성능 모델 튜닝을 가능케 하는 ‘TAO(Test-time Adaptive Optimization)’ 접근법을 공개했다. 해당 기술은 기존의 지도학습 방식과 달리, 기업이 보유하던 입력 데이터만으로 원하는 성능을 구현할 수 있게 한다. TAO는 데이터브릭스가 인수한 모자이크ML(MosaicML)의 연구팀이 개발했으며, 데이터를 라벨링하지 않고도 오히려 기존 방식보다 더 높은 정확도를 달성한 사례로 주목받고 있다.

데이터브릭스의 강화학습 리더 브랜든 추이(Brandon Cui) 박사는 “우수한 라벨링 데이터는 구하기 어렵고, 잘못된 라벨은 AI 결과물의 품질을 심각하게 떨어뜨린다”며, TAO는 라벨 데이터에 의존했던 AI 개발 구조를 근본적으로 바꾸는 계기가 될 것이라고 밝혔다.

TAO는 네 가지 주요 기술로 구성돼 있다. 첫째, 다양한 응답을 생성하는 탐색 기반 응답 생성으로 시작한다. 둘째, 기업 전용 채점 모델인 데이터브릭스 리워드 모델(DBRM)을 구축해 생성된 결과들을 정답률 중심으로 평가한다. 셋째, 이 정보를 바탕으로 강화학습을 통해 모델을 최적화한다. 마지막으로 실 사용자가 입력한 데이터를 자동 반영해 성능을 지속적으로 개선시키는 *자기학습 루프*를 형성한다.

TAO의 핵심은 라벨이 없는 상태에서 이 같은 일련의 과정을 통해 모델을 정교하게 맞춰나간다는 데 있다. 특히 기존 대비 추가적인 학습 연산량은 있지만 추론 시점에는 더 이상의 비용이 들지 않는 ‘고정형 모델’로 유지되며, 실제 서비스 환경에서 가격 대비 성능(PQR)이 매우 우수하다는 것이 데이터브릭스 측의 설명이다.

성능지표에서도 기존 방식을 압도했다. 금융 문서 질의응답 벤치마크인 ‘FinanceBench’에서는 LLaMA 3.1 8B 모델의 성능이 24.7포인트, LLaMA 3.3 70B는 13.4포인트 향상됐다. SQL 생성 분야에선 각각 19.1포인트, 8.7포인트 상승했다. 이는 오픈AI의 GPT-4o나 딥시크의 o3-mini처럼 고가에 운영되는 모델과 비교할 경쟁력을 확보했다는 의미다. 해당 모델들은 생산환경에서 10~20배의 비용이 소요되기에, TAO 방식이 기업 입장에선 합리적인 대안이 될 수 있다.

무엇보다도 TAO의 진정한 가치는 *개발 속도의 단축*에 있다. 기존 모델 개발은 도메인 전문가의 라벨링 참여를 전제로 했기 때문에 부서 간 조율과 수개월의 기간을 요구했다. 반면 TAO는 샘플 입력만으로 미세조정이 가능해 프로토타입 개발부터 서비스 적용까지의 속도를 극적으로 줄인다. 법률 자문, 의료 진단, 제조 품질 분석처럼 도메인 특화 데이터가 존재하지만 라벨링은 까다로운 영역에 특히 강점을 보인다.

현재 TAO는 데이터브릭스 플랫폼을 통해 프라이빗 프리뷰(시험 운영) 형태로 제공되고 있다. 고품질 라벨링 없이도 AI의 도입 효과를 극대화할 수 있는 방안이자, 기업들이 빠르게 AI를 전략화하는 데 필요한 *결정적 촉진제*로 평가받는 이유다. 향후 TAO와 같은 기술의 확산 여부가 기업 AI 경쟁력의 격차를 좌우할 전망이다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

주요 기사

서클, JP모건·씨티와 손잡고 IPO 추진…USDC 시총 87조 돌파

댓글

1

추천

1

스크랩

Scrap

데일리 스탬프

0

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 1

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

CEDA

2025.03.28 18:01:20

좋은기사 감사해요

답글달기

0

0
0

이전 답글 더보기

1