오랜 기간 AI의 중심을 차지해온 트랜스포머 모델이 기술적 한계에 부딪히면서 새로운 아키텍처를 찾는 노력이 본격화되고 있다.
18일(현지시간) 테크크런치에 따르면, 트랜스포머는 OpenAI의 비디오 생성 모델 소라(Sora)를 비롯해 앤트로픽(Anthropic)의 클로드(Claude), 구글의 제미니(Gemini), GPT-4o 등 텍스트 생성 모델의 핵심이 되어왔다. 그러나 이들은 특히 계산과 관련된 한계에 직면하고 있다.
트랜스포머는 일반 하드웨어로 방대한 양의 데이터를 처리하고 분석하는 데 있어 효율적이지 않다. 이로 인해 기업들은 트랜스포머의 요구를 충족하기 위해 인프라를 구축하고 확장하는 과정에서 전력 수요가 급격히 증가하고 있으며, 이는 지속 가능하지 않은 상황에 이르고 있다.
이번 달에 제안된 유망한 아키텍처는 테스트-타임 트레이닝(TTT)으로, 스탠포드, UC 샌디에이고, UC 버클리, 메타의 연구팀이 1년 반에 걸쳐 개발했다. 연구팀은 TTT 모델이 트랜스포머보다 더 많은 데이터를 처리할 수 있을 뿐만 아니라 계산 능력을 거의 사용하지 않는다고 주장한다.
트랜스포머의 숨겨진 상태
트랜스포머의 기본 구성 요소 중 하나는 '숨겨진 상태'로, 이는 본질적으로 긴 데이터 목록이다. 트랜스포머가 어떤 것을 처리할 때, 그것은 처리한 내용을 '기억'하기 위해 숨겨진 상태에 항목을 추가한다. 예를 들어, 모델이 책을 처리하는 경우 숨겨진 상태 값은 단어(또는 단어의 일부)의 표현과 같은 것이 된다.
스탠포드의 박사 후 연구원이자 TTT 연구에 기여한 유 선(Yu Sun)은 "트랜스포머를 지능적인 존재로 생각하면, 룩업 테이블인 숨겨진 상태는 트랜스포머의 뇌다"라며 "이 전문화된 뇌는 트랜스포머의 잘 알려진 능력인 맥락 내 학습을 가능하게 한다"고 말했다.
숨겨진 상태는 트랜스포머를 강력하게 만드는 부분이지만 동시에 발목을 잡기도 한다. 트랜스포머가 책에 대해 단 한 마디라도 '말'하려면, 모델은 전체 룩업 테이블을 스캔해야 하는데, 이는 책을 다시 읽는 것만큼이나 많은 계산이 필요하다.
이에 유 선과 그의 팀은 숨겨진 상태를 기계 학습 모델로 대체하는 아이디어를 제시했다. 이는 마치 AI를 중첩하는 것처럼 모델 안에 모델을 넣는 방식이다.
기술적인 부분이지만, 요점은 TTT 모델의 내부 기계 학습 모델이 트랜스포머의 룩업 테이블과 달리 추가 데이터를 처리하면서도 크기가 커지지 않는다는 것이다. 대신, 처리한 데이터를 가중치라는 대표 변수로 인코딩해 TTT 모델을 고성능으로 만든다. TTT 모델이 얼마나 많은 데이터를 처리하더라도 내부 모델의 크기는 변하지 않는다.
유 선은 미래의 TTT 모델이 단어에서 이미지, 오디오 녹음, 비디오까지 수십억 개의 데이터를 효율적으로 처리할 수 있을 것이라고 믿는다. 이는 오늘날의 모델이 가진 능력을 훨씬 뛰어넘는 것이다.
유 선은 "우리 시스템은 책에 대해 X개의 단어를 말할 수 있으며, 책을 X번 다시 읽는 계산 복잡성을 필요로 하지 않는다"고 말했다. "소라와 같은 트랜스포머 기반의 대형 비디오 모델은 룩업 테이블 '뇌'만 가지고 있기 때문에 10초의 비디오만 처리할 수 있다. 우리의 궁극적인 목표는 인간의 삶을 시각적으로 경험하는 것과 유사한 긴 비디오를 처리할 수 있는 시스템을 개발하는 것이다."
TTT 모델에 대한 회의론
그렇다면 TTT 모델이 결국 트랜스포머를 대체할 수 있을까? 가능성은 있지만 아직 확실히 말하기에는 이르다.
TTT 모델은 트랜스포머의 대체재가 될 수 없으며, 연구팀은 연구를 위해 두 개의 작은 모델만 개발했기 때문에 현재로서는 일부 대형 트랜스포머 구현과 비교하기 어렵다.
킹스 칼리지 런던 정보학부의 수석 강사인 마이크 쿡(Mike Cook)은 TTT 연구에 참여하지 않았지만, "데이터가 효율성 향상을 뒷받침한다면 이는 좋은 소식이지만, 기존 아키텍처보다 더 나은지 여부는 말할 수 없다"고 말했다. "내 학부 시절 교수님은 '컴퓨터 과학의 모든 문제를 해결하는 방법은 또 다른 추상화 계층을 추가하는 것'이라는 농담을 자주 하셨다. 신경망 안에 신경망을 추가하는 것도 그와 비슷한 느낌이다."
그럼에도 불구하고 트랜스포머 대체 기술에 대한 연구가 가속화되고 있다는 것은 돌파구의 필요성에 대한 인식이 커지고 있다는 것을 보여준다.
이번 주 AI 스타트업 미스트랄은 트랜스포머의 또 다른 대안인 상태 공간 모델(SSM)을 기반으로 한 모델인 코드스트랄 맘바(Codestral Mamba)를 출시했다. TTT 모델처럼 SSM도 트랜스포머보다 계산 효율이 높고 더 많은 데이터를 확장할 수 있는 것으로 보인다.
AI21 랩스(AI21 Labs)도 SSM을 탐구하고 있다. 카르테시아(Cartesia) 역시 SSM을 개발한 선구자로, 코드스트랄 맘바의 이름인 맘바와 맘바-2를 개발했다.
이러한 노력이 성공한다면 생성 AI는 지금보다 훨씬 더 접근 가능하고 널리 퍼질 수 있을 것이다. 이는 긍정적인 면도 있지만 부정적인 면도 있을 수 있다.
뉴스 속보를 실시간으로...토큰포스트 텔레그램 가기