기업들이 인공지능(AI) 모델을 운영하는 데 있어 가장 큰 부담 중 하나는 ‘추론(Inference) 비용’이다. 이를 해결하기 위해 구글(GOOGL)이 자사의 서버리스 컴퓨팅 플랫폼 ‘클라우드 런(Cloud Run)’을 활용한 새로운 GPU 액세스 모델을 선보였다.
클라우드 런은 컨테이너 기반 서버리스 플랫폼으로, 사용자가 코드 실행에 필요한 컴퓨팅 자원을 유동적으로 활용할 수 있도록 지원한다. 서버리스 환경에서는 필요할 때만 비용이 청구되기 때문에, 연산 성능을 희생하지 않으면서도 높은 비용 효율성을 제공한다.
구글 클라우드의 유농 샤오(Yunong Xiao) 엔지니어링 디렉터는 "추론을 수행하려면 GPU, TPU 같은 고성능 하드웨어가 반드시 필요하지만, 이러한 자원의 공급이 제한적이고 비용이 높다는 것이 문제"라며, "클라우드 런을 통해 GPU를 온디맨드 방식으로 제공함으로써 이 같은 어려움을 해결할 것"이라고 강조했다.
클라우드 런은 구글의 대규모 컴퓨팅 인프라인 ‘Borg’ 위에서 실행되며, 쿠버네티스와 유사한 이동성 높은 컨테이너 환경을 제공한다. 스테렌 지안니니(Steren Giannini) 구글 클라우드 런 제품 책임자는 "클라우드 런에 배포된 컨테이너는 특정 플랫폼에 종속되지 않기 때문에, 필요에 따라 로컬 환경이나 다른 클라우드에서도 실행할 수 있다"고 설명했다.
특히 AI 워크로드에서는 실시간 수요에 따라 GPU 인스턴스를 자동 확장하는 기능이 강점으로 작용한다. 실제 사례로 글로벌 화장품 기업 로레알(L’Oreal)이 자사 웹사이트 챗봇을 클라우드 런에서 운영함으로써, 트래픽이 적은 시간대에는 리소스를 절감하고 피크 타임에는 원활한 응답을 제공할 수 있었다.
향후 구글은 클라우드 런을 더욱 빠르고 효율적으로 최적화할 계획이다. 지안니니 책임자는 "현재 GPU 기반 서버리스 환경에서는 몇 초의 지연이 발생하는데, 우리는 밀리초 단위 응답 속도를 목표로 개선을 진행 중"이라며, "앞으로 더 성능이 뛰어난 GPU를 추가 지원할 계획"이라고 밝혔다.
클라우드 런이 제공하는 온디맨드 GPU 접근 방식은 기업들이 AI 모델을 보다 실용적으로 운영할 수 있도록 돕는 중요한 변화로 평가된다. 구글은 오는 4월 개최되는 ‘구글 클라우드 넥스트(Google Cloud Next)’에서 클라우드 런의 추가 업데이트를 공개할 예정이다.