엔비디아(NVDA)가 자사 AI 인프라 플랫폼의 핵심 소프트웨어였던 '런:AI(Run:ai)'의 GPU 스케줄러인 'KAI 스케줄러'를 오픈소스로 공개했다. 이 조치는 오픈소스 커뮤니티 활성화와 AI 연구 현장의 효율성 제고를 위한 전략적 의도가 담긴 것으로 분석된다.
KAI 스케줄러는 쿠버네티스(Kubernetes) 기반의 GPU 스케줄링 솔루션으로, 이번 공개를 통해 아파치(Apache) 2.0 라이선스 하에 누구나 활용할 수 있게 됐다. 이 스케줄러는 기존 Run:ai 플랫폼 내에서 개발된 기술로, 앞으로도 엔비디아의 Run:ai 제품군에 통합 형태로 제공되면서 동시에 커뮤니티 차원의 개발도 지속될 전망이다.
엔비디아는 이번 공개를 계기로 커뮤니티 기여와 피드백을 장려함으로써, GPU 클라우드 관리 분야에서의 *협업*과 *혁신*을 더욱 확대할 것이라고 설명했다. 이에 대해 엔비디아 소속 연구원 로넨 다르(Ronen Dar)와 에킨 카라불루트(Ekin Karabulut)는 블로그를 통해 KAI 스케줄러의 기술적 구조를 소개하며, IT 및 머신러닝 팀들이 얻을 수 있는 이점을 강조했다.
AI 워크로드는 GPU 사용량이 급격하게 변동하는 특성을 지닌다. 일부 작업은 단일 GPU만으로 가능하지만, 분산 학습이나 동시다발 실험을 진행할 경우 여러 GPU를 동시에 필요로 한다. KAI 스케줄러는 워크로드의 실시간 수요 변화에 따라 할당량과 리소스 한도를 자동으로 조정해 GPU 자원을 효율적으로 분배한다. 이는 기존 전통적 스케줄러들이 간과했던 부분으로, 관리자 개입 없이도 안정적인 할당이 가능하다.
ML 엔지니어 입장에서는 빠른 연산 자원 접근이 중요한 변수인데, 이 스케줄러는 일괄 작업 제출 후 자원이 확보되는 즉시 우선순위와 형평성을 고려한 실행을 보장한다. 이를 위해 갱 스케줄링(gang scheduling), GPU 공유와 계층형 큐 시스템을 통합해 대기 시간을 줄이는 방식이 적용됐다.
KAI는 또한 연산 자원의 활용도를 극대화하기 위한 '빈패킹(bin-packing)'과 '스프레딩(spreading)' 알고리즘을 탑재하고 있다. 빈패킹은 작은 작업들을 유휴 GPU 및 CPU에 효율적으로 분산시키고, 스프레딩은 노드 간 부하 분산을 통해 전반적 자원 가용성을 높이는 방식이다.
AI 클러스터에서 종종 발생하는 자원 독점 문제도 KAI 스케줄러의 주요 해결 대상이다. 일부 연구자들은 하루 초반에 필요 이상 GPU를 확보해 두고, 실제 사용하지 않아도 점유한 채 방치하는 경우가 많다. 이러한 비효율을 막기 위해 KAI는 사전 할당 보장은 물론, 유휴 리소스를 자동 감지해 즉시 다른 작업에 재배분할 수 있도록 설계됐다.
또한 다양한 AI 프레임워크와의 통합 문제도 해결했다. 보통은 Kubeflow, Ray, Argo 등 환경과 연계하는 데 복잡한 수작업이 필요하지만, KAI는 자동 연결 기능을 갖춘 ‘파드그루퍼(Podgrouper)’를 통해 이러한 설정을 간소화하고, 프로토타이핑 속도를 향상시킨다.
이번 오픈소스화는 엔비디아가 AI 생태계에서 기술적 주도권을 확보함과 동시에 소프트웨어 분야에서도 커뮤니티 중심의 지속 가능한 개발 모델을 구축해 나가려는 강한 의지를 보여주는 조치로 평가된다. AI의 급격한 확산 속에서 GPU 관리 소프트웨어는 그 어느 때보다 중요한 전략 자산으로 부상하고 있다.