인공지능(AI) 애플리케이션이 점점 더 복잡해지고 수요가 증가함에 따라 AI 인프라의 최적화가 필수적인 과제로 떠오르고 있다. 이를 인식한 펭귄 솔루션(Penguin Solutions)은 대규모 AI 시스템의 생산성과 확장성을 극대화할 수 있는 새로운 운영 모델을 제시했다.
펭귄 솔루션의 소프트웨어 및 제품 관리 부문 부사장 트레이 레이턴(Trey Layton)은 "고성능 컴퓨팅(HPC)과 IT의 세계가 결합하는 것이 AI 인프라의 미래"라며 "모듈형 인프라를 구축하면 대규모 복잡성을 효과적으로 처리할 수 있다"고 강조했다.
AI 환경 최적화의 핵심 요소로는 성능 향상과 비용 절감, 확장성 보장이 꼽힌다. 레이턴은 "AI 환경은 마치 F1 레이싱카와 같아 항상 최고 성능을 유지해야 한다"며 "이를 위해서는 HPC와 IT 기술의 유기적인 결합이 필수적"이라고 설명했다. 그는 또한 AI 인프라 내 GPU의 고장률이 범용 CPU 대비 33배나 높은 점을 지적하며, 장애 발생을 대비한 효과적인 운영 전략이 필요하다고 덧붙였다.
HPC 및 IT 기술이 결합됨에 따라 기존 IT 엔지니어들은 컨테이너 기술과 병렬 파일 시스템 등에 익숙해져야 하며, HPC 전문가들도 클라우드 기술을 이해할 필요가 있다고 레이턴은 설명했다. AI 인프라의 지속적인 발전을 위해서는 두 영역 간의 기술 융합이 필연적으로 요구된다는 것이다.
펭귄 솔루션은 이러한 과제를 해결하기 위해 시스템 인프라를 유연하게 설계하고, 확장성이 뛰어난 소프트웨어를 개발하는 데 집중하고 있다. 레이턴은 "AI 인프라 최적화는 단순한 기술 문제가 아니라, 조직의 장기적인 경쟁력을 결정짓는 핵심 요소"라고 강조했다.