AI Train은 초거대 AI 분야에서 단기간 집중적으로 대용량, 고사양의 GPU 공급이 필요한 학습 영역에 특화된 서비스다.
AI Train은 kt cloud가 지난 ‘22년 선보인 HAC(Hyperscale AI Computing)과 동일하게 대규모 GPU 노드 클러스터링과 동적할당 제어 기능을 지원한다.
AI Train은 컨테이너 기반으로 여러 대의 GPU 노드(node)에 컨테이너 클러스터를 구성할 수 있고, 손쉬운 접속, 네트워킹과 대규모 작업에 용이하다. 실제 GPU를 사용한 시간만 요금이 부과되고, GPU가 유휴 상태인 경우 컨테이너를 자동 반납하는 구조로 비용 효율성을 높였다.
특히 AI Train은 엔비디아 최신 인프라인 H100을 제공하고, A100, H100 등도 함께 사용할 수 있어 호환성과 범용성을 갖췄다.
kt cloud는 리벨리온과 협력해 공공 및 기업 고객 대상의 추론 전용 NPU(Neural Processing Unit, 신경망처리장치) 상품인 ‘AI SERV NPU’를 오는 6월 선보일 예정이다.
기존 GPU 기반 추론용 인프라 대비 가성비를 개선하고, 자동화 유지보수 기능 및 스케일링을 가능하게 한 점이 특징이다.
kt cloud는 AI SERV NPU를 통해 올해 진행 중인 AI 디지털교과서 사업, NIPA(정보통신산업진흥원) 주관의 고성능 컴퓨팅 사업, AI 바우처 사업 등에 적극 대응할 예정이다.
한편 kt cloud는 작년 10월, 슬라이싱 기술을 활용한 엔비디아 기반 AI 추론 전용 서비스 ‘AI SERV’를 선보이며 고객 활용도를 높여왔다.
반려동물 AI 서비스 기업인 아지랑랑이랑 관계자는 “초기 GPU 투자 진행을 고민하다 kt cloud의 AI SERV를 접하게 됐고, 자사의 연구 환경에 맞춰 활용하면서 기존 GPU 사용 장수를 줄이고, AI 연구 비용을 약 70% 이상 절감했다”며 높은 만족감을 전했다.
kt cloud 남충범 본부장은 “kt cloud는 지속적으로 확대되고 있는 시장 내 인프라 수요에 적극 대응하고, 차별화된 AI 인프라 서비스를 제공하고자 AI Train 서비스를 새롭게 선보였다”며 “다양한 파트너들과 협업을 이어가며 AI 클라우드 분야를 선도하고, 고객 사용성에 맞춘 AI 인프라 환경을 구현해 나갈 것”이라고 말했다.