INFRA

GPU 자원 운용 기술 기반, 원 스탑 인공지능 솔루션
TEN AI Pub

AI Pub은 AI 개발과 운영 업무를 효율화하고, AI 모델러와 IT 엔지니어, 관리자가 하나의 통합 플랫폼에서 협업할 수 있도록 지원하는 솔루션입니다. GPU 자원 분할 및 통합, 자동화된 워크로드 스케줄링 등 다양한 기능을 통해 신규 AI 인프라 도입이나 기존 인프라의 효율적 운영을 원하는 고객에게 최적화된 인프라 제안과 완전 관리형 서비스를 제공합니다.

주요기능

고급 GPU 관리

  • AI 학습을 위한 다수의 연구원이 나누어 쓸 수 있도록 자원할당, 모니터링, 중앙관리, 멀티노드 학습지원 기능 제공
  • AI 운영을 위한 GPU 1개를 100 분할하여 최소 단위로 AI 서비스 생성, 모니터링, 버전관리 제공

사용자 친화적 AI 워크로드 관리

  • 사용자 친화적 K8s 기반 개발 및 분산 학습 생성
  • 학습을 위한 환경 세팅 등 반복적인 작업을 UI로 간소화
  • 각 워크로드의 상세 정보 제공 및 UI를 통해 옵스 버전관리 및 롤백

최적의 AI 인프라 제안

  • 자체 투자한 레퍼런스 아키턱처를 기반으로 고객 학습 모델에 맞춘 최적의 AI 인프라 제안
  • 다양한 종류의 테스트를 통한 인프라 제안
  • 서비스 별로 응답 시간에 알맞은 블록 수를 선정하여 최소의 자원으로 최대의 효율성 예측

구축효과

배포 시간 감소 및
완전 관리형 서비스
- 수개월 이상 소요되었던 환경 세팅에서 AI 배포까지의 시간 단축(1Day)
- 쿠버네티스에 친숙하지 않아도 AI를 개발할 수 있는 환경 제공
- 클라우드 네이티브 방식의 서비스 운영 기능 제공 및 Web UI를 통한 손쉬운 서비스 및 인프라의 운영 상태 모니터링
효율적인 AI 개발 및
운영 환경 마련
- 값 비싼 GPU 자원을 최고의 성능으로 사용할 수 있는 AI 전용 인프라 구성
- AI 학습단계에는 최고의 가동률로 인프라를 사용하며, 운영단계에는 최소로 인프라를 사용
- 한정된 AI 인프라를 여러 AI 개발자들이 효율적으로 사용
비용 감소
- 고객이 필요로 하는 학습 모델에 맞춘 최적의 AI 인프라 제안으로 과다 예산 낭비 방지
- AI 인프라 운영 비용의 최대 90% 비용 절감

AI 기술 스택 내의 Coaster와 AI Pub의 위치