Поставки ускоренных вычислений NVIDIA для корпоративных AI-задач с Rafay

Мировое распространение генеративного ИИ стало причиной огромного спроса на ускоренное вычислительное оборудование по всему миру. В предприятиях это ускорило развертывание ускоренной частной облачной инфраструктуры. На региональном уровне этот спрос на вычислительную инфраструктуру привел к появлению новой категории облачных провайдеров, которые предлагают мощность ускоренных вычислений (GPU) для ИИ рабочих нагрузок, также известных как провайдеры облачных GPU или ИИ облака. Это включает в себя облачных провайдеров, которые могут соответствовать требованиям партнеров NVIDIA Cloud (NCP), установленным NVIDIA.

Эти облачные провайдеры предлагают как аппаратное обеспечение с ускорением GPU, так и более высокоуровневые ИИ услуги, специально адаптированные к их региональной клиентской базе. Для частных облаков предприятий и облачных провайдеров задача ясна: сделать инфраструктуру ИИ более доступной, предоставляя решения, созданные для удовлетворения конкретных нужд предприятий и регионов, которые они обслуживают.

В этом посте мы обсуждаем ключевые технические требования и проблемы, связанные с созданием облаков GPU самообслуживания, и то, как модель платформы как сервиса (PaaS) партнера NVIDIA Rafay решает эти проблемы.

Необходимость в инфраструктуре ИИ самообслуживания

Разработчики и ученые-данные сегодня требуют бесперебойного самообслуживания и доступа по запросу к вычислительным ресурсам. Эти создатели не могут позволить себе пользоваться традиционными системами на основе заявок, которые вносят часы или даже дни задержек в их циклы разработки.

Для облачных провайдеров предоставление рабочих процессов самообслуживания, которые позволяют мгновенное развертывание среды, важно не только для повышения удовлетворенности пользователей, но и для оптимизации использования ценной инфраструктуры GPU. Это делает реализацию модели PaaS для среды, работающей на GPU, не просто полезной, но и необходимой. NVIDIA AI Enterprise дополнительно ускоряет рабочие нагрузки ИИ, предоставляя заранее созданные, безопасные микросервисы для развертывания и масштабирования моделей в средах самообслуживания.

Проблема создания решений GPU PaaS

Хотя создание демонстрационного проекта GPU PaaS с использованием инструментов с открытым кодом может показаться простым, разработка платформы, готовой к производству, представляет собой значительные вызовы. Этот процесс требует непрерывной разработки функций, постоянной поддержки и обслуживания, регулярного выпуска обновлений безопасности и наличия команд, обученных управлению инструментами инфраструктуры с открытым кодом.

Здесь программное обеспечение инфраструктуры (ISVs), такое как Rafay, обеспечивает важную ценность. Они помогают частным облакам предприятий и облачным провайдерам ускорить инновации для их конечных клиентов, предоставляя готовую к развертыванию PaaS для сред, работающих на GPU.

Ускорение принятия ИИ с помощью платформы самообслуживания

Для создания и предоставления опыта частного облака для разработчиков и ученых-данных нужны три ключевых элемента, которые описаны ниже.

Ускоренная вычислительная инфраструктура

Создателям необходим доступ к ускоренной вычислительной инфраструктуре NVIDIA. Референсная архитектура NVIDIA для облаков ИИ предоставляет рекомендации по оптимальному развертыванию и конфигурации ускоренной вычислительной инфраструктуры NVIDIA.

Слой PaaS

Слой PaaS, который предоставляет возможности для доставки самообслуживания потребления ускоренной вычислительной инфраструктуры и ИИ приложений. Платформа Rafay предоставляет возможности PaaS, которые поддерживают ИИ-опыт для разработчиков и ученых-данных с контролем уровня предприятия. Платформа использует возможности управления инвентаризацией, многопользовательности кластеров, самообслуживания и ряд возможностей управления и жизненного цикла, сокращая время выхода на рынок.

Модели и фреймворки ИИ

Создатели требуют доступа к последним моделям и фреймворкам ИИ, как для создания генеративных ИИ приложений, так и для обучения и уточнения моделей. С помощью NVIDIA AI Enterprise пользователи получают программную платформу, созданную для облака, которая упрощает разработку и развертывание ИИ решений профессионального уровня. С широким принятием от экосистемы партнеров, NVIDIA AI Enterprise позволяет организациям создавать различные ИИ модели для множества различных приложений, от компьютерного зрения и открытия лекарств до виртуальных ассистентов, цифровых агентов и многого другого.

NVIDIA AI Enterprise включает NVIDIA NIM, который представляет собой набор простых в использовании микросервисов для оптимизации производительности моделей с безопасностью, поддержкой и стабильностью уровня предприятия, обеспечивая плавный переход от прототипов к производству для предприятий, которые ведут свой бизнес на основе ИИ.

Платформа Rafay предоставляет уровень оркестрации и управления средой, что упрощает предприятиям процесс операционализации предложений NVIDIA AI Enterprise по всей их инфраструктуре.

Платформа Rafay

Платформа Rafay позволяет клиентам предоставлять платформу PaaS для инфраструктуры ИИ для клиентов с контролем уровня предприятия. Разработанная для ускоренных вычислений NVIDIA, Rafay предоставляет платформу для предприятий и облачных провайдеров, чтобы предложить платформу самообслуживания для разработки ИИ и обучения моделей. Как показано на Рисунке 1, платформа поддерживает NVIDIA AI Enterprise и широкий спектр ИИ моделей и фреймворков, а также экосистему сторонних ИИ приложений.

Диаграмма, изображающая архитектуру Rafay для платформы самообслуживания для ИИ рабочих нагрузок.
Рисунок 1. Архитектура Rafay для платформы самообслуживания для ИИ рабочих нагрузок.

Платформа Rafay обеспечивает наибольшую отдачу от вложенных капиталовложений благодаря полному стеку аппаратного и программного обеспечения, который предоставляет облачный опыт, дополненный ИИ приложениями от NVIDIA и других партнеров экосистемы.

Региональные облачные провайдеры, такие как Lintasarta в Индонезии, планируют использовать платформу Rafay, чтобы предоставить возможности PaaS для своих конечных пользователей для выполнения, уточнения и обучения рабочих нагрузок ИИ.

“Мы в восторге от того, что смогли сотрудничать с NVIDIA и Rafay в оценке и определении требований к слою PaaS для потребления ИИ приложений,” сказал Викарам Синха, президент, директор и CEO Indosat Ooredoo Hutchinson, материнской компании Lintasarta. “В рамках группы Indosat, Lintasarta играет ключевую роль не только в прокладывании пути для того, чтобы мы стали ИИ-ориентированной высокотехнологичной компанией, но также занимает лидирующую позицию в отрасли, помогая направлять ИИ-революцию в правильном направлении.”

Интеграция NVIDIA AI Enterprise

С Rafay предприятия и облачные провайдеры могут предлагать инструменты для создания ИИ агентов, такие как NVIDIA NIM, NVIDIA NeMo, NVIDIA Blueprints — все это часть платформы NVIDIA AI Enterprise для развертываний, готовых к производству. Платформа Rafay также упрощает облачным провайдерам предоставление дополнительных ИИ услуг на основе сторонних приложений через уровень управления средой.

Физические серверы для готовых ИИ облаков

Облачные провайдеры и предприятия могут использовать платформу Rafay для оркестрации своей инфраструктуры полностью автоматическим образом и предлагать вычислительные услуги и генеративный ИИ, ИИ инструменты и приложения в режиме самообслуживания своим конечным клиентам. Платформа Rafay может быть использована для развертывания следующих возможностей:

  • Операционная система
  • Уровень виртуализации
  • Kubernetes или SLURM
  • Контроль многопользовательности
  • Возможности управления инвентаризацией и управления
  • SSO, RBAC, выставление счетов, мониторинг, видимость, управление политиками и другие возможности управления
  • ИИ приложения
  • Платформа самообслуживания

Облачные провайдеры и предприятия могут выбирать из вышеуказанного списка возможностей в зависимости от своих требований.

Рабочие нагрузки ИИ в гибридных средах

Rafay позволяет самообслуживание ускоренного вычислительного оборудования в центрах обработки данных и публичных облаках, таких как AWS, Azure или Google Cloud. С Rafay облачные провайдеры и предприятия могут увеличивать свои потребности в GPU путем бесшовного объединения ресурсов из публичных облачный сред с их локальной инфраструктурой, чтобы предоставить расширенные вычислительные возможности своей клиентской базе.

Функции платформы уровня предприятия для управления инфраструктурой GPU

Rafay предлагает клиентам широкий набор функций для обеспечения безопасной, многоарендной платформы уровня предприятия. Эти возможности включают:

  • Автоматизация и управление SKU: Клиенты могут программно определять SKU, состоящие из GPU, CPU, ИИ приложений или их комбинации.
  • Порталы самообслуживания для разработчиков и ученых-данных: Клиенты могут предлагать порталы самообслуживания для разработчиков и ученых-данных для потребления вычислений и ИИ приложений по запросу.
  • Управление пользователями уровня предприятия: Клиенты могут предоставлять поддержку единого входа для предприятий (SSO) и контроля доступа на основе ролей (RBAC), чтобы обеспечить безопасное потребление, а также глубокиеAudit trails, которые могут быть экспортированы в корпоративные SIEM.
  • Администрирование уровня предприятия: Клиенты могут продавать блоки вычислений предприятиям и уполномочить их управлять своиз блоком вычислений через порты конфигурационного управления и панели управления, ориентированные на конкретные роли.
  • Управление жизненным циклом кластера Kubernetes: Клиенты могут легко управлять флотом кластеров Kubernetes в своих центрах обработки данных или в публичных облачных средах.
  • Управление платформой Kubernetes: Клиенты могут предоставлять безопасные, многоарендные среды, которые соответствуют требованиям безопасности предприятий, используя такие функции, как виртуальные кластеры, сегментация сети, RBAC, безопасный удаленный доступ, принудительное выполнение политик, контроль квот, неизменяемые аудиты и многое другое.
  • Данные об использовании и расчете: Клиенты получают готовый доступ к данным расчета, которые легко интегрируются в выставление счетов для постоплатных случаев.
  • Автоматизация нижнего уровня (уровень сети): Клиенты могут поддерживать пользователей, которым необходимо много GPU по запросу, программно настраивая основный уровень сети (например, коммутаторы) для обеспечения многопользовательства на уровне оборудования и достижения максимальной производительности.

Заключение

Требования рабочих нагрузок ИИ требуют нового подхода к развертыванию и управлению инфраструктурой. Платформа Rafay решает эту необходимость, предоставляя предприятиям и облачным провайдерам решение PaaS, готовое к производству. Сочетая ускоренную вычислительную инфраструктуру NVIDIA и программное обеспечение ИИ с возможностями платформы Rafay, организации могут значительно сократить время выхода на рынок для ИИ инициатив, сохраняя при этом безопасность, контроль и масштабируемость, которые необходимы их клиентам.

Чтобы начать трансформацию вашей ИИ инфраструктуры, ознакомьтесь с Референсной архитектурой Rafay. Узнайте больше о NVIDIA AI Enterprise.

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *