NVIDIA помогает строить фабрики ИИ быстрее, чем когда-либо с NVIDIA DGX SuperPOD

В cavernous комнате в неизвестном месте в Японии развертывается цифровая революция. Ряды серверов стоят как гиганты, их гладкие корпуса соединены тысячами кабелей, гудящих с потенциалом.

До прошлого года этой обширной фабрики ИИ не существовало. Теперь она готова стать опорой видения компании SoftBank Corporation по инновациям на базе ИИ, видения, основанного на создании общества, сосуществующего с ИИ, с использованием современного инфраструктурного оборудования для достижения прогресса.

Для SoftBank каждый день, сэкономленный на развертывании, — это не просто техническое достижение. Это различные конкурентные преимущества. В стремительном мире суперкомпьютеров на базе ИИ скорость имеет решающее значение.

SoftBank, один из ведущих технологических гигантов Японии, сотрудничает с NVIDIA, чтобы воплотить эту систему в жизнь. Вместе они построили два самых современных вычислительных кластера в мире — кластера, готовые обрабатывать огромные объемы данных с рекордной скоростью и ускорять разработку больших языковых моделей, или LLM, создаваемых дочерней компанией SoftBank SB Intuitions.

Однако создание фабрики ИИ — это не просто подключение аппаратного обеспечения. Это тщательно продуманная работа, где каждый кабель, соединение и компонент должны идеально совпадать.

Здесь на помощь приходят специалисты инфраструктуры NVIDIA (NVIS). NVIS — это команда экспертов, которая ускоряет развертывание ИИ с точностью и эффективностью. Используя проверенные методики, NVIS позволяет клиентам преобразовывать «голое» оборудование в готовую к производству ИИ-инфраструктуру в рекордные сроки.

Скорость через сотрудничество

Когда SoftBank запросил ускоренный график, NVIDIA была готова помочь превратить амбициозную цель в реальность. Несмотря на ограниченный опыт SoftBank с крупномасштабными платформами ИИ, ее гибкость, в сочетании с экспертизой и эталонной архитектурой NVIDIA, обеспечила успех.

Развертывание NVIDIA DGX SuperPOD SoftBank было тщательно организовано. Каждый шаг был привязан к вехам и срокам, проект был разделен на два кластера, чтобы помочь управлять темпом.

Когда SoftBank запросил завершение проекта на 10 дней раньше, чем первоначально планировалось, NVIS пересмотрела свои планы, чтобы соответствовать новому сроку. Этот тип гибкого реагирования требовал тщательного управления ресурсами, точной логистики и ежедневной координации.

Цифры рассказывают свою историю. Тысячи кабелей и сотни сетевых коммутаторов соединили 510 систем NVIDIA DGX B200, мощных вычислительных узлов в сердце DGX SuperPOD. Оба кластера продемонстрировали исключительную производительность с точностью FP64: один достиг 89,78 гигафлопс, а другой 91,94 гигафлопс, показатель их способности обрабатывать огромные объемы данных в секунду.

«Точность и скорость развертывания 510 систем NVIDIA DGX на этих кластерах DGX SuperPOD подчеркивают, что возможно, когда экспертиза и сотрудничество объединяются», — сказал Хиронобу Танба, вице-президент по стратегическому направлению данных и глава технологического подразделения SoftBank. «Эта инфраструктура не просто быстрая — она устанавливает новый стандарт разработки ИИ в Японии.»

С крупнейшей ИИ-инфраструктурой в Японии, SoftBank теперь занимает сильные позиции в качестве лидера в ИИ-экосистеме страны.

Преодоление трудностей с точностью и гибкостью

Конечно, ни один проект такого масштаба не обходится без трудностей. В случае SoftBank Corp. ограниченная доступность электроэнергии потребовала от NVIS проведения некоторых тестов в нерабочие часы. Когда возникли проблемы с подключением из-за сетевых компонентов, команда нашла креативное решение, переработав детали из второго кластера, чтобы сохранить первый в графике.

Команды NVIDIA тщательно отслеживали и разрешали каждую проблему в реальном времени, обеспечивая соблюдение графика развертывания.

«Это было не просто работой,» — сказал один из членов команды. «Скорее, это было похоже на команду пит-стопа Формулы-1, работающую синхронно, каждый зная, что каждый день, который мы сэкономили, означал больше ценности для SoftBank.»

Лидирование в будущем ИИ Японии

Развертывание SoftBank — это больше, чем техническое достижение. Это шаг к созданию инфраструктуры следующего поколения, критически важной для ускорения внутренних проектов, таких как разработка LLM, и обеспечения более широкой экосистемы разработчиков генеративного ИИ по всей Японии.

Когда платформа начнет работать, она также будет обслуживать внешние компании, способствуя развитию внутренней ИИ-способности Японии.

«Фабрика ИИ SoftBank Corp. — это скачок вперед для Японии, ускоряющий инновации и позволяющий экосистеме ИИ страны процветать,» — сказал Танба.

Методика NVIS: Скорость, точность и сотрудничество

Развертывание SoftBank демонстрирует методику NVIS, оптимизированный подход к управлению крупномасштабными проектами ИИ быстро и точно. С методикой NVIS NVIDIA может устанавливать тысячи графических процессоров ежедневно, превращая огромные ИИ-центры в эффективные ИИ-фабрики.

В сердце DGX SuperPOD SoftBank находится платформа сетевого взаимодействия NVIDIA Quantum-2 InfiniBand, разработанная для обработки огромных объемов данных без узких мест. Эта сетевой технологии, в сочетании с возможностями цифровых двойников NVIDIA Air, виртуальной реплики дата-центра, позволяющей проводить предварительные тесты и валидацию, гарантировала, что проект проходил гладко от планирования до исполнения.

Методика генерального директора: Почему скорость важна

Для компаний, которые вводят технологии NVIDIA, скорость — это не просто технический аспект, это стратегия. Чем быстрее новая фабрика ИИ начнет работать, тем быстрее она сможет получать инсайты, оптимизировать операции и запускать новые продукты на базе ИИ.

Внутренний анализ NVIDIA показывает, что если время установки будет сокращено с обычных 6+ месяцев до всего трех недель, клиенты могут избежать до 150 миллионов долларов затрат, связанных с длительными простоями развертывания крупных систем ИИ. Эта оценка основана на операционных затратах крупномасштабного развертывания, которые NVIDIA рассчитывает на уровне примерно 1 миллиона долларов в день для дата-центра с 1000 серверов и 8000 графическими процессорами.

Более быстрое развертывание также позволяет клиентам быстрее генерировать доход, выполняя потоки работы, такие как LLM, без задержек. Каждый дополнительный день работы, освобожденный NVIS, означает избежание затрат в размере 1 миллиона долларов и получение возможностей дохода, которые в противном случае были бы упущены из-за простоя.

Строить быстрее с DGX SuperPOD

Ускорьте развертывание вашего DGX SuperPOD с помощью специалистов инфраструктуры NVIDIA (NVIS) и сократите время до первой тренировки до доли нормы. Для получения дополнительной информации см. Службы ИИ-инфраструктуры | NVIDIA NVIS.

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *