Google, AWS и Azure больше не позволяют поставщикам ломать свои AI-серверы
by Sam Prakash Bheri, 17 апреля 2025 года
Слишком длинно; не читал
Облачные компании не могут позволить себе относиться к аппаратному обеспечению AI как к традиционной инфраструктуре. Новая игра — это проактивная, основанная на AI диагностика — проводимая внутри компании, в масштабах и в реальном времени.
С недавним бумом в AI объем рабочих нагрузок AI и серверов, поддерживающих AI, развернутых в облачных дата-центрах, вырос экспоненциально. Этот рост охватывает множество регионов мира в различных дата-центрах. Чтобы поддержать этот рост и обеспечить лидерство над различными облачными конкурентами (такими как Azure, AWS и GCP), компании начали создавать флот специализированных высокопроизводительных вычислительных серверов. Рабочие нагрузки AI, которые выполняют огромное количество обработки данных, обучения и вывода моделей данных, требуют особого вида аппаратного обеспечения, отличного от традиционных серверов общего назначения. Поэтому все облачные провайдеры активно инвестируют в серверы на основе GPU, TPU и NPU, которые эффективно размещают рабочие нагрузки AI. Большинство из этих серверов используются по модели «Купи», и облачные провайдеры зависят от «Производителей другого оборудования» (OEM) для диагностики и обслуживания оборудования. Эта зависимость вызвала много проблем для облачных провайдеров, так как сроки ремонта неясны и дороги, что влияет на доступность флота. Поэтому облачные провайдеры переходят от простой модели «Купи» к «Создай» (обслуживание серверов, разработанных OEM, к внутреннему обслуживанию серверов). Этот переход в бизнес-модели привел к изменению в модели обслуживания в дата-центрах с зависимой от OEM на самостоятельную поддержку. Чтобы поддержать эту самодостаточность и рост флота аппаратного обеспечения AI, каждый облачный провайдер стремится сократить расходы на обслуживание и создать быстрые, удаленные, точные, автоматизированные и экономичные диагностики аппаратного обеспечения.
Почему диагностика аппаратного обеспечения важна для AI
Рабочие нагрузки AI уникальны по своей природе и требуют параллельной обработки и вычислительной мощности, которая надежна и стабильна. Однако компоненты аппаратного обеспечения часто выходят из строя, иногда без предупреждения. Один ухудшившийся GPU или сбой памяти могут сорвать часы обучения или сбросить конечные точки реального времени. Некоторые распространенные проблемы, связанные с аппаратным обеспечением, влияющие на рабочие нагрузки AI:
- Ошибки памяти GPU (отказы ECC, проблемы с лотком)
- Тепловое ограничение GPU
- Отказы InfiniBand GPU
- Ошибки CPU и некорректируемые ошибки
Таким образом, чтобы поддерживать потребности клиентов в высокой доступности и непрерывном обслуживании, облачные провайдеры нуждаются в точной диагностике аппаратного обеспечения, которая точно указывает на неисправный компонент.
Двигатель диагностики аппаратного обеспечения для AI будет разбит на следующие компоненты:
1) Уровень сбора телеметрии: Этот уровень фокусируется на сборе данных телеметрии аппаратного обеспечения в режиме реального времени по различным компонентам.
- Драйверы GPU
- Версии прошивки и журналы ошибок (BMC, BIOS)
- Данные на узле (температура, загрузка, потребление энергии)
- Счетчики на уровне ОС (oom-kill, сбои системы, журналы dmesg)
Платформа будет использовать облачные агенты для сбора и публикации телеметрии аппаратного обеспечения в централизованное место.
2) Уровень оценки рисков аппаратного обеспечения: Этот уровень используется для оценивания риска аппаратного обеспечения на основе схем отказов. Двигатель диагностики будет оценивать такие ошибки, как уровни ошибок ECC со временем, тепловой запас между рабочими нагрузками, деградация производительности GPU от базового уровня, несоответствия прошивки по сравнению с золотой конфигурацией и количество повторных попыток аппаратного обеспечения на каждую выделенную VM.
Риск-скор будет использоваться двигателем диагностики для прогнозирования и смягчения отказов аппаратного обеспечения.
3) Уровень предсказания, смягчения и восстановления: Двигатель диагностики будет использовать данные телеметрии по различным аппаратным компонентам и оценкам риска для принятия различных мер смягчения и восстановления.
A. Прогнозирование отказов аппаратного обеспечения
- Происходит во время работы сервера с работающими нагрузками клиентов.
- Двигатель диагностики аппаратного обеспечения будет собирать атрибуты здоровья аппаратного обеспечения (т.е. телеметрию аппаратного обеспечения) из слоя телеметрии и сотрудничать с другими машинными обучающими службами на уровне облачной платформы для прогнозирования отказов аппаратного обеспечения.
- Диагностика аппаратного обеспечения также будет проводить предсказательный анализ отказов для прогнозирования надвигающихся отказов аппаратного обеспечения на основе оценок риска и принимать проактивные меры по перемещению рабочей нагрузки AI на здоровый сервер без прерывания работы.
Смягчение отказов аппаратного обеспечения
- Происходит во время работы узла с работающими нагрузками клиентов.
- Если предсказание отказа аппаратного обеспечения невозможно, то аппаратное обеспечение попытается смягчить отказы, чтобы обеспечить непрерывность обслуживания. Некоторые из мер смягчения, которые сейчас применяются, это зеркалирование диска, снятие страниц памяти, обнаружение и исправление ошибок, автоматический сброс драйвера GPU при возникновении неисправности.
Восстановление после отказов аппаратного обеспечения
- Происходит во время офлайн-состояния узла, когда нагрузки клиентов освобождены.
- Если смягчение отказов аппаратного обеспечения невозможно, то диагностика аппаратного обеспечения будет работать для эффективной атрибуции отказов на основе собранной телеметрии устройств в слое телеметрии. После завершения атрибуции отказа, аппаратные неисправности проходят через обслуживание и ремонт компонентов в дата-центрах.
4) Метрики диагностики и всесторонняя информация о флоте аппаратного обеспечения AI
Создайте отчетную панель для отображения метрик здоровья GPU/узлов:
- Тенденции отказов по SKU GPU, зоне или региону.
- Повторяющиеся узлы с отказами.
- Тепловые карты термальных или эксплуатационных аномалий
- Топ SKU и хосты, способствующие сбоям при обучении моделей.
- Коррелированная аналитика воздействия на рабочие нагрузки (например, тенденции повторных попыток заданий, задержки)
Заключение:
Создание надежной и стабильной диагностики поможет установить базовый уровень здоровья аппаратного обеспечения AI и понять, как здоровье аппаратного обеспечения выглядит по SKU GPU и моделям хостов. Мы можем коррелировать события отказов аппаратного обеспечения с деградацией моделей AI.