NVIDIA ускоряет вывод на Meta Llama 4 Scout и Maverick

Новейшее поколение популярных моделей Llama AI теперь доступно с Llama 4 Scout и Llama 4 Maverick. Ускоренные с помощью программного обеспечения с открытым исходным кодом от NVIDIA, они могут достигать более 40K токенов вывода в секунду на графических процессорах NVIDIA Blackwell B200 и доступны для испытаний как микросервисы NVIDIA NIM.

Модели Llama 4 теперь являются многомодальными и многоязычными, использующими архитектуру с миксом экспертов (MoE). Они предоставляют разнообразные многомодальные возможности, способствуя росту масштабов, скорости и эффективности, которые позволяют создавать более персонализированные впечатления.

Llama 4 Scout – это модель с 109 миллиардами параметров, 17 миллиардов активных на токен, с конфигурацией из 16 экспертов и длиной контекста 10 миллионов токенов, оптимизированная и квантованная до int4 для одного графического процессора NVIDIA H100. Это открывает различные возможности использования, включая многодокументное суммирование, анализ обширной пользовательской активности для персонализированных задач и рассуждения над огромными кодовыми базами.

Llama 4 Maverick – это модель с 400 миллиардами параметров, 17 миллиардов активных на токен, с конфигурацией из 128 экспертов, принимающих контекст длиной 1 миллион токенов. Эта модель предоставляет высокопроизводительное понимание изображений и текста.

Оптимизировано для NVIDIA TensorRT-LLM

NVIDIA оптимизировала как модели Llama 4 Scout, так и Llama 4 Maverick для NVIDIA TensorRT-LLM. TensorRT-LLM – это библиотека с открытым исходным кодом, используемая для ускорения производительности вывода LLM для последних базовых моделей на графических процессорах NVIDIA.

Вы можете использовать TensorRT Model Optimizer, библиотеку, которая может рефакторить модели bfloat16 с последними алгоритмическими оптимизациями и техниками квантования, чтобы ускорить вывод с производительностью Blackwell FP4 Tensorcore, не влияя на точность модели.

На графическом процессоре Blackwell B200 TensorRT-LLM обеспечивает производительность более 40K токенов в секунду с оптимизированной NVIDIA FP8 версией Llama 4 Scout, а также более 30K токенов в секунду на Llama 4 Maverick.

Гистограмма с двумя сущностями показывает производительность токенов в секунду на графическом процессоре NVIDIA H200 на уровне 12,432 и увеличение в 3,4 раза для графического процессора B200 на уровне 42,400 токенов.

Blackwell обеспечивает значительные улучшения производительности благодаря архитектурным инновациям, включая второй поколение Transformer Engine, пятую генерацию NVLink и прецизионные значения FP8, FP6 и FP4, которые позволяют повысить производительность как для обучения, так и для вывода. Для Llama 4 эти усовершенствования обеспечивают в 3,4 раза большую пропускную способность и в 2,6 раза меньшие затраты на токен по сравнению с NVIDIA H200.

Последние оптимизации Llama 4 доступны в репозитории NVIDIA/TensorRT-LLM на GitHub.

Непрерывное сотрудничество Meta и NVIDIA

NVIDIA и Meta имеют долгую историю сотрудничества в продвижении открытых моделей. NVIDIA является активным участником проекта с открытым исходным кодом, что помогает вам эффективно работать, решая сложнейшие задачи и повышая производительность при снижении затрат.

Модели с открытым исходным кодом также способствуют прозрачности ИИ и позволяют пользователям широко делиться работами по безопасности и устойчивости ИИ. Эти открытые модели в сочетании с ускоренными вычислениями от NVIDIA предоставляют разработчикам, исследователям и бизнесу возможность ответственно innovate в различных приложениях.

Дополнительная настройка моделей Llama для повышения точности

Тонкая настройка моделей Llama осуществляется легко с помощью NVIDIA NeMo, всего комплекса, предназначенного для индивидуализации больших языковых моделей (LLM) с данными вашей компании.

Начните с курирования наборов данных для предварительного обучения или донастройки с помощью NeMo Curator, который помогает извлекать, фильтровать и дубликатировать структурированные и неструктурированные данные в больших масштабах. Затем используйте NeMo для эффективной донастройки моделей Llama с поддержкой таких техник, как LoRA, PEFT и полная настройка параметров.

После донастройки моделей вы можете оценить их производительность с помощью NeMo Evaluator, который поддерживает как отраслевые измерения, так и настраиваемые тестовые наборы, подходящие для вашего конкретного случая использования.

С NeMo предприятия получают мощный и гибкий рабочий процесс, чтобы адаптировать модели Llama для готовых к производству приложений ИИ.

Упрощение развертывания с NVIDIA NIM

Чтобы гарантировать, что предприятия могут воспользоваться ими, модели Llama 4 будут упакованы как микросервисы NVIDIA NIM, что облегчит их развертывание на любой инфраструктуре с ускорением GPU с гибкостью, конфиденциальностью данных и безопасностью корпоративного уровня.

NIM также упрощает развертывание благодаря поддержке стандартных API, поэтому вы можете быстро начать работу. Будь то LLM, модели зрения или многомодальный ИИ, NIM абстрагирует сложность инфраструктуры и обеспечивает плавное масштабирование через облака, центры обработки данных и периферийные среды.

Начните прямо сейчас

Попробуйте микросервисы Llama 4 NIM, чтобы поэкспериментировать с вашими данными и создать демонстрацию, интегрировав API-эндпоинт, размещенный NVIDIA, в ваше приложение.

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *