Восхождение малых моделей рассуждений: могут ли компактные ИИ соперничать с рассуждением на уровне GPT?

В последние годы область искусственного интеллекта привлекла внимание к успехам больших языковых моделей (LLM). Изначально разработанные для обработки естественного языка, эти модели эволюционировали в мощные инструменты рассуждения, способные решать сложные задачи с человеческим шаг за шагом процессом мышления. Однако, несмотря на их исключительные способности к рассуждению, LLM имеют значительные недостатки, включая высокие вычислительные затраты и медленные скорости развертывания, что делает их непрактичными для реального использования в условиях ограниченных ресурсов, таких как мобильные устройства или периферийные вычисления. Это привело к растущему интересу к разработке меньших, более эффективных моделей, которые могут предлагать аналогичные возможности рассуждения при минимизации затрат и потребностей в ресурсах. Эта статья исследует рост малых моделей рассуждения, их потенциал, вызовы и последствия для будущего ИИ.

Смена перспективы

На протяжении последних лет в истории ИИ область придерживалась принципа «законов масштабирования», который предполагает, что производительность модели предсказуемо улучшается по мере увеличения объемов данных, вычислительной мощности и размера модели. Хотя этот подход позволил создать мощные модели, он также привел к значительным компромиссам, включая высокие инфраструктурные затраты, воздействие на окружающую среду и проблемы с задержкой. Не все приложения требуют полных возможностей огромных моделей с сотнями миллиардов параметров. В многих практических случаях—таких как помощники на устройствах, здравоохранение и образование—меньшие модели могут достичь аналогичных результатов, если они способны эффективно рассуждать.

Понимание рассуждения в ИИ

Рассуждение в ИИ относится к способности модели следовать логическим цепочкам, понимать причинно-следственные связи, выводить следствия, планировать шаги в процессе и выявлять противоречия. Для языковых моделей это часто означает не только извлечение информации, но и манипулирование и выведение информации через структурированный, пошаговый подход. Этот уровень рассуждения обычно достигается путем дообучения LLM для выполнения многопроцессного рассуждения перед тем, как прийти к ответу. Хотя это эффективно, такие методы требуют значительных вычислительных ресурсов и могут быть медлительны и затратны при развертывании, вызывая опасения по поводу их доступности и воздействия на окружающую среду.

Понимание малых моделей рассуждения

Малые модели рассуждения стремятся воспроизвести способности рассуждения больших моделей, но с большей эффективностью в отношении вычислительной мощности, использования памяти и задержки. Эти модели часто используют технику, называемую дистилляции знаний, где меньшая модель (студент) обучается на основе более крупной, заранее обученной модели (учитель). Процесс дистилляции включает обучение меньшей модели на данных, сгенерированных более крупной, с целью передачи способности рассуждения. Затем модель-студент дообучается для улучшения своей производительности. В некоторых случаях применяется обучение с подкреплением с специализированными наградными функциями для конкретной области, чтобы дополнительно улучшить способность модели выполнять рассуждения, специфические для задач.

Взлет и достижения малых моделей рассуждения

Заметным этапом в развитии малых моделей рассуждения стало выпуск DeepSeek-R1. Несмотря на то, что он был обучен на относительно скромном кластере старых графических процессоров, DeepSeek-R1 продемонстрировал производительность, сравнимую с более крупными моделями, такими как o1 от OpenAI, на таких бенчмарках, как MMLU и GSM-8K. Это достижение привело к пересмотру традиционного подхода к масштабированию, который предполагал, что более крупные модели всегда превосходят.

Успех DeepSeek-R1 можно объяснить его инновационным процессом обучения, который сочетал обучение с подкреплением в больших масштабах без полагания на supervised fine-tuning на ранних этапах. Эта инновация привела к созданию DeepSeek-R1-Zero, модели, продемонстрировавшей впечатляющие способности рассуждения по сравнению с большими моделями рассуждения. Другие улучшения, такие как использование холодных данных, повысили когерентность модели и исполнение задач, особенно в таких областях, как математика и программирование.

Кроме того, методы дистилляции оказались жизненно важными для разработки меньших, более эффективных моделей из больших. Например, DeepSeek выпустил дистиллированные версии своих моделей, размер которых варьируется от 1,5 миллиардов до 70 миллиардов параметров. Используя эти модели, исследователи обучили относительно гораздо меньшую модель DeepSeek-R1-Distill-Qwen-32B, которая превосходит o1-mini от OpenAI по различным бенчмаркам. Эти модели теперь могут быть развернуты на стандартном оборудовании, что делает их более приемлемыми для широкого круга приложений.

Могут ли маленькие модели сопоставить рассуждение уровня GPT?

Чтобы оценить, могут ли малые модели рассуждения (SRM) сопоставиться с мощью рассуждения больших моделей (LRM), таких как GPT, важно оценить их производительность на стандартных бенчмарках. Например, модель DeepSeek-R1 набрала около 0,844 на тесте MMLU, что сопоставимо с более крупными моделями, такими как o1. На наборе данных GSM-8K, который сосредоточен на математике для начальных классов, дистиллированная модель DeepSeek-R1 достигла высоких результатов, превосходя как o1, так и o1-mini.

В задачах кодирования, таких как те, что на LiveCodeBench и CodeForces, дистиллированные модели DeepSeek-R1 показали результаты, сопоставимые с o1-mini и GPT-4o, демонстрируя сильные способности рассуждения в программировании. Тем не менее, более крупные модели все еще имеют преимущество в задачах, требующих более широкого понимания языка или обработки длинных контекстных окон, поскольку меньшие модели, как правило, более специфичны для задач.

Несмотря на свои сильные стороны, маленькие модели могут испытывать трудности с длительными задачами рассуждения или когда сталкиваются с данными вне распределения. Например, в симуляциях шахмат LLM DeepSeek-R1 допустил больше ошибок, чем более крупные модели, что указывает на ограничения в его способности сохранять концентрацию и точность на протяжении долгого времени.

Компромиссы и практические последствия

Компромиссы между размером модели и производительностью имеют критическое значение при сравнении SRM с LRMs уровня GPT. Меньшие модели требуют меньше памяти и вычислительной мощности, что делает их идеальными для периферийных устройств, мобильных приложений или ситуаций, когда необходима офлайн-инференция. Эта эффективность приводит к снижению операционных затрат, причем такие модели, как DeepSeek-R1, могут быть до 96% дешевле в эксплуатации, чем более крупные модели, такие как o1.

Однако эти достижения в эффективности сопряжены с некоторыми компромиссами. Меньшие модели, как правило, дообучаются для конкретных задач, что может ограничить их универсальность по сравнению с более крупными моделями. Например, хотя DeepSeek-R1 преуспевает в математике и программировании, ему не хватает мультимодальных возможностей, таких как способность интерпретировать изображения, которые могут обрабатывать более крупные модели, такие как GPT-4o.

Несмотря на эти ограничения, практические приложения малых моделей рассуждения очень многочисленны. В здравоохранении они могут обеспечить работу диагностических инструментов, анализирующих медицинские данные на стандартных серверов больниц. В образовании они могут использоваться для разработки персонализированных систем наставничества, предоставляющих пошаговую обратную связь для студентов. В научных исследованиях они могут помочь в анализе данных и тестировании гипотез в таких областях, как математика и физика. Открытая природа таких моделей, как DeepSeek-R1, также способствует сотрудничеству и демократизации доступа к ИИ, позволяя небольшим организациям получать выгоду от передовых технологий.

Итог

Эволюция языковых моделей в сторону малых моделей рассуждения является значительным шагом вперед в области ИИ. Хотя эти модели еще могут не полностью сопоставиться с широкими возможностями больших языковых моделей, они предлагают ключевые преимущества в эффективности, экономической целесообразности и доступности. Найдя баланс между мощностью рассуждений и эффективностью использования ресурсов, малые модели готовы сыграть важную роль в различных приложениях, делая ИИ более практичным и устойчивым для реального использования.

Пост Взлет малых моделей рассуждения: может ли компактный ИИ сопоставить рассуждение уровня GPT? появился первым на Unite.AI.

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *