Кирилл Солодских, соучредитель и генеральный директор TheStage AI
Кирилл Солодских, PhD, соучредитель и генеральный директор TheStage AI, а также опытный исследователь ИИ и предприниматель с более чем десятилетним опытом оптимизации нейронных сетей для практических бизнес-приложений. В 2024 году он соучредил TheStage AI, которая привлекла 4,5 миллиона долларов финансирования для полной автоматизации ускорения нейронных сетей на любых аппаратных платформах.
Ранее в качестве руководителя команды в Huawei Кирилл возглавлял разработку приложений ускорения ИИ-камер для NPUs Qualcomm, способствуя производительности смартфонов P50 и P60 и получив несколько патентов за свои инновации. Его исследования были представлены на ведущих конференциях, таких как CVPR и ECCV, где они получили награды и признание в индустрии. Он также ведет подкаст о оптимизации и выводе ИИ.
Что вдохновило вас на соучредительство TheStage AI, и как вы перешли от академической и исследовательской деятельности к решению задачи оптимизации вывода как основатель стартапа?
Основы того, что в конечном итоге стало TheStage AI, начались с моей работы в Huawei, где я глубоко занимался автоматизацией развертывания и оптимизацией нейронных сетей. Эти инициативы стали основой для некоторых наших прорывных инноваций, и здесь я увидел настоящую задачу. Обучить модель — это одно, но заставить ее эффективно работать в реальном мире и сделать ее доступной для пользователей — совсем другое. Развертывание является узким местом, которое удерживает множество отличных идей от реализации. Чтобы сделать что-то столь же простым в использовании, как ChatGPT, существует множество проблем на заднем плане. С технической точки зрения, оптимизация нейронных сетей заключается в минимизации параметров при сохранении высокой производительности. Это трудная математическая задача с многообъемными возможностями для инноваций.
Оптимизация вывода вручную давно является узким местом в ИИ. Можете ли вы объяснить, как TheStage AI автоматизирует этот процесс и почему это меняет правила игры?
TheStage AI решает major bottleneck in AI: ручное сжатие и ускорение нейронных сетей. У нейронных сетей миллиарды параметров, и выяснить, какие из них удалить для улучшения производительности, практически невозможно вручную. ANNA (Automated Neural Networks Analyzer) автоматизирует этот процесс, определяя, какие слои следует исключить из оптимизации, аналогично тому, как впервые была автоматизирована ZIP-компрессия.
Это меняет правила игры, делая внедрение ИИ быстрее и доступнее. Вместо того чтобы полагаться на дорогостоящие ручные процессы, стартапы могут автоматически оптимизировать модели. Эта технология дает компаниям четкое представление о производительности и стоимости, обеспечивая эффективность и масштабируемость безGuesswork.
TheStage AI утверждает, что снижает затраты на вывод до 5 раз — что делает вашу оптимизационную технологию такой эффективной по сравнению с традиционными методами?
TheStage AI сокращает затраты на вывод до 5 раз благодаря оптимизационному подходу, который выходит за рамки традиционных методов. Вместо применения одного и того же алгоритма ко всей нейронной сети ANNA разбивает ее на более мелкие слои и решает, какой алгоритм применить для каждой части, чтобы достичь желаемого сжатия при максимальном качестве модели. Объединяя умные математические эвристики с эффективными приближениями, наш подход высоко масштабируем и облегчает внедрение ИИ для компаний любого размера. Мы также интегрируем гибкие настройки компилятора для оптимизации сетей под определенное оборудование, такое как iPhone или графические процессоры NVIDIA. Это дает нам больший контроль для тонкой настройки производительности, увеличивая скорость без потери качества.
Как ускорение вывода TheStage AI сравнивается с родным компилятором PyTorch и какие преимущества оно предлагает разработчикам ИИ?
TheStage AI значительно ускоряет вывод по сравнению с родным компилятором PyTorch. PyTorch использует метод “компиляции по мере необходимости”, который компилирует модель каждый раз, когда она запускается. Это приводит к длинным временам запуска, иногда занимает минуты или даже больше. В масштабируемых окружениях это может создать неэффективность, особенно когда новые графические процессоры необходимо подключать к работе под увеличенной нагрузкой пользователей, вызывая задержки, которые негативно сказываются на пользовательском опыте.
В отличие от этого, TheStage AI позволяет моделям быть предварительно скомпилированными, поэтому, как только модель готова, ее можно развернуть мгновенно. Это приводит к более быстрым запускам, улучшению эффективности обслуживания и экономии средств. Разработчики могут развертывать и масштабировать модели ИИ быстрее, без узких мест традиционной компиляции, что делает их более эффективными и отзывчивыми для использования в условиях высокой нагрузки.
Можете рассказать больше о наборе инструментов QLIP от TheStage AI и о том, как он улучшает производительность модели при сохранении качества?
QLIP, набор инструментов TheStage AI, является библиотекой Python, которая предоставляет важный набор примитивов для быстрого создания новых алгоритмов оптимизации, адаптированных к различным аппаратным средствам, таким как графические процессоры и NPUs. Набор инструментов включает в себя компоненты, такие как квантизация, обрезка, спецификация, компиляция и представление, все критически важные для разработки эффективных, масштабируемых ИИ-систем.
Что отличает QLIP, так это его гибкость. Он позволяет инженерам ИИ быстро разрабатывать и внедрять новые алгоритмы всего за несколько строк кода. Например, недавнюю статью на конференции по квантизации нейронных сетей можно преобразовать в рабочий алгоритм, используя примитивы QLIP за считанные минуты. Это упрощает интеграцию последних исследований в их модели, не ограничивая их строгими рамками.
В отличие от традиционных открытых фреймворков, которые ограничивают вас фиксированным набором алгоритмов, QLIP позволяет любому добавлять новые техники оптимизации. Эта адаптивность помогает командам опережать быстро развивающийся ландшафт ИИ, улучшая производительность и обеспечивая гибкость для будущих инноваций.
Вы внесли свой вклад в квантизацию ИИ, используемую в камерах Huawei P50 и P60. Как этот опыт повлиял на ваш подход к оптимизации ИИ?
Мой опыт работы над квантизацией ИИ для Huawei P50 и P60 дал мне ценные знания о том, как оптимизация может быть упрощена и масштабирована. Когда я только начинал с PyTorch, работа с полным графом выполнения нейронных сетей была жесткой, и алгоритмы квантизации приходилось реализовывать вручную, слой за слоем. В Huawei я построил фреймворк, который автоматизировал этот процесс. Вы просто вводите модель, и он автоматически генерирует код для квантизации, исключая ручную работу.
Это привело меня к осознанию того, что автоматизация в оптимизации ИИ заключается в обеспечении скорости без ущерба для качества. Один из алгоритмов, который я разработал и запатентовал, стал незаменимым для Huawei, особенно когда им приходилось переходить от процессоров Kirin к Qualcomm из-за санкций. Это позволило команде быстро адаптировать нейронные сети к архитектуре Qualcomm без потери производительности или точности.
Упрощая и автоматизируя процесс, мы сократили время разработки с более года до всего нескольких месяцев. Это оказало огромное воздействие на продукт, используемый миллионами и сформировало мой подход к оптимизации, сосредоточив внимание на скорости, эффективности и минимальной потере качества. Именно этот подход я внедряю в ANNA сегодня.
Ваши исследования были представлены на CVPR и ECCV — какие ключевые прорывы в эффективности ИИ вы гордитесь больше всего?
Когда меня спрашивают о моих достижениях в области эффективности ИИ, я всегда вспоминаю нашу статью, которая была выбрана для устной презентации на CVPR 2023. Быть выбранным для устной презентации на такой конференции — это редкость, так как выбирается всего 12 статей. Это подчеркивает, что Генеративный ИИ обычно занимает центр внимания, а наша статья взяла другой подход, сосредоточившись на математической стороне, в частности, на анализе и сжатии нейронных сетей.
Мы разработали метод, который помог нам понять, сколько параметров действительно нужно нейронной сети для эффективной работы. Применяя техники функционального анализа и переходя от дискретной к непрерывной формулировке, мы смогли достичь хороших результатов сжатия, сохранив возможность интеграции этих изменений обратно в модель. Статья также представила несколько новых алгоритмов, которые не использовались сообществом и нашли дальнейшее применение.
Это была одна из моих первых статей в области ИИ, и важно указать, что это являлось результатом коллективных усилий нашей команды, включая моих соучредителей. Это было значительное достижение для всех нас.
Можете пояснить, как работают Интегральные Нейронные Сети (INNs) и почему они являются важной инновацией в глубоком обучении?
Традиционные нейронные сети используют фиксированные матрицы, аналогичные таблицам Excel, где размеры и параметры предопределены. INNs же описывают сети как непрерывные функции, предлагая гораздо большую гибкость. Представьте это как одеяло с булавками на разных высотах, представляющий собой непрерывную волну.
Что делает INNs захватывающими, так это их способность динамически “сжиматься” или “расширяться” в зависимости от доступных ресурсов, аналогично тому, как аналоговый сигнал преобразуется в звук. Вы можете уменьшить сеть без потери качества, а когда нужно, снова увеличить ее без переобучения.
Мы протестировали это, и в то время как традиционные методы сжатия приводят к значительной потере качества, INNs поддерживают качество, близкое к оригиналу, даже при экстремальном сжатии. Математика, стоящая за этим, более необычна для сообщества ИИ, но реальная ценность заключается в способности обеспечивать устойчивые, практические результаты с минимальными усилиями.
TheStage AI работала над алгоритмами квантового отжига — как вы видите роль квантовых вычислений в оптимизации ИИ в ближайшем будущем?
Что касается квантовых вычислений и их роли в оптимизации ИИ, ключевая идея в том, что квантовые системы предлагают совершенно другой подход к решению задач, таких как оптимизация. Хотя мы не изобретали алгоритмы квантового отжига с нуля, компании, такие как D-Wave, предоставляют библиотеки Python для создания квантовых алгоритмов, специально предназначенных для дискретных задач оптимизации, которые идеально подходят для квантовых компьютеров.
Здесь идея заключается в том, что мы не загружаем нейронную сеть непосредственно в квантовый компьютер. Это невозможно с текущей архитектурой. Вместо этого мы приближаем, как нейронные сети ведут себя при различных типах деградации, чтобы они соответствовали системе, которую может обрабатывать квантовый чип.
В будущем квантовые системы могут масштабироваться и оптимизировать сети с точностью, с которой традиционные системы не могут сравниться. Преимущество квантовых систем заключается в их встроенном параллелизме, что классические системы могут имитировать только с использованием дополнительных ресурсов. Это означает, что квантовые вычисления могут значительно ускорить процесс оптимизации, особенно когда мы поймем, как эффективно моделировать более крупные и сложные сети.
Реальный потенциал заключается в использовании квантовых вычислений для решения крупных, сложных задач оптимизации и разделения параметров на более мелкие, более управляемые группы. С технологиями, такими как квантовые и оптические вычисления, существуют огромные возможности для оптимизации ИИ, которые выходят далеко за рамки того, что может предложить традиционное вычисление.
Каково ваше долгосрочное видение для TheStage AI? Как вы видите направление оптимизации вывода в следующие 5-10 лет?
В долгосрочной перспективе TheStage AI планирует стать глобальным Модельным Центром, где любой может легко получить доступ к оптимизированной нейронной сети с желаемыми характеристиками, будь то для смартфона или любого другого устройства. Цель состоит в том, чтобы предложить опыт “перетаскивания”, где пользователи вводят свои параметры, и система автоматически генерирует сеть. Если сеть еще не существует, она будет автоматически создана с использованием ANNA.
Наша цель — заставить нейронные сети работать прямо на устройствах пользователей, сократив затраты в 20-30 раз. В будущем это может почти полностью устранить затраты, поскольку устройства пользователей будут обрабатывать вычисления, а не полагаться на облачные серверы. Это, в сочетании с продвижением в сжатии моделей и аппаратном ускорении, может сделать внедрение ИИ значительно более эффективным.
Мы также планируем интегрировать нашу технологию с аппаратными решениями, такими как датчики, чипы и робототехника, для приложений в таких областях, как автономное вождение и робототехника. Например, мы стремимся построить ИИ-камеры, способные функционировать в любых условиях, будь то в космосе или в экстремальных условиях, таких как темнота или пыль. Это сделает ИИ пригодным для широкого спектра приложений и позволит нам создавать индивидуальные решения для конкретного оборудования и использования.
Спасибо за отличное интервью! Читателям, желающим узнать больше, следует посетить TheStage AI.
Пост Кирилл Солодских, соучредитель и генеральный директор TheStage AI – Интервью впервые появился на Unite.AI.