Примечание: Страница проекта для этой работы включает 33 автозапускающихся видео в высоком разрешении общим объемом полгигабайта, что дестабилизировало мою систему при загрузке. По этой причине я не буду ссылаться на нее напрямую. Читатели могут найти URL в аннотации статьи или PDF, если они этого захотят.
Одна из основных задач современных исследований в области видео-синтеза заключается в создании полноценного видео-выступления на основе одного изображения. На этой неделе новая статья от Bytedance Intelligent Creation описала, возможно, самую полную систему такого рода на сегодня, способную производить анимации с полным и частичным телом, которые сочетают выразительные детали лица с точным движением в крупном масштабе, при этом достигая лучшей согласованности идентичности — в области, где даже ведущие коммерческие системы часто испытывают трудности.
В приведенном ниже примере мы видим выступление, основанное на актере (сверху слева) и полученное из одного изображения (справа сверху), которое демонстрируетRemarkably flexible and dexterous rendering, without the usual проблемы, связанные с созданием больших движений или “угадыванием” заблокированных областей (т.е. частей одежды и углов лиц, которые должны быть подразумеваемыми или выдуманными, так как они не видны на единственном исходном фото):
АУДИОКОНТЕНТ. Нажмите, чтобы воспроизвести. Выступление основано на двух источниках, включая синхронизацию губ, что обычно является задачей специализированных вспомогательных систем. Это сокращенная версия с сайта источника (см. примечание в начале статьи — относится ко всем остальным встроенным видео здесь).
Хотя мы можем увидеть некоторые остаточные проблемы с сохранением идентичности по мере продвижения каждого клипа, это первая система, которую я видел, которая превосходит в общем (хотя не всегда) поддерживая идентичность в течение длительного времени без использования LoRAs:
АУДИОКОНТЕНТ. Нажмите, чтобы воспроизвести. Дополнительные примеры из проекта DreamActor.
Новая система под названием DreamActor использует трехкомпонентную гибридную контрольную систему, которая уделяет особое внимание выражению лица, повороту головы и дизайну скелета, обеспечивая AI-управляемые выступления, где ни лицевая, ни телесная аспекты не страдают за счет других — редкая, возможно неизвестная возможность среди аналогичных систем.
Ниже мы видим один из этих аспектов — поворот головы — в действии. Цветной шарик в углу каждого миниатюры справа указывает на своего рода виртуальный гимбал, который определяет ориентацию головы независимо от движения и выражения лица, что здесь определяется актером (внизу слева).
Нажмите, чтобы воспроизвести. Многоцветный шарик, визуализированный здесь, представляет собой ось вращения головы аватара, в то время как выражение управляется отдельным модулем и информируется актерским выступлением (видимым здесь, внизу слева).
Одна из самых интересных функциональных возможностей проекта, которая даже не была должным образом включена в тесты статьи, — это его способность выводить движение синхронизации губ непосредственно из аудио — способность, которая работает необычно хорошо даже без видео с актером.
Исследователи сопоставили свои усилия с лучшими существующими аналогами в этой области, включая высоко оцененные Runway Act-One и LivePortrait, и сообщают, что DreamActor смог достичь лучших количественных результатов.
Поскольку исследователи могут установить свои собственные критерии, количественные результаты не являются обязательным эмпирическим стандартом; но сопутствующие качественные тесты, похоже, поддерживают выводы авторов.
К сожалению, эта система не предназначена для публичного выпуска, и единственная ценность, которую сообщество может потенциально извлечь из работы, заключается в возможном воспроизведении методик, изложенных в статье (как это было сделано с заметным эффектом для также закрытого исходного Google Dreambooth в 2022 году).
Статья утверждает*:
«Анимация человеческого изображения имеет возможные социальные риски, такие как злоупотребление для создания фальшивых видео. Предлагаемая технология может быть использована для создания фальшивых видео с участием людей, но существующие инструменты для обнаружения [Demamba, Dormant] могут выявить эти фальшивки.
«Для снижения этих рисков необходимы четкие этические нормы и рекомендации по ответственному использованию. Мы строго ограничим доступ к нашим основным моделям и кодам, чтобы предотвратить злоупотребления.»
Естественно, этические соображения подобного рода удобны с коммерческой точки зрения, поскольку предоставляют рациональное объяснение доступа только через API к модели, что затем можно монетизировать. ByteDance уже сделал это однажды в 2025 году, сделав высоко оцененный OmniHuman доступным за платные кредиты на сайте Dreamina. Таким образом, поскольку DreamActor, вероятно, является еще более сильным продуктом, это, кажется, вероятный исход. Остается только увидеть, в какой мере его принципы, насколько они объясняются в статье, могут помочь сообществу с открытым исходным кодом.
Новая статья называется DreamActor-M1: Холистичная, выразительная и устойчивого анимация человеческого изображения с гибридным управлением и поступила от шести исследователей Bytedance.
Метод
Система DreamActor, предложенная в статье, нацелена на создание анимации человека на основе эталонного изображения и движущегося видео, используя Diffusion Transformer (DiT) — фреймворк, адаптированный для латентного пространства (по всей видимости, это некоторая версия Stable Diffusion, хотя в статье упоминается только публикация по знаковым моделям 2022 года).
Вместо того, чтобы полагаться на внешние модули для работы с условиями эталонов, авторы объединяют характеристики внешнего вида и движения прямо в основу DiT, что позволяет взаимодействовать во времени и пространстве через внимание:
Схема новой системы: DreamActor кодирует позу, движение лица и внешний вид в отдельные латенты, комбинируя их с шумными видео-латентами, произведенными 3D VAE. Эти сигналы сливаются внутри Diffusion Transformer, используя само- и перекрестное внимание, с общими весами по ветвям. Модель контролируется, сравнивая денойзированные выходные данные с чистыми видео-латентами. Источник: https://arxiv.org/pdf/2504.01724
Для этого модель использует предварительно обученный 3D вариационный автоэнкодер, чтобы закодировать как входное видео, так и эталонное изображение. Эти латенты пачкованы, конкатенированы и переданы в DiT, который обрабатывает их совместно.
Эта архитектура отличается от обычной практики прикрепления вторичной сети для инъекции эталона, которая была подходом для влиятельных проектов Animate Anyone и Animate Anyone 2.
Вместо этого DreamActor строит слияние непосредственно в основную модель, упрощая дизайн, улучшая поток информации между признаками внешнего вида и движения. Затем модель обучается с использованием сопоставления потоков, а не стандартной диффузионной цели (сопоставление потоков обучает диффузионные модели, напрямую предсказывая векторные поля между данными и шумом, пропуская оценку скор).
Гибридное управление движением
Метод Гибридного управления движением, который информирует нейронные рендеры, объединяет токоны позы, полученные из 3D-моделей тела и сфер головы; имплицитные представления лица, извлеченные с помощью предварительно обученного энкодера лица; и эталонные токоны внешнего вида, отобранные из эталонного изображения.
Эти элементы интегрируются внутри Diffusion Transformer, используя различные механизмы внимания, позволяя системе координировать общее движение, выражение лица и визуальную идентичность на протяжении всего процесса генерации.
Для первого из этих компонентов, вместо того чтобы полагаться на маркеры лица, DreamActor использует имплицитные представления лица для управления генерацией выражений, позволяя, по всей видимости, более тонкое управление лицевой динамикой, отделяя идентичность и позу головы от выражения.
Чтобы создать эти представления, конвейер сначала обнаруживает и обрезает область лица в каждом кадре движущегося видео, изменяя его размер на 224×224. Обрезанные лица обрабатываются энкодером движения лица, предварительно обученным на наборе данных PD-FGC, который затем кондиционируется слоем MLP.
PD-FGC, используемый в DreamActor, генерирует говорящую голову из эталонного изображения с отделенной контролируемой синхронизацией губ (из аудио), позой головы, движением глаз и выражением (из отдельных видео), позволяя точное и независимое управление каждым. Источник: https://arxiv.org/pdf/2211.14506
Результат представляет собой последовательность токенов движения лица, которые вводятся в Diffusion Transformer через слой перекрестного внимания.
Тот же фреймворк также поддерживает вариант, управляемый аудио, в котором обучается отдельный энкодер, который напрямую сопоставляет входную речь с токенами движения лица. Это позволяет генерировать синхронизированную лицевую анимацию — включая движения губ — без движущегося видео.
АУДИОКОНТЕНТ. Нажмите, чтобы воспроизвести. Синхронизация губ, полученная исключительно из аудио, без ссылки на движущегося актера. Единственным входным изображением является статичное фото, видимое в верхнем правом углу.
Во-вторых, чтобы контролировать позу головы независимо от выражения лица, система вводит представление сферы головы 3D (см. видео, встроенное ранее в этой статье), которое отделяет лицевые динамики от общего движения головы, улучшая точность и гибкость во время анимации.
Сферы головы генерируются путем извлечения 3D параметров лица — таких как вращение и поза камеры — из движущего видео, используя метод отслеживания FaceVerse.
Схема проекта FaceVerse. Источник: https://www.liuyebin.com/faceverse/faceverse.html
Эти параметры используются для рендеринга цветной сферы, проецируемой на 2D изображение, пространственно согласованной с движущейся головой. Размер сферы совпадает с эталонной головой, а ее цвет отражает ориентацию головы. Эта абстракция снижает сложность обучения 3D движению головы, что помогает сохранить стилизованные или выраженные формы головы в персонажах, взятых из анимации.
Визуализация контрольной сферы, влияющей на ориентацию головы.
Наконец, для управления движением всего тела система использует 3D скелеты тела с адаптивной нормализацией длины костей. Параметры тела и рук оцениваются с использованием 4DHumans и ориентированного на руки HaMeR, обе системы работают на модели тела SMPL-X.
SMPL-X применяет параметрическую сетку ко всему человеческому телу на изображении, согласуясь с оцененной позой и выражением, чтобы позволить управлять позой, используя сетку как объемный справочник. Источник: https://arxiv.org/pdf/1904.05866
Из этих выходов ключевые суставы отбираются, проецируются в 2D и соединяются в картографические линии скелета. В отличие от методов, таких как Champ, которые рендерят полные сетки тела, этот подход избегает навязывания заранее определенных форм, и полагаясь исключительно на скелетную структуру, модель побуждается выводить форму тела и внешний вид непосредственно из эталонных изображений, снижая предвзятость к фиксированным типам тел и улучшая обобщение по различным позам и фигурам.
Во время обучения 3D скелеты тела конкатенируются с сферами головы и проходят через энкодер позы, который выдает признаки, которые затем комбинируются с шумными видео-латентами для производства тех самых шумовых токенов, используемых Diffusion Transformer.
При выводе система учитывает скелетные различия между субъектами, нормализуя длины костей. Предварительно обученная модель редактирования изображений SeedEdit трансформирует как эталонные, так и движущиеся изображения в стандартную каноническую конфигурацию. Затем RTMPose используется для извлечения скелетных пропорций, которые затем используются для регулировки движущегося скелета в соответствии с анатомией эталонного субъекта.
Обзор конвейера вывода. Псевдо-референсы могут быть сгенерированы для обогащения визуальных подсказок, в то время как гибридные контрольные сигналы – имплицитное движение лица и явная поза от сфер головы и скелетов тела – извлекаются из движущегося видео. Затем они передаются в модель DiT для создания анимационного результата, при этом движение лица отделяется от позы тела, что позволяет использовать аудио в качестве драйвера.
Управление внешним видом
Для повышения точности внешнего вида, особенно в заблокированных или редко видимых областях, система дополняет основное эталонное изображение псевдо-референсами, полученными из входного видео.
Нажмите, чтобы воспроизвести. Система предугадывает необходимость точно и последовательно рендерить заблокированные области. Это близко к тому, что я видел в проекте такого рода, к подходу с текстурой битмап в CGI.
Эти дополнительные кадры выбираются для разнообразия позы с использованием RTMPose и фильтруются на основе сходства, чтобы гарантировать их согласованность с идентичностью субъекта.
Все эталонные кадры (основные и псевдо) кодируются одним и тем же визуальным энкодером и объединяются через механизм внимания, позволяя модели получать дополнительные визуальные подсказки. Эта настройка улучшает охват деталей, таких как боковые виды или текстуры конечностей. Псевдо-референсы всегда используются во время тренировки и опционально во время вывода.
Обучение
DreamActor обучался в три этапа, чтобы постепенно вводить сложность и улучшать стабильность.
На первом этапе использовались только 3D скелеты тела и 3D сферы головы в качестве контрольных сигналов, исключая лицевые представления. Это позволило базовой модели генерации видео, инициализированной из MMDiT, адаптироваться к анимации человека, не перегружаясь тонкими управлением.
На втором этапе добавлены имплицитные лицевые представления, но все другие параметры заморожены. Только энкодер движения лица и слои внимания лица обучались в этот момент, позволяя модели обучаться выразительным деталям в изоляции.
На финальном этапе все параметры были разморожены для совместной оптимизации внешнего вида, позы и лицевой динамики.
Данные и тесты
Для фазы тестирования модель инициализируется из предварительно обученной контрольной точки DiT от изображения к видео† и обучается в три этапа: 20 000 шагов для первых двух этапов и 30 000 шагов для третьего.
Для улучшения обобщения на разных длительностях и разрешениях, видео-клипы случайным образом выбирались длительностью от 25 до 121 кадра. Затем они изменяются на 960×640 пикселей, сохраняя пропорции.
Обучение проводилось на восьми (ориентированных на Китай) графических процессорах NVIDIA H20 с 96 ГБ VRAM, с использованием оптимизатора AdamW с (достаточно высоким) темпом обучения 5e−6.
При выводе каждый видео-сегмент содержал 73 кадра. Чтобы сохранить согласованность между сегментами, финальный латент из одного сегмента повторно использовался в качестве начального латента для следующего, который контекстуализирует задачу как последовательную генерацию изображения в видео.
Классификатор без методов управления был применен с весом 2.5 как для эталонных изображений, так и для сигналов контроля движения.
Авторы построили набор обучающих данных (в статье не указаны источники), включающий 500 часов видео, полученных из различных областей, включая танцы, спорт, кино и публичные выступления. Набор данных был разработан для захвата широкого спектра человеческого движения и выражения, с равномерным распределением между полными и полуполовыми кадрами.
Чтобы увеличить качество синтеза лиц, Nersemble был включен в процесс подготовки данных.
Примеры из набора данных Nersemble, используемого для увеличения данных для DreamActor. Источник: https://www.youtube.com/watch?v=a-OAWqBzldU
Для оценки исследователи использовали свой набор данных в качестве эталона для оценки обобщения в различных сценариях.
Эффективность модели измерялась с использованием стандартных метрик из предшествующих работ: Fréchet Inception Distance (FID); Индекс структурного сходства (SSIM); Изученное структурное восприятие изображения (LPIPS); и Пиковое отношение сигнал/шум (PSNR) для качеств на уровне кадров. Fréchet Video Distance (FVD) использовалось для оценки временной связи и общей верности видео.
Авторы провели эксперименты как по анимации тела, так и по анимации портретов, все с использованием одного (цельного) эталонного изображения.
Для анимации тела DreamActor-M1 сравнивался с Animate Anyone; Champ; MimicMotion и DisPose.
Количественные сравнения с конкурентными фреймворками.
Хотя PDF предоставляет статическое изображение в качестве визуального сравнения, одно из видео с сайта проекта может более четко продемонстрировать различия:
АУДИОКОНТЕНТ. Нажмите, чтобы воспроизвести. Визуальное сравнение между соперниками. Движущееся видео видно вверху слева, а вывод авторов, что DreamActor Produces является наилучшим результатом, кажется разумным.
Для тестов анимации портретов модель оценивалась по сравнению с LivePortrait; X-Portrait; SkyReels-A1; и Act-One.
Количественные сравнения для анимации портретов.
Авторы отмечают, что их метод выигрывает в количественных тестах, и утверждают, что он также является качественно превосходным.
АУДИОКОНТЕНТ. Нажмите, чтобы воспроизвести. Примеры сравнений анимации портретов.
Можно утверждать, что третий и последний клип, показанный в видео выше, демонстрирует менее убедительную синхронизацию губ по сравнению с несколькими конкурентными фреймворками, хотя общая качество невероятно высока.
Заключение
Ожидая необходимость текстур, которые подразумеваются, но на самом деле не присутствуют в единственном целевом изображении, стимулирующем эти воссоздания, ByteDance решила одну из самых больших задач, стоящих перед видеогенерацией на основе диффузии — согласованные, устойчивые текстуры. Следующим логичным шагом после совершенствования такого подхода будет создание справочного атласа из первоначального сгенерированного клипа, который можно было бы применить к последующим, различным поколениям, чтобы поддерживать внешний вид без LoRAs.
Хотя такой подход все еще будет фактически внешним эталоном, это не отличается от текстурирования в традиционных CGI-техниках, и качество реализма и правдоподобия намного выше, чем те более старые методы могут получить.
Тем не менее, наиболее впечатляющим аспектом DreamActor является комбинированная трехкомпонентная система управления, которая объединяет традиционное деление между человеческим синтезом, сосредоточенным на лице, и тем, что сосредоточено на теле, гениальным образом.
Остается только увидеть, смогут ли некоторые из этих основных принципов быть использованы в более доступных предложениях; на данный момент DreamActor, похоже, предназначен стать еще одним предложением синтеза как услуги, существенно ограниченным ограничениями на использование и непрактичностью обширного эксперимента с коммерческой архитектурой.
* Моя замена гиперссылок для авторов; внутренние ссылки
† Как упоминалось ранее, неясно, какой вид Stable Diffusion использовался в этом проекте.
Впервые опубликовано в пятницу, 4 апреля 2025 года
Пост Значительный прорыв в видеодвижении на основе AI появился первым на Unite.AI.