В 2019 году спикер Палаты представителей США Нэнси Пелоси стала объектом целенаправленной и довольно низкотехнологичной атаки в стиле дипфейка, когда реальное видео с ней было отредактировано, чтобы она выглядела пьяной – неординарный инцидент, который был поделён несколько миллионов раз до того, как правда о нём стала известна (и, возможно, после того, как некоторый упрямый ущерб её политическому капиталу был нанесён теми, кто не отслеживал эту историю).
Хотя это искажение требовало лишь некоторого простого аудиовизуального редактирования, а не искусственного интеллекта, оно остаётся ключевым примером того, как тонкие изменения в реальном аудиовизуальном продукте могут иметь разрушительный эффект.
В то время сцена дипфейков была доминирована системами замены лиц на основе автоэнкодеров, которые дебютировали в конце 2017 года и которые с тех пор не значительно улучшились в качестве. Такие ранние системы вряд ли могли бы создать такого рода небольшие, но значительные изменения или реалистично преследовать современные исследовательские направления, такие как редактирование выражений:
Недавняя структура «Нейронного Эмоционального Директора» меняет настроение знаменитого лица. Source: https://www.youtube.com/watch?v=Li6W8pRDMJQ
Теперь всё совсем иначе. Кинематографическая и телевизионная индустрия серьезно заинтересована в пост-продакшн изменениях реальных выступлений с использованием подходов машинного обучения, и облегчение искусственным интеллектом послефактического перфекционизма даже стало предметом недавней критики.
Предвидя (или, возможно, создавая) этот спрос, сфера исследований синтеза изображений и видео представила широкий спектр проектов, которые предлагают ‘локальные редактирования’ захватов лиц, а не полные замены: проекты этого типа включают Diffusion Video Autoencoders; Stitch it in Time; ChatFace; MagicFace; и DISCO и другие.
Редактирование выражений с помощью проекта MagicFace, запущенного в январе 2025 года. Source: https://arxiv.org/pdf/2501.02260
Новые лица, новые морщины
Тем не менее, технологии, позволяющие это, развиваются гораздо быстрее, чем методы их обнаружения. Почти все методы обнаружения дипфейков, которые появляются в литературе, преследуют вчерашние методы дипфейков с вчерашними наборами данных. До этой недели ни один из них не исследовал потенциальные возможности AI-систем для создания небольших и актуальных локальных изменений в видео.
Теперь новая статья из Индии исправила это, предоставив систему, которая ищет лица, которые были отредактированы (вместо замены) с помощью методов на основе ИИ:
Обнаружение тонких локальных редактирований в дипфейках: реальное видео изменено для создания фейков с нюансными изменениями, такими как поднятые брови, измененные гендерные черты и изменения в выражении, выражающих отвращение (иллюстрировано здесь одной рамкой). Source: https://arxiv.org/pdf/2503.22121
Система авторов направлена на идентификацию дипфейков, которые включают тонкие, локализованные манипуляции с лицом – в противном случае neglected класс подделки. Вместо того чтобы сосредотачиваться на глобальных несоответствиях или несовпадениях идентичности, подход ориентирован на детализированные изменения, такие как незначительные изменения выражения или небольшие редактирования конкретных черт лица.
Метод использует разделитель Action Units (AUs) в Системе кодирования действий лиц (FACS), которая определяет 64 возможных индивидуальных изменяемых области на лице, которые вместе образуют выражения.
Некоторые из 64 составных частей выражений в FACS. Source: https://www.cs.cmu.edu/~face/facs.htm
Авторы оценили свой подход по сравнению с различными современными методами редактирования и сообщают о стабильных приростах производительности как с более старыми наборами данных, так и с гораздо более современными векторами атаки:
‘Используя функции на основе AU для управления представлениями видео, изученными через Маскированные Автоэнкодеры [(MAE)], наш метод эффективно захватывает локализованные изменения, которые имеют решающее значение для обнаружения тонких редактирований лица.
‘Этот подход позволяет нам создать единую скрытую репрезентацию, которая кодирует как локализованные редактирования, так и более широкие изменения в видео, сосредоточенных на лицах, предлагая всеобъемлющее и адаптивное решение для обнаружения дипфейков.'
Новая статья названа Обнаружение локализованных манипуляций с дипфейками с использованием представлений видео, ориентированных на действия, и написана тремя авторами из Индийского института технологий в Мадрасе.
Метод
В соответствии с подходом, принятой в VideoMAE, новый метод начинается с применения обнаружения лиц к видео и выборки равномерно распределённых кадров, сосредоточенных на обнаруженных лицах. Эти кадры затем делятся на небольшие 3D-деления (т.е. временно включённые патчи), каждый из которых захватывает локальные пространственные и временные детали.
Схема для нового метода. Входное видео обрабатывается с помощью обнаружения лиц для извлечения равномерно распределённых, централизованных на лице кадров, которые затем делятся на «трубчатые» патчи и передаются через кодировщик, который объединяет скрытые представления из двух предварительно обученных задач. Полученный вектор затем используется классификатором для определения, является ли видео реальным или поддельным.
Каждый 3D патч содержит фиксированный размер окна пикселей (т.е. 16×16) из небольшого количества последовательных кадров (т.е. 2). Это позволяет модели изучить краткосрочные движения и изменения выражения – не просто то, как выглядит лицо, но как оно движется.
Патчи встраиваются и позиционно кодируются перед передачей в кодировщик, предназначенный для извлечения функций, которые могут различить реальное от поддельного.
Авторы признают, что это особенно сложно при работе с тонкими манипуляциями, и решают эту проблему, создавая кодировщик, который объединяет два отдельных типа изученных представлений, используя кросс-внимание для их слияния. Это предназначено для создания более чувствительного и обобщаемого пространства признаков для обнаружения локализованных редактирований.
Предварительные задачи
Первая из этих репрезентаций – это кодировщик, обученный с помощью задачи маскированного автоэнкодирования. С видео, разделённым на 3D патчи (большинство из которых скрыто), кодировщик затем обучается восстанавливать отсутствующие части, заставляя его захватывать важные спатио-временные паттерны, такие как движение лица или согласованность со временем.
Обучение предварительных задач включает маскирование частей входного видео и использование настройки кодировщика-декодера для восстановления либо оригинальных кадров, либо карт действий для каждого кадра, в зависимости от задачи.
Тем не менее, как отмечает статья, этого недостаточно, чтобы обеспечить достаточную чувствительность для обнаружения тонких редактирований, и поэтому авторы вводят второй кодировщик, обученный для обнаружения единиц действия лица (AU). Для этой задачи модель обучается восстанавливать плотные карты AU для каждого кадра, снова из частично замаскированных входов. Это побуждает её сосредотачиваться на локализованной активности мышц, где происходят многие тонкие редактирования дипфейка.
Дополнительные примеры единиц действия лица (FAUs, или AU). Source: https://www.eiagroup.com/the-facial-action-coding-system/
После того как оба кодировщика предварительно обучены, их выходы объединяются с использованием кросс-внимания. Вместо простого объединения двух наборов признаков модель использует функции на основе AU в качестве запросов, которые направляют внимание на пространственно-временные функции, изученные из маскированного автоэнкодирования. Таким образом, кодировщик единиц действия сообщает модели, куда смотреть.
Результатом является объединённое скрытое представление, которое предназначено для захвата как более широкого контекста движений, так и локализованной детализации на уровне выражения. Это объединённое пространство признаков затем используется для окончательной классификационной задачи: предсказания, является ли видео реальным или манипулированным.
Данные и тесты
Реализация
Авторы реализовали систему, предварительно обрабатывая входные видео с помощью FaceXZoo, базирующейся на PyTorch, системы обнаружения лиц, получая 16 кадрированных на лице фильмов из каждого клипа. Задачи, изложенные выше, были затем обучены на данных CelebV-HQ, состоящих из 35,000 высококачественных видео с лицами.
Из исходной статьи, примеры из набора данных CelebV-HQ, использованных в новом проекте. Source: https://arxiv.org/pdf/2207.12393
Половина примеров данных была замаскирована, что заставило систему изучить общие принципы вместо переобучения на исходных данных.
Для задачи восстановления замаскированных кадров модель обучалась предсказывать отсутствующие области видео кадров с использованием L1 потерь, минимизируя разницу между оригинальным и восстановленным контентом.
Для второй задачи модель обучалась генерировать карты для 16 единиц действия лица, каждая из которых представляет собой тонкие движения мышц в таких областях, как брови, веки, нос и губы, снова под контролем L1 потерь.
После предварительного обучения два кодировщика были объединены и адаптированы для обнаружения дипфейков с использованием набора данных FaceForensics++, который содержит как реальные, так и манипулированные видео.
Набор данных FaceForensics++ стал центральным ориентиром обнаружения дипфейков с 2017 года, хотя сейчас он значительно устарел по сравнению с последними техниками синтеза лиц. Source: https://www.youtube.com/watch?v=x2g48Q2I2ZQ
Чтобы учесть дисбаланс классов, авторы использовали Focal Loss (вариант потерь перекрестной энтропии), который акцентирует внимание на более сложных примерах во время обучения.
Все обучение проводилось на одном графическом процессоре RTX 4090 с 24 Гб видеопамяти, с размером партии 8 на 600 эпох (полные проверки данных), используя предварительно обученные контрольные точки от VideoMAE для инициализации весов для каждой из предварительных задач.
Тесты
Качественные и количественные оценки проводились по сравнению с различными методами обнаружения дипфейков: FTCN; RealForensics; Lip Forensics; EfficientNet+ViT; Face X-Ray; Alt-Freezing; CADMM; LAANet; и BlendFace's SBI. Во всех случаях исходный код был доступен для этих фреймворков.
Тесты сосредоточились на локально отредактированных дипфейках, где только часть исходного клипа была изменена. Используемые архитектуры были Диффузные Видео Автоэнкодеры (DVA); Stitch It In Time (STIT); Дискретное Редактирование Лиц (DFE); Tokenflow; VideoP2P; Text2Live; и FateZero. Эти методы используют разнообразные подходы (например, диффузию для DVA и StyleGAN2 для STIT и DFE)
Авторы заявляют:
‘Для того чтобы обеспечить полное охват различных манипуляций с лицами, мы включили широкий диапазон редактирования лицевых функций и атрибутов. Для редактирования лицевых функций мы изменили размер глаз, расстояние между глазом и бровью, соотношение носа, расстояние между носом и ртом, соотношение губ и соотношение щёк. Для редактирования лицевых атрибутов мы варьировали выражения, такие как улыбка, гнев, отвращение и печаль.
‘Это разнообразие является необходимым для проверки надежности нашей модели по широкому спектру локализованных редактирований. В общей сложности мы создали 50 видео для каждого из вышеупомянутых методов редактирования и подтвердили сильную обобщаемость нашего метода для обнаружения дипфейков.'
Старые наборы данных дипфейков также были включены в раунды, а именно Celeb-DFv2 (CDF2); Обнаружение дипфейков (DFD); Конкурс на Обнаружение Дипфейков (DFDC); и WildDeepfake (DFW).
Метрики оценки были Площадь под кривой (AUC); Средняя точность; и Средний F1 Score.
Из статьи: сравнение на недавних локализованных дипфейках показывает, что предложенный метод превзошёл все остальные, с приростом 15-20 процентов как в AUC, так и в средней точности по сравнению с ближайшим подходом.
Авторы дополнительно предоставляют визуальное сравнение обнаружения для локально манипулированных видов (воспроизведённых только частично ниже, из-за отсутствия пространства):
Реальное видео было изменено с использованием трёх различных локализованных манипуляций для создания фейков, которые остались визуально похожими на оригинал. Здесь показаны代表ative кадры вместе с средними оценками обнаружения фейков для каждого метода. Хотя существующие детекторы испытывали трудности с этими тонкими редактированиями, предлагаемый модель consistently присваивал высокие вероятности подделки, что указывает на более высокую чувствительность к локализованным изменениям.
Исследователи комментируют:
‘[Существующие] SOTA методы обнаружения, [LAANet], [SBI], [AltFreezing] и [CADMM], испытывают значительное падение производительности на последних методах генерирования дипфейков. Текущие SOTA методы демонстрируют AUC в диапазоне 48-71%, что указывает на их плохие возможности для обобщения на недавние дипфейки.
‘С другой стороны, наш метод демонстрирует надежное обобщение, достигая AUC в диапазоне 87-93%. Похожая тенденция заметна и в случае средней точности. Как показано [ниже], наш метод также consistently достигает высокой производительности на стандартных наборах данных, превышая 90% AUC и конкурируя с недавними моделями обнаружения дипфейков.'
Производительность на традиционных наборах данных дипфейков показывает, что предложенный метод остался конкурентоспособным с ведущими подходами, указывая на сильное обобщение в пределах широкого диапазона типов манипуляций.
Авторы отмечают, что эти последние тесты касаются моделей, которые могут рассматриваться как устаревшие, и которые были представлены до 2020 года.
В качестве более обширного визуального представления производительности новой модели, авторы предоставляют обширную таблицу в конце, часть которой мы имеем место воспроизвести здесь:
В этих примерах реальное видео было изменено с помощью трёх локализованных редактирований, чтобы создать фейки, которые визуально были схожи с оригиналом. Средние коэффициенты уверенности по всем этим манипуляциям показывают, как утверждают авторы, что предлагаемый метод более надёжно обнаруживал подделки, чем другие ведущие подходы. Для получения полных результатов см. последнюю страницу исходного PDF.
Авторы утверждают, что их метод достигает коэффициентов уверенности выше 90 процентов для обнаружения локализованных редактирований, в то время как существующие методы обнаружения оставались ниже 50 процентов по той же задаче. Они интерпретируют этот разрыв как доказательство как чувствительности, так и обобщаемости их подхода, и как признак тех проблем, с которыми сталкиваются современные техники в работе с такими тонкими манипуляциями лиц.
Чтобы оценить надёжность модели в реальных условиях и в соответствии с методом, установленным CADMM, авторы протестировали её производительность на видео, изменённых с общими искажениями, включая изменения насыщенности и контраста, гауссово размытие, пикселизацию и артефакты сжатия на основе блоков, а также добавление шума.
Результаты показали, что точность обнаружения оставалась в основном стабильной при этих искажениях. Единственное заметное снижение произошло с добавлением гауссовского шума, которое вызвало умеренное снижение производительности. Другие изменения имели незначительное влияние.
Иллюстрация того, как точность обнаружения меняется под воздействием различных искажений видео. Новый метод остался устойчивым в большинстве случаев, с только небольшим снижением AUC. Наибольшее снижение произошло при вводе гауссовского шума.
Эти результаты, предполагают авторы, указывают на то, что способность метода обнаруживать локализованные манипуляции не легко нарушается типичными деградациями качества видео, поддерживая его потенциальную надёжность в практических условиях.
Заключение
Манипуляции ИИ существуют в общественном сознании главным образом в традиционном представлении о дипфейках, где идентичность человека накладывается на тело другого человека, который может выполнять действия, противоположные принципам владельца идентичности. Эта концепция медленно обновляется, чтобы признать более коварные возможности генеративных видео-систем (в новом роде видео дипфейков), и к возможностям латентных диффузионных моделей (LDM) в целом.
Таким образом, разумно ожидать, что такие локальные редактирования, которыми занимается новая статья, могут не привлечь общественное внимание до тех пор, пока не произойдёт знаковое событие в стиле Пелоси, поскольку людей отвлекает от этой возможности более простая тематика, такая как мошенничество с помощью видео дипфейков.
Тем не менее, так же, как актер Ник Кейдж выражал постоянную озабоченность по поводу возможности процессов пост-продакшн «переписывать» выступление актера, нам тоже, возможно, стоит поощрять более высокую осведомлённость о такого рода «тонкой» видео-регулировке – не в последнюю очередь потому, что мы по своей природе невероятно чувствительны к очень небольшим вариациям в выражении лиц, и потому что контекст может значительно изменить эффект небольших движений лица (учтите разрушительное воздействие даже улыбки на похоронах, например).
Впервые опубликовано в среду, 2 апреля 2025 года
Пост Выявление мелких, но важных правок ИИ в реальном видео появился впервые на Unite.AI.