JPEG AI размывает границу между реальным и синтетическим

Создано с помощью ChatGPT-4o и Adobe Firefly

В феврале этого года был опубликован международный стандарт JPEG AI после нескольких лет исследований, направленных на использование методов машинного обучения для создания более компактного и легко передаваемого и хранимого кодека изображений без потери качества восприятия.

Из официального потока публикаций по JPEG AI, сравнение между пиковым соотношением сигнал/шум (PSNR) и подходом JPEG AI с усилением ML. Источник: https://jpeg.org/jpegai/documentation.html

Одной из возможных причин того, что это событие вызвало мало шума в новостях, является то, что основные PDF-документы для этого объявления (иронично) не были доступны через порталы с бесплатным доступом, такие как Arxiv. Тем не менее, Arxiv уже предложил ряд исследований, рассматривающих значимость JPEG AI в различных аспектах, включая необычные артефакты сжатия метода и его значимость для судебной экспертизы.

Одно исследование сравнивало артефакты сжатия, включая те, что были в раннем черновике JPEG AI, обнаружив, что новый метод имеет склонность размывать текст – что не является незначительной проблемой в случаях, когда кодек может повлиять на цепочку доказательств. Источник: https://arxiv.org/pdf/2411.06810

Поскольку JPEG AI изменяет изображения так, что это напоминает артефакты генераторов синтетических изображений, существующие судебные инструменты с трудом различают реальные и фальшивые изображения:

После сжатия JPEG AI передовые алгоритмы больше не могут надежно отделить аутентичный контент от обработанных областей на картах локализации, согласно недавней статье (март 2025 года). Исходные примеры слева — это обработанные/фальшивые изображения, где подделанные области четко выделены по стандартным судебным методам (изображение в центре). Однако сжатие JPEG AI придает фальшивым изображениям слой достоверности (изображение справа). Источник: https://arxiv.org/pdf/2412.03261

Одна из причин в том, что JPEG AI обучается с использованием архитектуры моделей, аналогичной тем, которые используются генерирующими системами, которые судебные инструменты стремятся обнаружить:

Новая статья иллюстрирует сходство между методологиями сжатия изображений на основе ИИ и фактически сгенерированными изображениями ИИ. Источник: https://arxiv.org/pdf/2504.03191

Поэтому обе модели могут создавать некоторые схожие основные визуальные характеристики с судебной точки зрения.

Квантование

Этот переход происходит из-за квантования, общего для обеих архитектур, и которое используется в машинном обучении как метод преобразования непрерывных данных в дискретные точки данных, а также как техника оптимизации, которая может значительно уменьшить размер файла обученной модели (любители синтеза изображений могут быть знакомы с ожиданием между громоздким официальным релизом модели и версиями с квантованием, созданными сообществом, которые могут работать на локальном оборудовании).

В этом контексте квантование означает процесс преобразования непрерывных значений в латентном представлении изображения в фиксированные дискретные интервалы. JPEG AI использует этот процесс, чтобы уменьшить количество данных, необходимых для хранения или передачи изображения, упрощая внутреннее численное представление.

Хотя квантование делает кодирование более эффективным, оно также накладывает структурные регулярности, которые могут напоминать артефакты, оставленные генеративными моделями — достаточно тонкие, чтобы избежать восприятия, но нарушающие работу судебных инструментов.

В ответ авторы нового исследования под названием Три судебные подсказки для изображений JPEG AI предлагают интерпретируемые, не нейронные методы, которые выявляют сжатие JPEG AI; определяют, было ли изображение сжато повторно; и различают сжатые реальные изображения от тех, которые были полностью сгенерированы ИИ.

Метод

Корреляции цвета

В статье предлагаются три «судебные подсказки», адаптированные для изображений JPEG AI: корреляции цветовых каналов, введенные на этапе предварительной обработки JPEG AI; измеримые искажения в качестве изображения при повторных сжатиях, которые выявляют события повторного сжатия; и шаблоны квантования в латентном пространстве, которые помогают различить изображения, сжатые JPEG AI, и те, которые сгенерированы моделями ИИ.

Что касается подхода, основанного на корреляциях цвета, то предварительная обработка JPEG AI вводит статистическую зависимость между цветовыми каналами изображения, создавая подпись, которая может служить судебной подсказкой.

JPEG AI преобразует RGB-изображения в цветовое пространство YUV и выполняет субдискретизацию 4:2:0, что включает уменьшение дискретизации хроминансных каналов перед сжатием. Этот процесс приводит к тонким корреляциям между высокочастотными остатками красного, зеленого и синего каналов — корреляциями, которые отсутствуют в несжатых изображениях и отличаются по силе от тех, что создаются традиционным сжатием JPEG или синтетическими генераторами изображений.

Сравнение того, как сжатие JPEG AI изменяет цветовые корреляции в изображениях.

Выше мы можем увидеть сравнение из статьи, иллюстрирующее, как сжатие JPEG AI изменяет цветовые корреляции в изображениях, используя красный канал в качестве примера.

Панель A сравнивает несжатые изображения с сжатыми JPEG AI, показывая, что сжатие значительно увеличивает корреляцию между каналами; панель B изолирует эффект предварительной обработки JPEG AI — только преобразование цвета и субдискретизацию — демонстрируя, что даже этот шаг один повышает корреляции заметно; панель C показывает, что традиционное сжатие JPEG также слегка увеличивает корреляции, но не до такой степени; а панель D исследует синтетические изображения, при этом Midjourney-V5 и Adobe Firefly показывают умеренные увеличения корреляции, в то время как другие остаются ближе к несжатым уровням.

Коэффициент и искажение

Коэффициент и искажение идентифицирует повторное сжатие JPEG AI, отслеживая, как качество изображения, измеряемое пиковым соотношением сигнал/шум (PSNR), снижается в предсказуемом порядке через несколько проходов сжатия.

Исследование утверждает, что многократное сжатие изображения с использованием JPEG AI приводит к постепенно меньшим, но все еще измеримым потерям в качестве изображения, как это количественно оценивается по PSNR, и что это постепенное ухудшение формирует основу для судебной подсказки для определения того, было ли изображение повторно сжато.

В отличие от традиционного JPEG, где более ранние методы отслеживали изменения в конкретных блоках изображения, JPEG AI требует другого подхода из-за своей нейронной архитектуры сжатия; поэтому авторы предлагают отслеживать, как как битрейтинг, так и PSNR развиваются на протяжении последовательных сжатий. Каждое сжатие изменяет изображение меньше, чем предыдущее, и это уменьшающееся изменение (когда откладывается на битрейт) может показать, прошло ли изображение через несколько этапов сжатия:

Иллюстрация того, как повторное сжатие влияет на качество изображения через различные кодеки, с результатами JPEG AI и нейронного кодека, разработанного по адресу https://arxiv.org/pdf/1802.01436; оба демонстрируют постоянное снижение PSNR с каждым дополнительным сжатием, даже при низких битрейтах. В отличие от этого, традиционное сжатие JPEG сохраняет относительно стабильное качество при множественных сжатиях, если не высокий битрейт.

На изображении выше мы видим графически представленные кривые коэффициента и искажения для JPEG AI; второго AI-кодека; и традиционного JPEG, обнаружив, что JPEG AI и нейронный кодек показывают последовательное снижение PSNR при всех битрейтах, в то время как традиционный JPEG демонстрирует заметное ухудшение только при гораздо более высоких битрейтах. Это поведение предоставляет количественный сигнал, который можно использовать для обозначения повторно сжатых изображений JPEG AI.

Извлекая, как битрейт и качество изображения развиваются на протяжении нескольких раундов сжатия, авторы аналогично построили подпись, которая помогает обозначить, было ли изображение повторно сжато, что предоставляет потенциальную практическую судебную подсказку в контексте JPEG AI.

Квантование

Как мы видели ранее, одна из более сложных судебных проблем, возникающих из JPEG AI, — это его визуальное сходство с синтетическими изображениями, созданными диффузионными моделями. Обе системы используют архитектуры кодировщика-декодировщика, которые обрабатывают изображения в сжатом латентном пространстве и часто оставляют тонкие артефакты апсемплинга.

Эти общие черты могут сбивать с толку детекторы — даже те, что были переобучены на изображениях JPEG AI. Однако остается ключевое структурное отличие: JPEG AI применяет квантование, шаг, который округляет латентные значения до дискретных уровней для эффективного сжатия, в то время как генеративные модели, как правило, этого не делают.

Новая статья использует это различие для разработки судебной подсказки, которая косвенно проверяет наличие квантования. Метод анализирует, как латентное представление изображения реагирует на округление, предполагая, что если изображение уже было квантовано, его латентная структура будет демонстрировать измеряемый шаблон выравнивания с округленными значениями.

Эти шаблоны, хотя и незаметны для глаза, производят статистические различия, которые могут помочь отделить реальные сжатые изображения от полностью синтетических.

Пример средних спектров Фурье показывает, что как изображения, сжатые JPEG AI, так и те, что были созданы диффузионными моделями, такими как Midjourney-V5 и Stable Diffusion XL, демонстрируют регулярные сеточные шаблоны в частотной области — артефакты, обычно связываемые с апсемплингом. В отличие от этого, реальные изображения лишены этих шаблонов. Это перекрытие спектральной структуры помогает объяснить, почему судебные инструменты часто путают сжатые реальные изображения с синтетическими.

Важно отметить, что авторы показывают, что эта подсказка работает для различных генеративных моделей и остается эффективной даже когда сжатие достаточно сильное, чтобы обнулить целые секции латентного пространства. В отличие от этого, синтетические изображения демонстрируют гораздо более слабые реакции на этот тест округления, предлагая практический способ различать оба.

Результат предназначен как легковесный и интерпретируемый инструмент, направленный на основное различие между сжатием и генерацией, а не полагаясь на хрупкие поверхностные артефакты.

Данные и тесты

Сжатие

Чтобы оценить, может ли их подсказка о корреляции цвета достоверно обнаруживать сжатие JPEG AI (т.е. первый проход от несжатого источника), авторы протестировали ее на высококачественных несжатых изображениях из набора данных RAISE, сжимая их при различных битрейтах с использованием эталонной реализации JPEG AI.

Они обучили простой случайный лес на статистических шаблонах корреляций цветовых каналов (особенно как остаточный шум в каждом канале выравнивался с другими) и сравнили это с нейронной сетью ResNet50, обученной непосредственно на пикселях изображения.

Точность обнаружения сжатия JPEG AI с использованием характеристик корреляций цвета, сравниваемых при различных битрейтах. Метод наиболее эффективен при низких битрейтах, где артефакты сжатия сильнее, и демонстрирует лучшую обобщаемость к невиданным уровням сжатия, чем базовая модель ResNet50.

В то время как ResNet50 достиг большей точности, когда тестовые данные плотно соответствовали условиям ее обучения, она с трудом обобщала на различных уровнях сжатия. Подход на основе корреляций, хотя и намного проще, оказался более последовательным при различных битрейтах, особенно при более низких уровнях сжатия, где предварительная обработка JPEG AI оказала более сильный эффект.

Эти результаты подсказывают, что даже без глубокого обучения можно обнаружить сжатие JPEG AI, используя статистические подсказки, которые остаются интерпретируемыми и устойчивыми.

Повторное сжатие

Чтобы оценить, может ли повторное сжатие JPEG AI обнаруживаться надежно, исследователи протестировали подсказку коэффициента и искажения на наборе изображений, сжатых при различных битрейтах — некоторые только один раз, а другие во второй раз с использованием JPEG AI.

Этот метод включал извлечение вектора признаков размерностью 17, чтобы отслеживать, как битрейт изображения и PSNR развивались через три прохода сжатия. Этот набор признаков фиксировал, сколько качества терялось на каждом шаге и как вел себя латентный и гиперпараметр — метрики, которые традиционные пиксельные методы не могут легко получить.

Исследователи обучили случайный лес на этих характеристиках и сравнили его производительность с ResNet50, обученной на участках изображения:

Результаты классификации точности случайного леса, обученного на признаках коэффициента и искажения для обнаружения того, было ли изображение JPEG AI повторно сжато. Метод показывает наилучшие результаты, когда первоначальное сжатие сильное (т.е. при низких битрейтах), и затем последовательно превосходит основанную на пикселях ResNet50 — особенно в случаях, когда вторичное сжатие более мягкое, чем первое.

Случайный лес оказался заметно эффективным, когда первоначальное сжатие было сильным (т.е. при низких битрейтах), показывая четкие различия между одноразовыми и двукратно сжатыми изображениями. Как и в предыдущем случае, итерация ResNet50 затруднялась обобщением, особенно при тестировании на уровнях сжатия, которых не было во время обучения.

Признаки коэффициента и искажения, напротив, оставались стабильными в широком диапазоне сценариев. Особенно важно, что подсказка работала даже при применении к другому AI-кодеку, что указывает на то, что подход обобщается за пределами JPEG AI.

JPEG AI и синтетические изображения

Для последнего раунда тестирования авторы проверили, могут ли их характеристики, основанные на квантовании, различать сжатые JPEG AI изображения и полностью синтетические изображения, созданные такими моделями, как Midjourney, Stable Diffusion, DALL-E 2, Glide и Adobe Firefly.

Для этого исследователи использовали поднабор набора данных Synthbuster, объединив реальные фотографии из базы данных RAISE с сгенерированными изображениями из различных диффузионных и основанных на GAN моделей.

Примеры синтетических изображений в Synthbuster, созданные с использованием текстовых подсказок, вдохновлённых естественными фотографиями из набора данных RAISE-1k. Изображения были созданы с помощью различных диффузионных моделей, с подсказками, разработанными для создания фотореалистичного контента и текстур, а не стилизованных или художественных изображений. Источник: https://ieeexplore.ieee.org/document/10334046

Реальные изображения были сжаты с использованием JPEG AI на нескольких уровнях битрейта, и классификация была поставлена в виде двусторонней задачи: либо JPEG AI против конкретного генератора, либо конкретный битрейт против Stable Diffusion XL.

Характеристики квантования (корреляции, извлеченные из латентных представлений) были рассчитаны из фиксированной области 256×256 и переданы классификатору случайного леса. В качестве основы была обучена ResNet50 на пиксельных участках из тех же данных.

Точность классификации случайного леса с использованием характеристик квантования для разделения сжатых изображений JPEG AI от синтетических изображений.

При большинстве условий подход на основе квантования показал лучшие результаты по сравнению с базовой моделью ResNet50, особенно при низких битрейтах, где артефакты сжатия были сильнее.

Авторы утверждают:

«Базовая модель ResNet50 показывает лучшие результаты для изображений Glide с точностью 66,1%, но в остальном обобщает хуже, чем характеристики квантования. Характеристики квантования демонстрируют хорошее обобщение по уровням сжатия и типам генераторов.

«Важность коэффициентов, которые квантованы до нуля, показана в очень уважительной точности усечённых [характеристик], которые в многих случаях сопоставимы с классификатором ResNet50.

«Тем не менее, характеристики квантования, использующие неусечённые, полные целые [вектора], показывают гораздо лучшие результаты. Эти результаты подтверждают, что количество нулей после квантования является важной подсказкой для различения изображений, сжатых ИИ и сгенерированных ИИ.

«Тем не менее, также показывается, что другие факторы также имеют значение. Точность полного вектора для обнаружения JPEG AI для всех битрейтов превышает 91,0%, и более сильное сжатие приводит к более высоким точностям.»

Проекция пространства признаков с использованием UMAP показала четкое разделение между изображениями JPEG AI и синтетическими изображениями, при этом более низкие битрейты увеличивают расстояние между классами. Одним постоянным выбросом были изображения Glide, которые группировались по-другому и имели самую низкую точность обнаружения среди всех протестированных генераторов.

Двумерная визуализация UMAP изображений, сжатых JPEG AI и синтетических изображений на основе характеристик квантования. Левый график показывает, что более низкие битрейты JPEG AI создают большее разделение от синтетических изображений; правый график показывает, как изображения от разных генераторов группируются заметно в пределах пространства признаков.

Двумерная визуализация UMAP изображений, сжатых JPEG AI и синтетических изображений, на основе характеристик квантования. Левый график показывает, что более низкие битрейты JPEG AI создают большее разделение от синтетических изображений; правый график показывает, как изображения от разных генераторов группируются заметно в пределах пространства признаков.

Наконец, авторы оценили, как хорошо характеристики держатся под типичной постобработкой, такой как повторное сжатие JPEG или уменьшение размера. Хотя производительность снизилась при более тяжелой обработке, снижение было постепенным, что указывает на то, что подход сохраняет некоторую устойчивость даже при ухудшенных условиях.

Оценка устойчивости характеристик квантования под постобработкой, включая повторное сжатие JPEG (JPG) и изменение размера изображения (RS).

Заключение

Не гарантировано, что JPEG AI получит широкое признание. Во-первых, существует достаточно инфраструктурного долга, чтобы вызвать трение на любом новом кодеке; и даже «традиционному» кодеку с хорошей репутацией и широким согласием по его ценности, такому как AV1, трудно вытеснить давно установленные методы.

Что касается потенциального конфликта системы с генераторами ИИ, характерные артефакты квантования, которые помогают текущему поколению детекторов изображений ИИ, могут быть уменьшены или в конечном итоге заменены следами другого типа в более поздних системах (при условии, что генераторы ИИ всегда оставят судебный след, что не является уверенностью).

Это означало бы, что собственные характеристики квантования JPEG AI, возможно, вместе с другими подсказками, определенными в новой статье, могут в конечном итоге не пересекаться с судебной цепочкой самых эффективных новых генеративных AI-систем.

Если, однако, JPEG AI продолжит действовать как фактический «AI wash», значительно размывая различия между реальными и сгенерированными изображениями, будет трудно убедительно аргументировать его принятие.

Первоначально опубликовано во вторник, 8 апреля 2025 года

Пост JPEG AI размывает границу между реальным и синтетическим впервые появился на Unite.AI.

Перейти к источнику

Квантование

Метод

Корреляции цвета

Коэффициент и искажение

Квантование

Данные и тесты

Сжатие

Повторное сжатие

JPEG AI и синтетические изображения

Заключение

ОтветитьОтменить ответ