Обучение ИИ давать лучшие отзывы о видео

Image of a robot with popcorn in a cinema, ChatGPt-4+ and Adobe Firefly.

Хотя большие модели языка с визуальными возможностями (LVLMs) могут быть полезными помощниками в интерпретации некоторых из более редких или сложных материалов в литературе по компьютерному зрению, есть одна область, где они ограничены: определение достоинств и субъективного качества любых видеопредставлений, которые сопровождают новые работы*.

Это критически важный аспект подачи, поскольку научные статьи часто стремятся вызвать интерес с помощью выразительного текста или визуальных образов – или того и другого.

Но в случае проектов, связанных с синтезом видео, авторам необходимо показать фактический видеовывод или рисковать тем, что их работа будет отвергнута; и именно в этих демонстрациях разрыв между смелыми утверждениями и реальной производительностью чаще всего становится очевидным.

Я прочитал книгу, но не видел фильм

В настоящее время большинство популярных языковых моделей на основе API (LLMs) и больших моделей языка с визуальными возможностями (LVLMs) не могут напрямую анализировать видео-контент никаким образом, качественно или иначе. Вместо этого они могут анализировать только связанные транскрипты – и, возможно, комментарии и другие строго текстовые сопутствующие материалы.

The diverse objections of GPT-4o, Google Gemini and Perplexity, when asked to directly analyze video, without recourse to transcripts or other text-based sources.

Разнообразные возражения GPT-4o, Google Gemini и Perplexity, когда их просят напрямую анализировать видео, без обращения к транскриптам или другим текстовым источникам.

Однако LLM может скрыть или отрицать свою неспособность на самом деле смотреть видео, если вы не укажете на это:

Having been asked to provide a subjective evaluation of a new research paper's associated videos, and having faked a real opinion, ChatGPT-4o eventually confesses that it cannot really view video directly.

После того как его попросили предоставить субъективную оценку связанных с новым исследовательским проектом видео, и имитировав истинное мнение, ChatGPT-4o в конечном итоге признается, что он не может на самом деле смотреть видео напрямую.

Хотя такие модели, как ChatGPT-4o, являются мультимодальными и могут, по крайней мере, анализировать отдельные фотографии (например, кадр, извлеченный из видео, см. изображение выше), есть некоторые проблемы даже с этим: во-первых, нет оснований доверять качественному мнению LLM, тем более, что LLM склонны к «угождению людям», а не к искреннему дискурсу.

Во-вторых, многие, если не большинство, проблемы с сгенерированным видео могут иметь временной аспект, который полностью теряется в захваченном кадре – и поэтому анализ отдельных кадров не имеет смысла.

Наконец, LLM может дать предполагаемое «стоимостное суждение», основанное (снова) на усвоении текстовой информации, например, в отношении дипфейков или истории искусства. В таком случае обученные знания в соответствующей области позволяют LLM сопоставлять проанализированные визуальные качества изображения с усвоенными встраиваниями на основе человеческого понимания:

The FakeVLM project offers targeted deepfake detection via a specialized multi-modal vision-language model. Source: https://arxiv.org/pdf/2503.14905

Проект FakeVLM предлагает целевое обнаружение дипфейков через специализированную мультимодальную модель языка и зрения. Источник: https://arxiv.org/pdf/2503.14905

Это не значит, что LLM не может извлекать информацию непосредственно из видео; например, с помощью вспомогательных ИИ-систем, таких как YOLO, LLM может идентифицировать объекты в видео – или может делать это напрямую, если обучен для выше среднего количества мультимодальных функций.

Но единственный способ, которым LLM мог бы возможно оценить видео субъективно (т.е., ‘Это мне не кажется реальным’), — это применение метрики на основе функции потерь, которая либо известна как хорошо отражающая человеческое мнение, либо же прямо формируется под воздействием человеческого мнения.

Функции потерь — это математические инструменты, используемые во время обучения для измерения того, насколько далеко предсказания модели от правильных ответов. Они предоставляют обратную связь, которая направляет обучение модели: чем больше ошибка, тем выше потеря. С развитием обучения модель корректирует свои параметры, чтобы уменьшить эти потери, постепенно улучшая свою способность делать точные предсказания.

Функции потерь используются как для регулирования обучения моделей, так и для калибровки алгоритмов, предназначенных для оценки вывода ИИ-моделей (например, оценки смоделированного фотореалистичного контента от генеративной видео модели).

Условное зрение

Одной из самых популярных метрик/функций потерь является Fréchet Inception Distance (FID), которая оценивает качество созданных изображений, измеряя схожесть между их распределением (что здесь означает «как изображения распределены или сгруппированы по визуальным характорам») и распределением реальных изображений.

Конкретно, FID вычисляет статистическую разницу, используя средние и ковариации, между признаками, извлеченными из обоих наборов изображений, используя (часто критикуемую) Inception v3 классификационную сеть. Более низкий балл FID указывает на то, что созданные изображения более схожи с реальными изображениями, что подразумевает лучшее визуальное качество и разнообразие.

Однако FID, по сути, сравнительная и, вероятно, самоцелевая по своей природе. Чтобы исправить это, более поздний Conditional Fréchet Distance (CFD, 2021) подход отличается от FID тем, что сравнивает созданные изображения с реальными изображениями и оценивает балл на основе того, насколько хорошо оба набора соответствуют дополнительному условию, такому как (неизбежно субъективная) метка класса или входное изображение.

Таким образом, CFID учитывает, насколько точно изображения соответствуют поставленным условиям, а не только их общему реализму или разнообразию между собой.

Examples from the 2021 CFD outing. Source: https://github.com/Michael-Soloveitchik/CFID/

Примеры из CFD 2021 года. Источник: https://github.com/Michael-Soloveitchik/CFID/

CFD следует последнему тренду, заключающемуся в внедрении качественной интерпретации человека в функции потерь и алгоритмы метрик. Хотя такой человекоцентрированный подход гарантирует, что результирующий алгоритм не будет «бездуховным» или просто механическим, он одновременно представляет ряд проблем: возможность предвзятости; необходимость обновления алгоритма в соответствии с новыми практиками, и тот факт, что это устранит возможность достижения согласованных сравнительных стандартов на протяжении многих лет по проектам; и бюджетные ограничения (меньше человеческих участников сделают определения более спекулятивными, в то время как большее количество может остановить полезные обновления из-за стоимости).

cFreD

Это подводит нас к новой статье из США, которая, по-видимому, предлагает Conditional Fréchet Distance (cFreD), новый взгляд на CFD, который предназначен для лучшего отражения предпочтений человека путем оценки как визуального качества, так и соответствия текста и изображения

Partial results from the new paper: image rankings (1–9) by different metrics for the prompt "A living room with a couch and a laptop computer resting on the couch." Green highlights the top human-rated model (FLUX.1-dev), purple the lowest (SDv1.5). Only cFreD matches human rankings. Please refer to the source paper for complete results, which we do not have room to reproduce here. Source: https://arxiv.org/pdf/2503.21721

Частичные результаты из новой статьи: рейтинги изображений (1–9) по различным метрикам для подсказки «Гостиная с диваном и ноутбуком, лежащим на диване». Зеленый выделяет модель с высшим рейтингом у людей (FLUX.1-dev), фиолетовый – с самым низким (SDv1.5). Только cFreD соответствует рейтингам людей. Пожалуйста, обратитесь к исходной статье за полными результатами, которые мы не можем воспроизвести здесь. Источник: https://arxiv.org/pdf/2503.21721

Авторы утверждают, что существующие методы оценки для синтеза текста в изображение, такие как Inception Score (IS) и FID, плохо согласуются с человеческим суждением, потому что они измеряют только качество изображений, не учитывая, как изображения соответствуют их запросам:

«Например, рассмотрим набор данных с двумя изображениями: одно из собаки и одно из кошки, каждое из которых сопоставлено с соответствующим запросом. Идеальная модель текста в изображение, которая ошибочно меняет эти соответствия (т.е. генерируя кошку для запроса собаки и наоборот), достигнет почти нулевого значения FID, поскольку общее распределение кошек и собак сохранено, несмотря на несоответствие с предполагаемыми запросами.

«Мы показываем, что cFreD лучше захватывает оценку качества изображений и соответствует входному тексту, что приводит к улучшенной корреляции с предпочтениями человека.'

The paper's tests indicate that the authors' proposed metric, cFreD, consistently achieves higher correlation with human preferences than FID, FDDINOv2, CLIPScore, and CMMD on three benchmark datasets (PartiPrompts, HPDv2, and COCO).

Тесты статьи показывают, что предложенная авторами метрика, cFreD, последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOv2, CLIPScore и CMMD на трех эталонных наборах данных (PartiPrompts, HPDv2 и COCO).

Концепция и метод

Авторы отмечают, что текущий золотой стандарт для оценки моделей текста в изображение включает сбор данных о предпочтениях человека через сравнительные оценки, похожие на методы, используемые для больших языковых моделей (таких как LMSys Arena).

Например, PartiPrompts Arena использует 1 600 английских подсказок, представляя участникам пары изображений из различных моделей и спрашивая их выбрать предпочитаемое изображение.

Аналогично, Text-to-Image Arena Leaderboard использует пользовательские сравнения выходных данных моделей для создания рейтингов с помощью оценок ELO. Однако сбор таких данных о человеческой оценке является дорогостоящим и медленным, что приводит некоторые платформы – такие как PartiPrompts Arena – к полной остановке обновлений.

The Artificial Analysis Image Arena Leaderboard, which ranks the currently-estimated leaders in generative visual AI. Source: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Лидерборд Image Arena от Artificial Analysis, который ранжирует текущих предполагаемых лидеров в генеративном визуальном ИИ. Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Хотя альтернативные методы, обученные на исторических данных предпочтений человека, существуют, их эффективность для оценки будущих моделей остается неопределенной, поскольку предпочтения человека постоянно эволюционируют. Следовательно, автоматические метрики, такие как FID, CLIPScore и предложенная авторами cFreD, вероятно, останутся важными инструментами оценки.

Авторы предполагают, что как реальные, так и сгенерированные изображения в соответствии с подсказкой следуют гауссовскому распределению, каждое из которых определяется условными средними значениями и ковариациями. cFreD измеряет ожидаемое расстояние Фреше между этими условными распределениями по подсказкам. Это может быть сформулировано либо напрямую в терминах условной статистики, либо путем комбинирования безусловной статистики с перекрестными ковариациями, касающимися подсказки.

Включив подсказку таким образом, cFreD может оценить как реалистичность изображений, так и их согласованность с данным текстом.

Данные и тесты

Чтобы оценить, насколько хорошо cFreD коррелирует с предпочтениями человека, авторы использовали рейтинги изображений от нескольких моделей, использующих одинаковый текст. Их оценка основывалась на двух источниках: тестовом наборе Human Preference Score v2 (HPDv2), который включает девять сгенерированных изображений и одно COCO реальное изображение для каждой подсказки; и ранее упоминаемом PartiPrompts Arena, который содержит выходные данные четырех моделей по 1 600 подсказкам.

Авторы собрали разбросанные данные Arena в единую выборку; в случаях, когда реальное изображение не занимает первое место в оценках людей, они использовали изображение с наивысшим рейтингом в качестве ссылки.

Чтобы протестировать более новые модели, они выбрали 1 000 подсказок из обучающих и валидационных наборов COCO, гарантируя отсутствие пересечения с HPDv2, и сгенерировали изображения, используя девять моделей с Лидерборда Arena. Исходные изображения COCO служили ссылкой в этой части оценки.

Подход cFreD был оценен через четыре статистические метрики: FID; FDDINOv2; CLIPScore; и CMMD. Он также был оценен в сравнении с четырьмя обученными метриками на данных о предпочтениях человека: Aesthetic Score; ImageReward; HPSv2; и MPS.

Авторы оценили корреляцию с человеческим суждением как с точки зрения рейтинга, так и оценки: для каждой метрики были предоставлены оценки моделей, и рейтинги были рассчитаны для их соответствия оценкам людей, при этом cFreD использовал DINOv2-G/14 для встраивания изображений и OpenCLIP ConvNext-B Text Encoder для встраивания текста†.

Предыдущая работа по обучению человеческим предпочтениям измеряла производительность с использованием точности ранжирования для каждого элемента, вычисляя точность ранжирования для каждой пары изображение-текст перед усреднением результатов.

Авторы вместо этого оценили cFreD с использованием глобальной точности ранжирования, которая оценивает общую производительность ранжирования по всему набору данных; для статистических метрик они выводили рейтинги напрямую из сырых оценок; а для метрик, обученных на предпочтениях человека, сначала усреднили рейтинги, присвоенные каждой модели по всем образцам, а затем определили финальный рейтинг из этих средних значений.

Начальные тесты использовали десять фреймворков: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; и LAFITE.

Model rankings and scores on the HPDv2 test set using statistical metrics (FID, FDDINOv2, CLIPScore, CMMD, and cFreD) and human preference-trained metrics (Aesthetic Score, ImageReward, HPSv2, and MPS). Best results are shown in bold, second best are underlined.

Рейтинги моделей и баллы на тестовом наборе HPDv2 с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на предпочтениях человека (Aesthetic Score, ImageReward, HPSv2 и MPS). Лучшие результаты выделены жирным, вторые лучшие подчеркнуты.

По первоначальным результатам авторы комментируют:

«cFreD достигает наилучшего соответствия с предпочтениями человека, достигая корреляции 0.97. Среди статистических метрик cFreD достигает самой высокой корреляции и сопоставим с HPSv2 (0.94), моделью, явно обученной на предпочтениях человека. Учитывая, что HPSv2 была обучена на наборе данных HPSv2, который включает четыре модели из тестового набора, и использовав тот же набор аннотаторов, она по своей сути кодирует специфические человеческие предпочтения этой же обстановки.

«В то время как cFreD достигает сопоставимой или большей корреляции с человеческой оценкой без какого-либо обучения на предпочтениях человека.

«Эти результаты демонстрируют, что cFreD предоставляет более надежные рейтинги для различных моделей по сравнению со стандартными автоматическими метриками и метриками, обученными явно на данных о предпочтениях человека.'

Среди всех оцененных метрик cFreD достигла самой высокой точности ранжирования (91.1%), демонстрируя – утверждают авторы – сильное соответствие с человеческими оценками.

HPSv2 получила 88.9%, в то время как FID и FDDINOv2 показали конкурентоспособные результаты 86.7%. Хотя метрики, обученные на данных о предпочтениях человека, обычно хорошо соотносились с человеческими оценками, cFreD оказалась наиболее надежной и надежной в целом.

Ниже приведены результаты второго тура тестирования, на этот раз в Arena PartiPrompts, с использованием SDXL; Kandinsky 2; Würstchen; и Karlo V1.0.

Model rankings and scores on PartiPrompt using statistical metrics (FID, FDDINOv2, CLIPScore, CMMD, and cFreD) and human preference-trained metrics (Aesthetic Score, ImageReward, and MPS). Best results are in bold, second best are underlined.

Рейтинги моделей и баллы на PartiPrompt с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на предпочтениях человека (Aesthetic Score, ImageReward и MPS). Лучшие результаты выделены жирным, вторые лучшие подчеркнуты.

Здесь статья утверждает:

«Среди статистических метрик cFreD достигает самой высокой корреляции с человеческими оценками (0.73), в то время как FID и FDDINOv2 обе достигают корреляции 0.70. В то время как FID и FDDINOv2 показывают очень низкую корреляцию (0.12) с человеческими суждениями.

«В категории, обученной на предпочтениях человека, HPSv2 имеет самое сильное соответствии, достигая самой высокой корреляции (0.83), за которым следуют ImageReward (0.81) и MPS (0.65). Эти результаты подчеркивают то, что хотя cFreD является надежной автоматической метрикой, HPSv2 выделяется как наиболее эффективная в захвате тенденций человеческой оценки в Arena PartiPrompts.'

Наконец, авторы провели оценку на наборе данных COCO, используя девять современных моделей текст в изображение: FLUX.1[dev]; Playgroundv2.5; Janus Pro; и варианты Stable Diffusion SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 и 1.5.

Рейтинги предпочтений человека были получены из Лидерборда текст в изображение и представлены в виде оценок ELO:

Model rankings on randomly sampled COCO prompts using automatic metrics (FID, FDDINOv2, CLIPScore, CMMD, and cFreD) and human preference-trained metrics (Aesthetic Score, ImageReward, HPSv2, and MPS). A rank accuracy below 0.5 indicates more discordant than concordant pairs, and best results are in bold, second best are underlined.

Рейтинги моделей по случайно выбранным подсказкам COCO с использованием автоматических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на предпочтениях человека (Aesthetic Score, ImageReward, HPSv2 и MPS). Точность ранжирования ниже 0.5 указывает на большее несоответствие, чем соответствие, и лучшие результаты выделены жирным, вторые лучшие подчеркнуты.

Что касается этого раунда, исследователи заявляют:

«Среди статистических метрик (FID, FDDINOv2, CLIP, CMMD и наша предложенная cFreD), только cFreD показывает сильную корреляцию с предпочтениями человека, достигая корреляции 0.33 и нетривиальной точности ранжирования 66.67%. «Этот результат помещает cFreD на третье место по общему соответствию, уступая только метрикам обученным на предпочтениях человека ImageReward, HPSv2 и MPS.

«Замечательно, что все другие статистические метрики показывают значительно более слабое соответствие с рейтингами ELO и, как следствие, инвертировали рейтинги, в результате чего получилось Рейтинг Акк. ниже 0.5.

«Эти результаты подчеркивают, что cFreD чувствителен как к визуальной достоверности, так и к согласованности подсказок, что подчеркивает его ценность как практической, не требующей обучения альтернативы для бенчмаркинга генерации текста в изображения.'

Авторы также протестировали Inception V3 как основную модель, обращая внимание на его повсеместность в литературе, и обнаружили, что InceptionV3 работает неплохо, но был превзойден трансформаторными основами такими как DINOv2-L/14 и ViT-L/16, которые более последовательно соответствовали человеческим рейтингам – и они утверждают, что это поддерживает замену InceptionV3 в современных сетапах оценки.

Win rates showing how often each image backbone's rankings matched the true human-derived rankings on the COCO dataset.

Процент побед, показывающий, насколько часто рейтинги каждой основной модели изображений соответствовали истинным рейтингам, полученным от человека, на наборе данных COCO.

Заключение

Ясно, что хотя решения с человеческим участием являются оптимальным подходом к разработке метрик и функций потерь, масштабы и частота необходимых обновлений таких схем будут продолжать делать их непрактичными – возможно, до того времени, как широкое участие общественности в оценках будет в целом стимулировано; или, как это уже случалось с CAPTCHA, будет обязательным.

Достоверность новой системы авторов все еще зависит от ее согласования с человеческим суждением, хотя на одно удаление больше, чем у многих недавних подходов с участием человека; и поэтому легитимность cFreD остается в данных о предпочтениях человека (очевидно, поскольку без такой базы сравнения утверждение о том, что cFreD отражает человеческую оценку, было бы неподтверждаемым).

Можно утверждать, что закрепление наших текущих критериев «реализма» в генеративном выводе в функцию метрики может быть ошибкой в долгосрочной перспективе, поскольку наше определение этого понятия в настоящее время подвергается нападению новой волны генеративных ИИ-систем и подлежит частым и значительным поправкам.

 

* На этом этапе я обычно включал бы пример видео, возможно, из недавней академической работы; но это было бы бесчеловечно – любой, кто потратил больше 10-15 минут, исследуя выходные данные генеративного ИИ на Arxiv, уже наткнется на дополнительные видео, качество которых субъективно низкое, что свидетельствует о том, что соответствующая работа не будет встречена как знаковая статья.

Всего в экспериментах использовалось 46 моделей основ изображений, не все из которых учитываются в графических результатах. Пожалуйста, обратитесь к приложению статьи для получения полного списка; те, что представлены в таблицах и фигурах, были перечислены.

 

Первоначально опубликовано во вторник, 1 апреля 2025 года.

Запись Обучение ИИ предоставлять лучшие видео-критики появилась в первый раз на Unite.AI.

Перейти к источнику

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *