Ищем «Совы и Ящерицы» в аудитории рекламодателей

Изображения из статьи 'Мониторинг внимания зрителей во время онлайн-рекламы' (https://arxiv.org/pdf/2504.06237)

Поскольку в секторе онлайн-рекламы ожидается расходование 740,3 миллиарда долларов США в 2023 году, несложно понять, почему рекламные компании вкладывают значительные ресурсы в это направление исследований компьютерного зрения.

Хотя отрасль и изолирована, она иногда публикует исследования, которые намекают на более продвинутую проприетарную работу в области распознавания лиц и движения глаз – включая распознавание возраста, что является центральным элементом демографической аналитики:

Оценка возраста в контексте рекламы на улице интересует рекламодателей, которые могут нацеливаться на определённую демографическую группу. В этом экспериментальном примере автоматической оценки возраста лица отслеживается возраст исполнителя Боба Дилана на протяжении лет. Источник: https://arxiv.org/pdf/1906.03625

Оценка возраста в контексте рекламы на улице интересует рекламодателей, которые могут нацеливаться на определенную возрастную демографию. В этом экспериментальном примере автоматической оценки возраста лица отслеживается возраст исполнителя Боба Дилана на протяжении лет. Источник: https://arxiv.org/pdf/1906.03625

Эти исследования, которые редко появляются в общедоступных репозиториях, таких как Arxiv, используют законно рекрутированных участников в качестве основы для анализа, основанного на ИИ, который стремится определить, насколько и как зритель взаимодействует с рекламой.

Гистограмма ориентированных градиентов (HoG) от Dlib часто используется в системах оценки лиц. Источник: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Гистограмма ориентированных градиентов (HoG) от Dlib часто используется в системах оценки лиц. Источник: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Инстинкт животного

В этом отношении рекламная индустрия, естественно, заинтересована в определении ложных срабатываний (случаи, когда аналитическая система неверно интерпретирует действия субъекта) и в установлении четких критериев для случаев, когда человек, смотрящий их рекламу, не полностью вовлечен в контент.

Что касается экранной рекламы, исследования, как правило, сосредоточены на двух проблемах в двух средах. Среды – это ‘десктоп’ или ‘мобильный’, каждая из которых имеет свои особенности, требующие индивидуальных решений для отслеживания; а проблемы – с точки зрения рекламодателя – представлены поведением совы и поведением ящерицы – тенденцией зрителей не обращать полного внимания на рекламу, которая перед ними.

Примеры поведения совы и ящерицы в рамках проекта рекламных исследований. Источник: https://arxiv.org/pdf/1508.04028

Примеры поведения ‘совы’ и ‘ящерицы’ в рамках проекта рекламных исследований. Источник: https://arxiv.org/pdf/1508.04028

Если вы отворачиваетесь от целевой рекламы, поворачивая голову, это поведение ‘совы’; если ваша голова остается неподвижной, но ваши глаза блуждают от экрана, это поведение ‘ящерицы’. С точки зрения аналитики и тестирования новых рекламных материалов в контролируемых условиях эти действия являются необходимыми для системы, чтобы зафиксировать.

Новая работа, полученная от приобретения Affectiva компанией SmartEye, затрагивает эти вопросы, предлагая архитектуру, которая использует несколько существующих фреймворков для предоставления комбинированного набора характеристик в различных условиях и возможных реакциях – и позволяет определить, скучает ли зритель, вовлечен ли он или находится в каком-то отдаленном состоянии от контента, который рекламодатель хочет, чтобы он смотрел.

Примеры истинных и ложных срабатываний, обнаруженных новой системой внимания для различных сигналов отвлечения, показанных отдельно для настольных и мобильных устройств. Источник: https://arxiv.org/pdf/2504.06237

Примеры истинных и ложных срабатываний, обнаруженных новой системой внимания для различных сигналов отвлечения, показанных отдельно для настольных и мобильных устройств. Источник: https://arxiv.org/pdf/2504.06237

Авторы утверждают*:

Ограниченные исследования изучали мониторинг внимания во время онлайн-рекламы. Хотя эти исследования сосредоточились на оценке положения головы или направления взгляда для определения случаев отвлеченного взгляда, они игнорируют критически важные параметры, такие как тип устройства (десктоп или мобильный), расположение камеры относительно экрана и размер экрана. Эти факторы существенно влияют на определение внимания.

‘В этой статье мы предлагаем архитектуру для обнаружения внимания, которая включает в себя определение различных отвлекающих факторов, включая как поведение совы, так и поведение ящерицы, взирающих с экрана, говорящих, сонливых (через зевоту и длительное закрытие глаз) и оставляющих экран без присмотра.

‘В отличие от предыдущих подходов, наш метод объединяет особенности, специфичные для устройства, такие как тип устройства, размещение камеры, размер экрана (для настольных ПК) и ориентация камеры (для мобильных устройств) с сырой оценкой взгляда, чтобы повысить точность определения внимания.

Новая работа названа Мониторинг внимания зрителей во время онлайн-рекламы и была выполнена четырьмя исследователями из Affectiva.

Метод и данные

В основном из-за секретности и закрытости таких систем новая работа не сравнивает подход авторов напрямую с конкурентами, но представлена только в виде аблационных исследований; работа также не соответствует обычно используемому формату литературы по компьютерному зрению. Поэтому мы рассмотрим исследование так, как оно представлено.

Авторы подчеркивают, что только ограниченное число исследований конкретно обращалось к определению внимания в контексте онлайн-рекламы. В AFFDEX SDK, который предлагает распознавание нескольких лиц в реальном времени, внимание выводится исключительно из положения головы, с пометкой, что участники невнимательны, если их угол головы превышает определенный порог.

Пример из AFFDEX SDK, системы Affectiva, которая использует положение головы в качестве индикатора внимания. Источник: https://www.youtube.com/watch?v=c2CWb5jHmbY

Пример из AFFDEX SDK, системы Affectiva, которая использует положение головы в качестве индикатора внимания. Источник: https://www.youtube.com/watch?v=c2CWb5jHmbY

В 2019 году в Автоматическом измерении визуального внимания к видеоконтенту с использованием глубокого обучения был аннотирован набор данных из khoảng 28,000 участников по различным невнимательным поведением, включая отвлечение взгляда, закрытие глаз или занятия несоответствующими действиями, и была обучена модель CNN-LSTM для определения внимания на основе лицевой внешности во времени.

Из статьи 2019 года, пример, иллюстрирующий предсказанные состояния внимания зрителя, смотрящего видеоконтент на экране. Источник: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Из статьи 2019 года, пример, иллюстрирующий предсказанные состояния внимания зрителя, смотрящего видеоконтент. Источник: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Однако авторы отмечают, что эти ранние усилия не учитывали факторы, специфичные для устройства, такие как то, использовал ли участник настольный или мобильный устройство; они также не рассмотрели размер экрана или размещение камеры. Кроме того, система AFFDEX сосредотачивается только на выявлении отвлечений взгляда и исключает другие источники отвлечения, в то время как работа 2019 года пытается обнаружить более широкий набор поведений – но её использование одной мелкой CNN, по утверждению статьи, могло оказаться недостаточным для этой задачи.

Авторы отмечают, что некоторые из наиболее популярных исследований в этой области не оптимизированы для тестирования рекламы, поскольку имеют другие потребности по сравнению с такими областями, как вождение или образование – где расположение камеры и калибровка обычно фиксированы заранее, полагаясь на некалиброванные установки и работающие в пределах ограниченного диапазона взгляда настольных и мобильных устройств.

Таким образом, они разработали архитектуру для определения внимания зрителей во время онлайн-рекламы, использующую два коммерческих инструментария: AFFDEX 2.0 и SmartEye SDK.

Примеры анализа лица из AFFDEX 2.0. Источник: https://arxiv.org/pdf/2202.12059

Примеры анализа лица из AFFDEX 2.0. Источник: https://arxiv.org/pdf/2202.12059

Эти предыдущие работы извлекают низкоуровневые особенности, такие как мимика, положение головы и направление взгляда. Эти особенности затем обрабатываются для получения более высокоуровневых индикаторов, включая положение взгляда на экране; зевоту; и самовыражение.

Система идентифицирует четыре типа отвлечений: взгляд за пределами экрана; сонливость; говорение; и бросание экрана без присмотра. Она также корректирует анализ взгляда в зависимости от того, использует ли зритель настольное или мобильное устройство.

Наборы данных: Взгляд

Авторы использовали четыре набора данных для работы и оценки системы определения внимания: три, сосредоточенные на поведении взгляда, говорении и зевоте; и четвертый, полученный из реальных тестирований рекламы, содержащий смесь типов отвлечений.

Из-за специфических требований работы для каждой из этих категорий были созданы индивидуальные наборы данных. Все кураторские наборы данных были получены из закрытого репозитория, который включает миллионы записанных сеансов участников, смотрящих рекламу в домашних или рабочих условиях, с использованием веб-установки, с информированным согласием – и из-за ограничений этих соглашений авторы подчеркивают, что наборы данных для новой работы не могут быть сделаны общедоступными.

Для формирования набора данных взгляд участникам было предложено следить за движущейся точкой по различным точкам на экране, включая его края, а затем смотреть в четырех направлениях (вверх, вниз, влево и вправо), при этом последовательность повторялась трижды. Таким образом было установлено соотношение между захватом и охватом:

Скриншоты, показывающие стимул видео взгляда на (a) настольных и (b) мобильных устройствах. Первые и третьи кадры отображают инструкции следовать за движущейся точкой, в то время как вторые и четвертые призывают участников отвлечься от экрана.

Скриншоты, показывающие стимул видео взгляда на (a) настольных и (b) мобильных устройствах. Первые и третьи кадры отображают инструкции следовать за движущейся точкой, в то время как вторые и четвертые призывают участников отвлечься от экрана.

Сегменты с движущейся точкой были помечены как внимательные, а сегменты за пределами экрана – как невнимательные, что дало помеченный набор данных как положительных, так и отрицательных примеров.

Каждое видео длилось примерно 160 секунд, для настольных и мобильных платформ были созданы отдельные версии, каждая с разрешениями 1920×1080 и 608×1080, соответственно.

Всего было собрано 609 видео, из которых 322 – настольные и 287 – мобильные записи. Метки были автоматически применены на основе содержимого видео, и набор данных был разделен на 158 обучающих и 451 тестовый образец.

Наборы данных: Говорение

В этом контексте одним из критериев, определяющих ‘невнимание’, является ситуация, когда человек говорит более одной секунды (это может быть мгновенный комментарий или даже кашель).

Поскольку контролируемая среда не записывает и не анализирует звук, речь делается предположением по наблюдению за внутренними движениями оцененных лицевых точек. Поэтому, чтобы обнаружить говорение без звука, авторы создали набор данных на основе исключительно визуального ввода, полученного из их внутреннего репозитория, и разделенный на две части: первая из них содержала около 5500 видео, каждое из которых вручную помечалось тремя аннотаторами как говорящим или не говорящим (из них 4400 использовались для обучения и валидации, а 1100 – для тестирования).

Вторая часть состояла из 16 000 сеансов, автоматически помеченных на основе типа сеанса: 10500 представляют участников, молча смотрящих рекламу, и 5500 показывают участников, выражающих мнения о брендах.

Наборы данных: Зевота

Хотя существуют некоторые наборы данных о ‘зевоте’, включая YawDD и Усталость водителя, авторы утверждают, что ни один из них не подходит для сценариев тестирования рекламы, поскольку они либо содержат симулированные зевоты, либо показывают лицевые искажения, которые могут быть перепутаны с страхом или другими непривязанными действиями.

Таким образом, авторы использовали 735 видео из своей внутренней коллекции, выбирая сеансы, вероятно, содержащие разжатие челюсти продолжительностью более одной секунды. Каждое видео было вручную помечено тремя аннотаторами как показывающее активное или неактивное зевание. Всего 2.6% кадров содержали активные зевки, подчеркивая дисбаланс классов, и набор данных был разделен на 670 учебных видео и 65 для тестирования.

Наборы данных: Отвлечение

Набор данных отвлечения также был получен из репозитория тестирования рекламы авторов, где участники смотрели реальные рекламы без назначенных задач. Всего 520 сеансов (193 на мобильных и 327 на настольных устройствах) были случайным образом отобраны и вручную помечены тремя аннотаторами как внимательные или невнимательные.

Невнимательное поведение включало отвлечение взгляда, говорение, сонливость и брошенные экраны. Сеансы охватывают разные регионы по всему миру, при этом записи на настольных ПК встречаются чаще из-за гибкости размещения веб-камеры.

Модели внимания

Предлагаемая модель внимания обрабатывает низкоуровневые визуальные особенности, а именно мимику, положение головы и направление взгляда – которые извлекаются с помощью уже упомянутых AFFDEX 2.0 и SmartEye SDK.

Затем они преобразуются в высокоуровневые индикаторы, при этом для каждого отвлекающего фактора используется отдельный бинарный классификатор, обученный на собственном наборе данных для независимой оптимизации и оценки.

Схема предложенной системы мониторинга.

Схема предложенной системы мониторинга.

Модель взгляда определяет, смотрит ли зритель на экран или отводит взгляд, используя нормализованные координаты взгляда, с отдельной калибровкой для настольных и мобильных устройств. В этом процессе помогает линейная машина опорных векторов (SVM), обученная на пространственных и временных характеристиках, которая включает окно памяти, чтобы сгладить быстрые изменения взгляда.

Чтобы обнаружить говорение без звука, система использовала обрезанные области рта и 3D-CNN, обученный на сегментах разговорного и неразговорного видео. Метки присваивались на основе типа сеанса, при этом временное сглаживание снижает количество ложных срабатываний, которые могут возникнуть из-за кратковременного движения рта.

Зевота определялась с использованием обрезки полнофасадного изображения для захвата более широких лицевых движений, при этом 3D-CNN был обучен на вручную аннотированных кадрах (хотя задача была усложнена низкой частотой зевоты в естественном просмотре и её схожестью с другими выражениями).

Брошенные экраны определялись путем отсутствия лица или экстремального положения головы, а предсказания выполнялись с помощью дерева решений.

Итоговый статус внимания определялся с использованием фиксированного правила: если любой модуль фиксировал невнимание, зритель помечался как невнимательный – подход с приоритетом на чувствительность и настроенный отдельно для контекстов настольных и мобильных устройств.

Тесты

Как уже упоминалось, тесты следуют абляционному методу, при котором компоненты удаляются, и эффект на результат фиксируется.

Различные категории воспринимаемого невнимания, идентифицированные в исследовании.

Различные категории воспринимаемого невнимания, идентифицированные в исследовании.

Модель взгляда определила поведение за экраном через три ключевых этапа: нормализация сырой оценки взгляда, тонкая настройка вывода и оценка размера экрана для настольных устройств.

Чтобы понять важность каждого компонента, авторы удаляли их индивидуально и оценивали показатели на 226 настольных и 225 мобильных видео, выбранных из двух наборов данных. Результаты, измеренные с помощью G-mean и F1 баллов, показаны ниже:

Результаты, показывающие производительность полной модели взгляда, наряду с версиями с удаленными индивидуальными шагами обработки.

Результаты, показывающие производительность полной модели взгляда, наряду с версиями с удаленными индивидуальными шагами обработки.

В каждом случае производительность ухудшалась при отсутствии какого-либо шага. Нормализация оказалась особенно полезной на настольных ПК, где размещение камер варьируется больше, чем на мобильных устройствах.

Исследование также оценивало, как визуальные характеристики предсказывали ориентацию мобильной камеры: положение лица, положение головы и направление взгляда оценивались в 0.75, 0.74 и 0.60, в то время как их комбинация достигла 0.91, подчеркивая, как утверждают авторы, преимущества интеграции нескольких сигналов.

Модель говорения, обученная на вертикальном расстоянии от губ, достигла ROC-AUC 0.97 на вручную помеченном тестовом наборе и 0.96 на большом автоматически помеченном наборе, что указывает на стабильную производительность в обоих случаях.

Модель зевоты достигла ROC-AUC 96.6 процента, используя только соотношение губ, которое улучшилось до 97.5 процента при сочетании с предсказаниями единицы действий от AFFDEX 2.0.

Модель брошенного экрана классифицировала моменты как невнимательные, когда ни AFFDEX 2.0, ни SmartEye не могли обнаружить лицо более одной секунды. Чтобы оценить действительность этого, авторы вручную аннотировали все такие события без лица в наборе данных реального отвлечения, определяя основную причину каждой активации. Неоднозначные случаи (например, препятствия камеры или искажения видео) были исключены из анализа.

Как показано в таблице результатов ниже, лишь 27 процентов активаций ‘без лица’ были вызваны физическим уходом пользователей с экрана.

Разнообразные причины, полученные для того, почему лицо не было найдено в определённых случаях.

Разнообразные причины, полученные для того, почему лицо не было найдено в определённых случаях.

Статья заявляет:

‘Несмотря на то, что незаслуженные экраны составили лишь 27% случаев, активирующих сигнал без лица, это было вызвано и другими причинами, указывающими на невнимание, такими как наблюдение участников за экраном под экстремальным углом, чрезмерные движения или значительное закрытие лица предметом/рукой.

В последнем из количественных тестов авторы оценили, как постепенное добавление различных сигналов отвлечения – взгляд за пределами экрана (через взгляд и положение головы), сонливость, говорение и брошенные экраны – влияло на общую производительность их модели внимания.

Тестирование проводилось на двух наборах данных: наборе данных реального отвлечения и тестовом подмножестве набора данных взгляда. Для измерения производительности использовались G-mean и F1 баллы (хотя сонливость и говорение были исключены из анализа набора данных по взгляду из-за их ограниченной релевантности в этом контексте).

Как указано ниже, обнаружение внимания последовательно улучшалось по мере добавления большего числа типов отвлечений, при этом взгляд за пределами экрана, самый распространённый отвлекающий фактор, обеспечивал самую сильную базу.

Эффект добавления разнообразных сигналов отвлечения в архитектуру.

Эффект добавления разнообразных сигналов отвлечения в архитектуру.

‘Из результатов мы можем в первую очередь заключить, что интеграция всех сигналов отвлечения способствует улучшению обнаружения внимания.

‘Во-вторых, улучшение обнаружения внимания последовательно наблюдается как на настольных, так и на мобильных устройствах. В-третьих, мобильные сеансы в реальном наборе данных показывают значительные движения головы при отвлечении взгляда, что легко фиксируется, что приводит к более высокой производительности для мобильных устройств по сравнению с настольными ПК. В-четвертых, добавление сигнала сонливости имеет относительно небольшое улучшение по сравнению с другими сигналами, поскольку, как правило, оно происходит редко.

‘Наконец, сигнал брошенного экрана имеет относительно более значительное улучшение на мобильных устройствах по сравнению с настольными ПК, так как мобильные устройства могут легко оставаться без присмотра.

Авторы также сравнили свою модель с AFFDEX 1.0, предыдущей системой, использовавшейся в тестировании рекламы – и даже обнаружение взгляда на основе головы текущей модели превосходит AFFDEX 1.0 по обеим категориям устройств:

‘Это улучшение является результатом включения движений головы в обоих направлениях – поворота и наклона, а также нормализации положения головы для учета мелких изменений. Явные движения головы в реальном мобильном наборе данных привели к тому, что наша модель головы работала аналогично AFFDEX 1.0.’

Авторы завершили статью (возможно, довольно формальной) качественной серией тестов, представленных ниже.

Примерные результаты модели внимания на настольных и мобильных устройствах, при этом каждая строка представляет примеры истинных и ложных срабатываний для различных типов отвлечений.

Примерные результаты модели внимания на настольных и мобильных устройствах, при этом каждая строка представляет примеры истинных и ложных срабатываний для различных типов отвлечений.

Авторы отмечают:

‘Результаты свидетельствуют о том, что наша модель эффективно обнаруживает различные отвлекающие факторы в неконтролируемых условиях. Однако она может время от времени вызывать ложные срабатывания в определенных пограничных случаях, таких как сильный наклон головы при сохранении взгляда на экране, некоторые затенения рта, чрезмерно размытые глаза или сильно затемненные лицевые изображения.’

Заключение

Хотя результаты представляют собой взвешенное, но значительное продвижение по сравнению с предыдущими работами, гораздо более глубокая ценность исследования заключается в взгляде на постоянное стремление к доступу к внутреннему состоянию зрителя. Хотя данные были собраны с согласия, методология указывает на будущие рамки, которые могут выйти за пределы структурированных рыночных исследований.

Это довольно параноидальное заключение только подчеркивается закрытым, ограниченным и ревностно защищенным характером этого конкретного направления исследований.

 

* Моя конверсия ссылок авторов в гиперссылки.

Впервые опубликовано в среду, 9 апреля 2025 года

Запись Поиски ‘сов и ящериц’ в аудитории рекламодателя появилась впервые на Unite.AI.

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *