BrowseComp: эталон для браузеров

10 апреля 2025 года

Простая и сложная контрольная задача, которая измеряет способность ИИ-агентов находить труднонаходимую информацию.

Агенты ИИ, которые могут собирать знания, просматривая интернет, становятся все более полезными и важными. ЭффективныйBrowsing agent должен уметь находить информацию, которая труднонаходима и может потребовать просмотра десятков или даже сотен веб-сайтов. Существующие контрольные задачи, такие как SimpleQA, измеряющие способность моделей извлекать основные изолированные факты, уже переполнены моделями с доступом к быстрым инструментам браузинга, такими как GPT‑4o с функцией браузинга. Чтобы измерить способность ИИ-агентов находить труднонаходимую, запутанную информацию в интернете, мы открываем новую контрольную задачу из 1,266 сложных задач под названием BrowseComp, что означает “Конкурс по браузингу”. Эта контрольная задача доступна в репозитории simple evals GitHub⁠(открывается в новом окне), и вы можете прочитать нашу научную работу здесь⁠(открывается в новом окне).

О контрольной задаче BrowseComp

Примеры вопросов:

Пример 1Пример 2Пример 3Пример 4Пример 5

Пожалуйста, определите вымышленного персонажа, который временами обращается к аудитории, имеет предысторию, связанную с помощью самоотверженных аскетов, известен своим юмором и имел телешоу, которое выходило в эфир между 1960-ми и 1980-ми годами и состояло менее чем из 50 эпизодов.

Ответ: Пластиковый человек

Определите название научной публикации, выпущенной до июня 2023 года, в которой упоминаются культурные традиции, научные процессы и кулинарные инновации. Она соавторствовалась тремя людьми: один из них был ассистентом профессора в Западной Бенгалии, а другой имеет докторскую степень.

Ответ: Основы хлебопечения: Наука о хлебе

Я ищу псевдоним писателя и биографа, который автор множества книг, включая свою автобиографию. В 1980 году он также написал биографию своего отца. Писатель влюбился в брата философа, который был восьмым ребёнком в их семье. Писатель развёлся и снова женился в 1940-х годах.

Ответ: Эсфирь Уиндом

Новая школа была основана в 90-х годах путём объединения девичьей и мальчиковой школы в новое совместное учебное заведение в городе с историей, которая восходит к середине 19 века. Новой школе было дано латинское название. Какое было название девичьей школы?

Ответ: Монастырь Нашей Дамы Милосердия

С 1990 по 1994 год включительно, какие команды играли в футбольном матче с бразильским судьёй, в котором было четыре жёлтые карточки, две для каждой команды, при этом три из четырёх карточек не были выданы в первом тайме, и было четыре замены, одна из которых была связана с травмой в первые 25 минут матча.

Ответ: Ирландия против Румынии

Мы создали BrowseComp как контрольную задачу для браузинга, которая является одновременно сложной для моделей и простой для проверки. Одной из основных проблем в оценивании больших языковых моделей является то, что они по умолчанию выдают длинные, открытые ответы. Мы сосредотачиваемся на вопросах, в которых ответ короток и (в принципе) есть только один правильный ответ. Этот фокус на коротких ответах означает, что неясно, насколько производительность в BrowseComp коррелирует с производительностью в реальном пользовательском распределении, которое открыто. Мы принимаем этот компромисс, потому что оценка коротких ответов проста и делает контрольную задачу лёгкой в использовании.

Следуя рекомендациям предыдущей контрольной задачи OpenAI по фактическому содержанию SimpleQA⁠, мы попросили людей-тренеров создать сложные, фактоориентированные вопросы с единственными, неопровержимыми, короткими ответами, которые не изменяются со временем и которые подтверждаются доказательствами. Чем BrowseComp отличается, так это тем, что тренеры создали вопросы, которые были чрезвычайно сложными. Мы использовали три проверки, чтобы убедиться, что вопросы достаточно сложны:

Существующие модели на тот момент не могли решить вопрос: тренеры должны были проверить, что GPT‑4o (с браузингом и без него), а также o1 и ранняя версия глубокой исследовательской модели не могут решить задачи.
Тренерам было предложено выполнить пять простых поисков и убедиться, что ответ недоступен на начальных страницах результатов поисковой системы.
Тренерам было поручено создать задачи, которые были бы достаточно сложными, чтобы другой человек не мог решить их за десять минут. Это не было строго контролируемо, но для части вопросов второй тренер пытался найти ответ. Тренеров, создавших задания, которые были решены более чем в 40% случаев, попросили пересмотреть свои задания.

Чтобы создать сложные вопросы, мы побуждали тренеров начинать с факта, а затем создавать “обратный” вопрос, где ответ трудно найти, но легко проверить. Тренеры начинали с “семени” (это могло быть лицо, событие или артефакт), находили несколько характеристик с большим объемом поиска и создавали на их основе вопрос. Примером вопроса, который мы привели, был:

Назовите название научной статьи, опубликованной на конференции EMNLP в период с 2018 по 2023 годы, где первый автор учился в Дартмутском колледже, а четвёртый автор учился в Университете Пенсильвании. (Ответ: Частотные эффекты на изучение синтаксических правил в трансформерах, EMNLP 2021)

Легко проверить ответ на этот вопрос с помощью всего нескольких поисков в интернете, но трудно найти ответ, поскольку брутальный поиск потребовал бы изучения тысяч статей и проверки предысторий авторов для каждой из них. Вопросы, которые трудно решить, но легко подтвердить (“асимметрия проверки”) подходят для контрольных задач, так как они являются одновременно и сложными, и надежными для оценки.

Несмотря на простоту BrowseComp, он измеряет способность ИИ-агента выполнять полезный браузинг:

Чтобы получить правильный ответ, модели должны быть компетентны в рассуждениях о фактическом содержании в интернете.
Поскольку ответы трудно найти, успех на BrowseComp требует настойчивости и глубины браузинга.
Многие ответы будет слишком трудоемкими (или невозможными) для нахождения с помощью брутального подхода. Поэтому, чтобы завершить за разумное время, модель должна быть креативной в своих поисках, чтобы найти правильный ответ.

BrowseComp можно рассматривать как неполную, но полезную контрольную задачу для агентов браузинга. Хотя BrowseComp избегает проблем истинного распределения пользовательских запросов, таких как генерация длинных ответов или устранение неоднозначности, он измеряет важную основную способность проявлять настойчивость и креативность в поиске информации. Как грубая аналогия, модели, которые успешно участвуют в программных конкурсах, таких как CodeForces, демонстрируют высокие способности к программированию, которые, вероятно, хорошо обобщаются на другие задачи программирования, но это не гарантировано. Точно так же, чтобы решить BrowseComp, модель должна быть очень опытной в нахождении труднонаходимой информации, но это не гарантирует, что это обобщится на все задачи, требующие браузинга.

Разнообразие и сложность данных

Создавая контрольную задачу BrowseComp, мы побуждали тренеров создавать вопросы на темы, которые им были интересны, надеясь, что создание данных о личных интересах приведет к более увлекательному опыту и более качественным данным. Распределение тем показано на круговой диаграмме ниже.

В качестве одной из мер сложности набора данных BrowseComp мы попросили тренеров тоже попытаться ответить на вопросы BrowseComp. Эти тренеры были из той же группы тренеров, которые создавали вопросы, но тренеры не могли решать те же вопросы, которые они создали. Человеческие тренеры не имели доступа к правильному ответу на вопрос и были поздены выполнить задачу без использования ИИ-помощника (в том числе без использования ChatGPT, Claude, Perplexity, Grok или Gemini). Так как некоторые вопросы чрезвычайно сложны, мы позволили тренерам отметить проблему как неразрешимую и перейти к следующей, если они не могли её разгадать в течение двух часов поиска. Как показано ниже, тренеры решили 29.2% задач, и из решённых задач ответ от тренера совпадал с оригинальным ссылочным ответом в 86.4% случаев.

Всего задач в кампании верификации	1,255
Неразрешимые	888 / 1,255 (70.8%)
Разрешимые	367 / 1,255 (29.2%)
Из разрешимых задач ответ тренера и ответ ссылки совпадали	317 / 367 (86.4%)

Тренеры самостоятельно сообщали, сколько времени им понадобилось для ответа на вопрос. Гистограмма ниже показывает распределение времени для разрешимых и неразрешимых вопросов. Для вопросов, которые люди смогли решить, мы видим диапазон времени — некоторые вопросы были разрешимы за менее чем час, а многие вопросы были решены только после двух или трёх часов исследований. Для неразрешимых вопросов подавляющее большинство тренеров решило сдаться после двух часов попыток.

Производительность моделей OpenAI

Мы оценили ряд моделей на BrowseComp, включая модели без браузинга — GPT‑4o, GPT‑4.5 и OpenAI o1 (средние) — а также GPT‑4o с браузингом и Deep Research, агентскую модель, специально обученную для постоянного веб-браузинга. Как показано в таблице ниже, GPT‑4o и GPT‑4.5 достигли практически нулевой точности, что подчеркивает сложность контрольной задачи: без сильных рассуждений или использования инструментов модели не могут находить те виды затруднительных, многоступенчатых фактов, на которые нацелен BrowseComp.

Модель	Точность (%)
GPT‑4o	0.6
GPT‑4o с браузингом	1.9
GPT‑4.5	0.9
OpenAI o1	9.9
Глубокое исследование*	51.5

_*_{Обратите внимание, что модель Deep Research обучена на данных, которые специально обучают модель успешно справляться с задачами BrowseComp.}

Включение браузинга для GPT‑4o привело к небольшому улучшению точности (с 0.6% до 1.9%), но производительность осталась низкой. Это указывает на то, что одного браузинга недостаточно — модели также должны уметь стратегически рассуждать, определять релевантные пути поиска и интерпретировать полученный контент. Тем временем, OpenAI o1, который не обладает функцией браузинга, но имеет более сильные способности к рассуждению, демонстрирует заметно более высокую точность, что предполагает, что некоторые ответы на BrowseComp могут быть получены путем вывода на основе внутреннего знания. В целом эти результаты показывают, что и использование инструментов, и рассуждение вносят значительный вклад в производительность на BrowseComp.

Deep Research значительно превосходит все другие модели, решая около половины задач. Его способность автономно искать в интернете, оценивать и синтезировать информацию из нескольких источников и адаптировать свою стратегию поиска позволяет ему справляться с вопросами, которые в противном случае были бы неразрешимыми. Синтезируя большие объемы онлайн-информации, поворачивая в ответ на то, что он встречает, и цитируя каждое утверждение, он особенно эффективен в ответах на нишевые, неинтуитивные вопросы, которые требуют пролистывания многочисленных веб-сайтов — именно такого рода испытание и предназначено для измерения BrowseComp.

Масштабирование вычислений во время теста

Ключевая особенность агентов заключается в том, что производительность масштабируется в зависимости от объема вычислений, используемых в момент вывода, как это было ранее показано OpenAI o1 на AIME⁠ и OpenAI o3‑mini low/medium/high⁠. Подобным образом, мы ожидаем, что дополнительное вычисление во время вывода повысит производительность на BrowseComp, поскольку вопросы требуют итеративного просмотра большого количества веб-сайтов и объединения информации. Как показано на графике ниже, каждая точка — это полный запуск оценки с различным усилием по браузингу, и мы видим, что производительность плавно растет в зависимости от объема вычислений, использованных в момент тестирования.

Стратегии агрегации, использующие дополнительные вычисления

Помимо улучшения производительности в зависимости от вычислений, используемых в одной попытке модели, мы дополнительно оценили, улучшится ли производительность модели Deep Research, если она сможет использовать ещё больше вычислений, пробуя каждую задачу несколько раз и используя различные стратегии для выбора лучшего ответа. В этом эксперименте мы оценили три подхода для объединения 64 выборок модели на каждый вопрос: простое голосование, взвешенное голосование и лучший из N.

Простое голосование выбирает наиболее распространённый ответ среди выборок.
В взвешенном голосовании мы провели zero-shot подсказку для модели, чтобы она также предоставила оценку уверенности в каждой попытке, и мы берем голосование, взвешенное по оценкам уверенности каждой попытки.
Лучший из N выбирает единственный вывод с наивысшей оценкой уверенности.

Как показано на графике ниже, три метода улучшают производительность на 15-25% по сравнению с использованием всего одной попытки. Это значительное улучшение производительности несколько ожидаемо, поскольку BrowseComp является контрольной задачей, которую легче проверить, чем найти ответ, так что модель должна уметь определять, когда она даёт правильный ответ. Среди этих методов лучший из N последовательно обеспечивал наивысшую точность. Этот результат указывает на то, что модель Deep Research часто “знает”, когда она права.

Распределение проходных ставок

В качестве дальнейшего анализа мы изучили распределение проходных ставок для Deep Research и OpenAI o1 по всем 1,266 задачам в контрольной задаче BrowseComp, используя 64 испытания на вопрос, чтобы лучше понять сложность задач. Как показано на рисунке ниже, Deep Research идеально решил 16% задач (100% проходная ставка), но полностью провалился в 14% (0% проходная ставка), что указывает на широкую разницу в сложности задач. Кроме того, многие задачи находятся между двумя крайностями, что предполагает различные уровни сложности, и что модели могут сталкиваться с трудностями в зависимости от структуры задач и области.

Для подмножества вопросов, для которых Deep Research никогда не давал правильного ответа, мы провели дальнейшее исследование, подсказав модели правильный ответ и попросив её найти подтверждающие интернет-доказательства. В большинстве случаев модель успешно справилась, подтвердив, что эти вопросы не были неразрешимыми, а просто чрезвычайно трудными для решения без руководства. Это предполагает, что многие задачи BrowseComp проверяют не только извлечение информации — они требуют стратегической настойчивости, гибкой реформации поиска и способности собирать фрагментированные подсказки из нескольких источников.

Заключение

BrowseComp оценивает, насколько хорошо модели могут просматривать интернет в поисках труднонаходимой информации. Хотя BrowseComp не стремится измерять производительность по общим запросам, он измеряет способность находить единственную целенаправленную информацию, легко оценивается и является сложной для существующих агентов браузинга. Мы надеемся, что открытие BrowseComp приведет к исследованиям более надежного и доверяемого ИИ, и мы приглашаем исследователей оценить возможности ИИ-агентов по этой методике и предоставить нам отзывы.

Перейти к источнику