2 апреля 2025 года
Оценка способности ИИ реплицировать исследования ИИ.
Мы представляем PaperBench, бенчмарк, оценивающий способность агентов ИИ реплицировать передовые исследования ИИ. Агенты должны реплицировать 20 статей Spotlight и Oral ICML 2024 с нуля, включая понимание вклада статей, разработку кодовой базы и успешное выполнение экспериментов. Для объективной оценки мы разработали рубрики, которые иерархически декомпозируют каждую задачу репликации на меньшие подзадачи с четким критерием оценки. В общей сложности PaperBench содержит 8 316 индивидуально оцениваемых задач. Рубрики разрабатываются совместно с авторами каждой статьи ICML для точности и реализма. Для обеспечения масштабируемой оценки мы также разработали судью на основе LLM, чтобы автоматически оценивать попытки репликации по рубрикам, и оцениваем производительность нашего судьи, создавая отдельный бенчмарк для судей. Мы оцениваем несколько передовых моделей на PaperBench, находя, что лучший протестированный агент, Claude 3.5 Sonnet (New) с открытой источниковой поддержкой, достигает средней оценки репликации 21,0%. Наконец, мы привлекаем лучших PhD в области ML для попытки реплицировать подмножество PaperBench, обнаруживая, что модели еще не превосходят человеческую основу. Мы открыли исходный код(открывается в новом окне) для содействия будущим исследованиям в понимании возможностей инженерии ИИ агентов.