Разработка инструмента на базе ИИ для автоматической проверки цитат с использованием NVIDIA NIM

Точность цитат имеет большое значение для поддержания целостности как академического, так и сгенерированного ИИ контента. Когда цитаты неточные или неверные, они могут вводить читателей в заблуждение и распространять ложную информацию. Мы — группа исследователей из Университета Сиднея, специализирующаяся на машинном обучении и ИИ, разрабатываем инструмент на базе ИИ, способный эффективно проверять и анализировать семантическую точность цитат. 

Указание на источник для фактических утверждений может помочь читателям доверять его достоверности, укрепить авторитет автора и способствовать прозрачности, показывая источник информации. Однако обеспечение семантической точности цитат — это трудоемкий процесс, который часто требует глубокого понимания темы. 

Наш собственный опыт столкновения с разочарованиями и проблемами, вызванными неточными цитатами, побудил нас разработать надежное и масштабируемое решение — инструмент проверки семантической цитаты. Это решение упрощает процесс проверки цитат и улучшает целостность исследований в различных областях.

Необходимость в проверке цитат стала более актуальной с растущим использованием моделей с большим языком (LLM). Недавние достижения в методах усиленной генерации (RAG) помогают снизить количество галлюцинаций в сгенерированном контенте. Тем не менее, остаются значительные проблемы с установлением надежности без дополнительных методов проверки. 

Мы столкнулись с этой проблемой, разрабатывая Приложение для оценки влияния исследований, которое генерирует индивидуальные отчеты о влиянии для научных работ в области медицины и здравоохранения. Несмотря на свою мощь, приложение в настоящее время не может самостоятельно проверять утверждения в цитатах или проверять их соответствие заявлениям в оригинальных источниках. 

В этом посте представлен инструмент проверки семантической цитаты, который направлен на ускорение процессов валидации, поддержание высокой точности и предоставление релевантных контекстуальных фрагментов для более глубокого понимания цитируемых материалов. Этот инструмент автоматизирует проверку цитат, сопоставляя фактические утверждения с ссылочными текстами. Он разработан с использованием микросервисов NVIDIA NIM с дополнительной поддержкой основных поставщиков API LLM, сочетая индивидуальную модель, настроенную на ссылочных данных, с гибкими вариантами развертывания.

Графика, демонстрирующая пример поиска цитаты в исследовательской работе. В тексте выделены исследования по потреблению кофе и его воздействию на сердечно-сосудистую систему только как пример, с появляющимся окном цитаты, показывающим детали ссылки на исследование. Рисунок с эмодзи в виде человека с моноклем и пузырями с вопросами, 'Полностью поддерживается?', 'Что отсутствует?' и 'Искажение?', подчеркивая критический анализ точности цитирования и представления."></figure>
<h2 id=Техническая реализация и интеграция с NVIDIA

Инструмент проверки семантической цитаты появился на Generative AI CodeFest Australia в декабре 2024 года, мероприятии, сосредоточенном на практической разработке инструментов ИИ и повышении квалификации. Стратегия реализации ориентировалась на разработку приложения на базе микросервисов, использующего экосистему NVIDIA NIM, в частности, с использованием NVIDIA NeMo Retriever для задач внедрения и извлечения, в дополнение к уточненным языковым моделям для семантического анализа и проверки. NeMo Retriever — это коллекция микросервисов, предоставляющих информацию, доступ к которой соответствует мировым стандартам с высокой точностью и максимальной конфиденциальностью данных.

Ключевые компоненты NVIDIA включают:

  • Расширенные встраивания и повторная ранжировка: Специализированные сервисы NVIDIA трансформируют текст в высокоразмерные встраивания и ранжируют отрывки на основе релевантности утверждений, значительно снижая количество ложноположительных результатов в фильтрации контента благодаря оптимизированному семантическому соответствию.
  • Проверка с поддержкой LLM: Используя NVIDIA NIM для LLM, система выполняет глубокий семантический анализ ранжированных отрывков, предоставляя детализированные обоснования для проверок, которые соответствуют экспертному суждению.
  • Настройка модели: Чтобы оптимизировать точность и скорость обработки, мы адаптировали модели LLama 3.1 (варианты 8B и 70B) с использованием индивидуального набора данных утверждений цитат, ссылок и результатов проверки. Набор данных был основан на наиболее цитируемых публикациях 2024 года в самых разных областях исследований, включая медицину, физику, математику, информатику, геологию и экологическую науку. Утверждения цитат и ссылки (с 2023 года и далее) были извлечены и аннотированы. Мы также увеличили набор данных с помощью синтетических утверждений и аннотаций, созданных с использованием GPT-4o. Для обучения модели мы использовали восемь GPU NVIDIA A100 Tensor Core с общей памятью 640 ГБ (предоставленной NVIDIA в рамках Generative AI CodeFest Australia).

Архитектура пайплайна

Инструмент проверки семантической цитаты работает через пять упрощенных этапов:

  1. Обработка входных данных: Обрабатывает цитатные утверждения и отссылочные документы через надежную систему приема с встроенной проверкой формата и обработкой ошибок. Загрузчик документов поддерживает текстовые файлы, .pdf и .docx.
  2. Обработка документа: Выполняет проверку формата, парсинг и стратегическое деление, одновременно генерируя оптимизированные встраивания для семантического соответствия. Также обрабатывает текст цитаты в структурированные утверждения с использованием LLM.
  3. Управление векторами: Реализует архитектуру с двойным кэшированием для хранения документов и векторов, что позволяет ускорить извлечение и уменьшить затраты на обработку.
  4. Сопоставление и анализ: Совмещает сопоставление по сходству, повторную ранжировку и анализ LLM в многослойном подходе для всесторонней проверки.
  5. Генерация выходных данных: Создает классификацию поддержки, причин для проверки, релевантные фрагменты и коэффициенты доверия.

Обработка пайплайна использует LangChain и ChromaDB для реализации RAG и может взаимодействовать с языковыми моделями и моделями встраивания OpenAI и NVIDIA. Рисунок 2 предоставляет обзор процесса пайплайна для инструмента проверки семантической цитаты.

Схема процесса, показывающая пирогльную операцию с пятью основными этапами, цветные блоки с разметкой:\n1) Обработка входных данных (оранжевый блок): показывает 'Реферируемый документ', проходящий через 'Проверка формата' с двумя выходами: 'Действительный' и 'Недействительный' (ошибка формата). Включает 'Цитатное заявление' и 'Извлечение ключевой информации'.\n2 и 3) Парсинг & Управление векторами (синий блок): состоит из трех связанных компонентов - 'Парсер документов', 'Умное деление' и 'Векторные встраивания', подключенные к двум системам хранения: 'Кэш документов' (память) и 'Временное хранилище векторов'.\n4) Рангирование, Извлечение, Вывод LLM (зеленый блок): показывает последовательный процесс 'Сопоставление по сходству', 'Выбор Топ-K', 'Повторное ранжирование' и 'Семантический анализ LLM', с компонентом 'Проверка действительности'.\n5) Генерация выходных данных (желтый блок): отображает четыре блока классификации: Классификация (Поддерживается, Частично поддерживается, Не поддерживается, Неопределенно), Обоснование, Подпорные фрагменты (Фрагмент текста 1, Фрагмент текста 2), Уверенность.

Обзор веб-приложения и ключевые функциональности

В качестве исходного прототипа мы разработали интуитивно понятный веб-интерфейс с использованием Streamlit, чтобы сделать инструмент проверки цитат легко доступным и упростить рабочий процесс автоматизированной проверки цитат.

Пользователи могут вводить цитатные утверждения и файл со ссылкой напрямую, как показано в примере ниже. Система обрабатывает эту информацию и генерирует три ключевых вывода: 

  • Классификация (в этом случае показано как ЧАСТИЧНО ПОДДЕРЖИВАЕМАЯ)
  • Подробное обоснование классификации (перечисление трех конкретных моментов о ключевом выводе, отсутствующем контексте и возрастной группе в этом случае)
  • Релевантные вспомогательные фрагменты из исходного текста
Графика, демонстрирующая, как AI Citation Check автоматизирует проверку цитат против ссылочных документов. Левая сторона показывает раздел ввода с двумя компонентами: 'Цитатное утверждение' (например, 'Smith et al. (2023) установили, что потребление кофе снижает риск сердечно-сосудистых заболеваний на 15%') и 'Ссылочный текст', предоставляющий подробный контекст исследования (например, данные, которые ограничены фильтрованным кофе и неясной причинной связью). Раздел вывода включает классификацию ('Частично поддерживается'), обоснование с указанием отсутствующих деталей (таких как контекст фильтрованного кофе и возрастная группа) и поддерживающие фрагменты из ссылочного текста. Правая сторона показывает интерфейс проверки цитат, где пользователи загружают ссылочные документы и текст цитат, чтобы проверить свои утверждения. Выделенный текст объясняет, как инструмент обрабатывает цитаты для обеспечения точности.

Использование микросервисов NVIDIA для реализации LLM, извлечения документов и ранжирования

Интерфейс конфигурации демонстрирует ключевые интеграции NVIDIA через гибкий выбор поставщиков LLM, оптимизированные услуги встраивания и мощные механизмы извлечения с использованием хранилища векторов Chroma и FlashrankRerank. Локальная конфигурация конечной точки обеспечивает безопасную обработку конфиденциальных данных, сохраняя производительность. 

Схема, показывающая параметры конфигурации для инструмента семантического анализа цитат. Она состоит из двух основных блоков: "Конфигурации модели" слева и "Конфигурация встраивания" справа, с соединяющими их стрелками. Левый бок показывает параметры для Поставщика LLM (NVIDIA или OpenAI), Название модели LLM, Температуру и URL-адрес конечной точки модели. Правый блок показывает параметры для Поставщика встраивания (NVIDIA), Название модели встраивания и URL-адрес конечной точки встраивания. Вспомогательные блоки подчеркивают ключевые функции: "Поддержка поставщика LLM: Взаимодействие с языковыми моделями NVIDIA или OpenAI," "Встраивания: Используйте встраивания NVIDIA или OpenAI для векторизации," "Извлечение и ранжирование: используйте Chroma Vector Store и Flashrank Rerank," и "Локальный кластер: Запуск конечных точек локально для конфиденциальных данных." Схема подчеркивает гибкость и модульность инструмента.

Классификации точности

Инструмент валидации предоставляет детальную оценку цитат через четыре отдельные категории:

  • Поддерживается: Полное соответствие и правильный контекст
  • Частично поддерживается: Основные утверждения поддерживаются, но отсутствует контекст или нюансы
  • Не поддерживается: Утверждения противоречат источнику или отсутствуют
  • Неопределенно: Случаи с неоднозначной или недостаточной информацией

Схема классификации разработана для того, чтобы сбалансировать детализированность и простоту, обеспечивая соответствие потенциальным действиям для исследователей и рецензентов. Поддерживаемые цитаты не требуют изменений, частично поддерживаемым может потребоваться небольшая корректировка, неподдерживаемые цитаты требуют серьезных правок или удаления, а неопределенные случаи требуют дополнительной проверки.

Графика, объясняющая систему классификаций проверки ссылок. Представлены четыре категории:\nПоддерживается: Полное соответствие с источником, правильный контекст и полное представление (зеленый).\nЧастично поддерживается: Основное утверждение поддерживается, но отсутствуют нюансы, контекст или упрощенные высказывания (оранжевый).\nНе поддерживается: Не найдено в источнике, противоречия ссылки или искажение (красный).\nНеопределенно: Неоднозначные утверждения, недостаточный контекст или невозможность проверки (фиолетовый).\nСправа интерфейс проверки цитат обрабатывает образец цитаты. Он выводит классификацию "Частично поддерживается" с коэффициентом уверенности 0.80 и подробным анализом, объясняющим оригинальное утверждение, обработанное утверждение и расхождения.

Обоснование и поддерживающие доказательства

Инструмент также предоставляет детализированные обоснования своей классификации, анализируя конкретные пробелы между цитатой и исходным текстом, такие как недостающие детали, методологические нюансы, контекстные упущения или потенциальные искажения полученных выводов. Поддерживающие доказательства представляются через соответствующие текстовые фрагменты из ссылочного документа, с указанием оценок релевантности, позволяя пользователям напрямую проверить процесс принятия решений инструмента.

Скриншот интерфейса инструмента NVIDIA для семантической проверки цитат. Интерфейс разделен на разделы: "Вывод 2" отображает утверждение пользователя о результатах исследования. "Вывод 3" показывает соответствующие отрывки из научных работ с выделенными разделами и оценками релевантности. "Обоснование" предоставляет сгенерированное ИИ объяснение, сравнивающее утверждение и доказательства, указывая на соответствия и расхождения. Общий интерфейс чист и ориентирован на технических пользователей. В верхней части изображения написано "Оптимизация проверок цитат, экономия времени и улучшение точности и качества исследований."

Заключение

Инструмент проверки семантической цитаты автоматизирует проверку цитат, сравнивая фактические утверждения с ссылочными текстами. Разработанный с использованием микросервисов NVIDIA NIM с дополнительной поддержкой основных поставщиков API LLM, он сочетает индивидуальную модель, настроенную на ссылочных данных, с гибкими вариантами развертывания. Инструмент выполняет семантическую проверку утверждений и извлекает поддерживающие доказательства, классифицируя цитаты на четыре категории: Поддерживается, Частично поддерживается, Не поддерживается и Неопределенно. Инструмент может быть легко развернут в качестве веб-приложения, что позволяет систематически проверять цитаты, сокращая время проверки с часов до секунд, при этом повышая точность и качество исследований. 

В будущем мы планируем оптимизировать процесс проверки цитат. Мы внедрим автоматическое извлечение цитат и ссылок из любых документов, а также полное извлечение текста открытых ссылок. Это улучшение исключит требования к ручному вводу, значительно сократив время проверки как для традиционного академического контента, так и для сгенерированных ИИ произведений. Это позволит осуществить прямое извлечение и проверку источников, интегрировавшись с академическими базами данных и серверами препринтов. 

Дальнейшая разработка включает возможности пакетной обработки для одновременной обработки нескольких цитат, что будет полезно для редактирования рукописей, систематических обзоров и быстрой проверки сгенерированного ИИ контента. Эти улучшения превратят инструмент в комплексное решение для обеспечения целостности цитат, поддерживая исследователей, редакционные группы и создателей контента в соблюдении высоких стандартов точности как для работ, написанных людьми, так и для произведений, сгенерированных ИИ. Для получения дополнительной информации и обновлений посетите RefCheckAI.

Изучите NVIDIA NIM, чтобы ускорить разработку своего ИИ и решить реальные проблемы. Узнайте больше о NIM и его возможностях для создания инновационных решений, таких как этот инструмент проверки цитат.

Благодарности 

Эта работа была выполнена частично на Generative AI Codefest в Австралии, часть программы Open Hackathons. Мы хотели бы поблагодарить OpenACC-Standard.org за их поддержку. Мы благодарим Департамент промышленности, науки и ресурсов правительства Австралии через Национальный центр ИИ и Национальную вычислительную инфраструктуру (NCI) за организацию Generative AI CodeFest Australia вместе с NVIDIA и Sustainable Metal Cloud (SMC). Проект поддерживается Сиднейским хабом информатики (SIH) Университета Сиднея.

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *