Предотвратите галлюцинации LLM с Cleanlab и NVIDIA NeMo Guardrails

С увеличением интеграции крупных языковых моделей (LLMs) в приложения предприятиям предстает критическая задача: LLMs могут генерировать правдоподобные, но неверные ответы, известные как галлюцинации. Защитные механизмы ИИ, внедряемые в модели и приложения ИИ, являются популярной техникой для обеспечения надежности ИИ приложений.

В этом посте демонстрируется, как создать более безопасные приложения ИИ, свободные от галлюцинаций, используя доверенную языковую модель Cleanlab (TLM) с NVIDIA NeMo Guardrails.

Обзор NVIDIA NeMo Guardrails

NVIDIA NeMo Guardrails – это масштабируемая платформа для определения, orchestration и применения политик защиты ИИ в ИИ-агентах и других генеративных приложениях ИИ. Она включает настраиваемый и расширяемый набор правил для обеспечения безопасности контента, обнаружения jailbreak, контроля тематики беседы и многого другого. NeMo Guardrails предоставляет единый фреймворк для интеграции и orchestration различных защитных механизмов ИИ, включая микросервисы NeMo Guardrails NIM, а также сторонние и открытые защитные механизмы.

Например, NeMo Guardrails предоставляет проверки безопасности как для входного, так и для выходного текста через самопроверку LLM, а также NIM безопасности контента Llama 3.1 от NVIDIA и Llama Guard от Meta. Эти проверки аудируют весь текст согласно определенным политикам и отмечают нарушения политик в реальном времени. NeMo Guardrails также интегрирует сторонние защитные механизмы, такие как ActiveScore от ActiveFence, предоставляя разработчикам комплексный и гибкий набор инструментов для обеспечения безопасности, где различные проверки могут быть комбинированы для решения уникальных требований приложений.

Обзор доверенной языковой модели Cleanlab

Фреймворк NeMo Guardrails предлагает нативную поддержку защитных механизмов на основе оценки доверия, powered by Cleanlab Trustworthy Language Model (TLM). TLM оценивает доверие к любому ответу LLM с использованием современных техник оценки неопределенности. Чтобы узнать больше, смотрите Преодоление галлюцинаций с доверенной языковой моделью.

TLM автоматизирует валидацию ответов LLM в реальном времени для различных сценариев применения в предприятиях, включая:

  • Системы поддержки клиентов, которые умно эскалиуют ответы между ИИ и человеческими агентами
  • ИИ-ассистенты, использующие генерацию с увеличением поиска (RAG) с автоматическим помечанием ненадежных ответов
  • Автоматизированные системы LLM, которые более надежно классифицируют или перенаправляют информацию или выполняют вызовы инструментов

Как интегрировать защитный механизм доверия с NeMo Guardrails

В этом разделе объясняется, как интегрировать защитный механизм доверия с NeMo Guardrails, используя ИИ-ассистента для поддержки клиентов, и представлены несколько сценариев из реальной жизни.

Приложение: ИИ-ассистент поддержки клиентов

Чтобы продемонстрировать, как защитный механизм может быть интегрирован с NeMo Guardrails, мы создали ИИ-ассистента поддержки клиентов для компании электронной коммерции. Ассистент был разработан для поддержки вопросов клиентов по доставке, возврату продукции и возмещению средств, использующим документы политики компании в качестве контекста.

Ниже приведен фрагмент из документа политики, использованного в качестве контекста для ИИ-ассистента. Утверждения, выделенные красным, соответствуют определенным частям политики, на которые ссылаются в представленном далее сценарии.

# Политика обслуживания клиентов ACME Inc.


## Содержание
1. Политика бесплатной доставки
2. Политика бесплатного возврата
3. Руководство по выявлению мошенничества
4. Тон взаимодействия с клиентом


## 1. Политика бесплатной доставки


### 1.1 Критерии Eligibility
- Бесплатная доставка доступна на все заказы свыше $50 в пределах континентальных Соединенных Штатов.
- Для заказов ниже $50 применяется фиксированная ставка доставки в $5.99.
- Бесплатная доставка недоступна для экспресс-методов доставки 
  (например, доставки на следующий день или за 2 дня).


### 1.2 Исключения
- Бесплатная доставка не применяется к заказам, отправленным на Аляску, Гавайи 
  или международные направления.
- Объемные или тяжелые товары могут повлечь дополнительные транспортные расходы, которые будут  
  четко сообщены клиенту перед покупкой.


### 1.3 Обработка запросов клиентов
- Если клиент запрашивает информацию о праве на бесплатную доставку, проверьте общую сумму заказа и  
  место доставки.
- Сообщите клиентам о способах квалификации для бесплатной доставки  
  (например, добавление товаров для достижения порога в $50).
- Для заказов, немного ниже порога, вы можете предложить одноразовую услугу бесплатной доставки  
  если это первая покупка клиента или если у него есть история крупных заказов.


## 2. Политика бесплатных возвратов


### 2.1 Критерии Eligibility
- Бесплатные возвраты доступны для всех товаров в течение 30 дней с даты доставки.
- Товары должны быть неиспользованными, неношеными и в оригинальной упаковке с прикрепленными ярлыками.
- Бесплатные возвраты ограничены стандартными методами доставки в пределах континентальных 
  Соединенных Штатов.


### 2.2 Исключения
- Товары, отмеченные как финальная распродажа на странице продукта, не подлежат бесплатным возвратам.
- Индивидуальные или персонализированные товары не подлежат бесплатным возвратам, если нет производственного дефекта.
- Нижнее белье, купальники и серьги не подлежат бесплатным возвратам 
  по причинам гигиены.


### 2.3 Процесс обработки возвратов
1. Проверьте дату заказа и убедитесь, что она попадает в 30-дневный срок возврата.
2. Спросите у клиента причину возврата и задокументируйте это в системе.
3. Предоставьте клиенту предоплаченную этикетку для возврата, если он имеет право на бесплатный возврат.
4. Проинформируйте клиента о предполагаемом времени обработки возврата 
   (5-7 рабочих дней после получения возврата).


### 2.4 Исключения
- Для товаров, поврежденных при доставке или с производственными дефектами, предложите 
  немедленную замену или возмещение без требования возврат.

Рассмотрим следующий сценарий. Один из клиентов компании электронной коммерции хочет вернуть пару кроссовок и спрашивает о политике возвратов компании. ИИ-ассистент сканирует политику возвратов и отвечает: “Вы можете вернуть свои туфли в течение 30 дней, и мы обработаем ваш возврат, как только осмотрим их на предмет износа.”

Этот ответ может звучать разумно, но что, если политика возвратов специально исключает обувь, показывающую признаки износа? Без надлежащих защитных механизмов тонкие неправильно интерпретированные и упущенные моменты могут быстро привести к недовольству клиентов.

Защитные механизмы, предназначенные для обеспечения доверия к ответам модели, могут помочь избежать этого риска. Каждый раз, когда ИИ-ассистент генерирует ответ, он оценивается TLM, чтобы гарантировать соответствие политике и запросу пользователя. 

Если TLM обнаруживает несоответствие или что ответ иначе ненадежен, вместо того, чтобы возвращать этот недостоверный ответ, ИИ-ассистент возвращает резервный ответ, например: “Извините, я не могу помочь с этой просьбой.”  

Вместо того чтобы по умолчанию предоставлять резервный ответ, когда защитный механизм срабатывает, такая система может альтернативно эскалировать запрос к человеческому агенту поддержки, а не возвращать ненадежный ответ ИИ.

Оценка в реальных сценариях

Этот раздел рассматривает, как защитный механизм доверия обрабатывает общие сценарии поддержки клиентов. Каждый сценарий ниже демонстрирует другой аспект обнаружения галлюцинаций и валидации ответов, показывая, как защитный механизм справляется с различными уровнями соответствия между ответами LLM и политическими рекомендациями.

Скриншот ИИ-ассистента поддержки клиентов, работающего с тремя уникальными сценариями поддержки.\n

Сценарий 1: Запрос о политике возвратов

Политики возвратов критически важны для поддержки клиентов, и ассистент должен отвечать с точной информацией, чтобы поддерживать доверие клиентов. 

Запрос пользователя: Могу ли я получить возврат, если я был разочарован своей покупкой, даже если она не дефектная?

Ответ LLM: Вы можете иметь право на возврат, если ваш товар не использовался и не носился. Если товар является финальной распродажей, он может не подлежать возврату. 

Оценка доверия: 0.92 – Ответ получает высокий балл доверия за строгое соблюдение документа политики. 

Результат проверки защитного механизма: Пройдено – Ассистент передает проверенный ответ LLM пользователю. 

Этот сценарий демонстрирует поведение ассистента при обработке запросов, которые непосредственно соответствует политике.

Сценарий 2: Запрос о возврате продукта

Политики возвратов продуктов часто различаются в зависимости от категорий товаров, с конкретными правилами для таких товаров, как ювелирные изделия, электроника или скоропортящиеся товары. Ассистент должен точно различать допустимую интерпретацию политики и потенциально вводящее в заблуждение экстраполирование.

Запрос пользователя: Могу ли я вернуть пару серег, если они не подходят?

Ответ LLM: К сожалению, в рамках нашей политики бесплатного возврата нижнее белье и ювелирные изделия, включая серьги, не подлежат возврату.

Оценка доверия: 0.58 – Низкая оценка доверия защитного механизма выявляет важную деталь: политика касается серег, но не упоминает серьги. Попытка LLM устранить этот пробел инициирует проверку доверия.

Результат проверки защитного механизма: Неудача – Ассистент возвращает резервный ответ пользователю.

Здесь защитный механизм правильно определяет это как случай, требующий вмешательства человека, предотвращая распространение потенциально неверных интерпретаций политики.

Сценарий 3: Запрос общей информации 

Запросы на контактную информацию службы поддержки клиентов распространены, когда клиентам нужна более прямая связь или более быстрое разрешение. Если такая информация отсутствует в политике, ассистент не должен генерировать неверные контактные данные. Вместо этого ассистент должен направить клиентов туда, где они могут найти информацию.

Запрос пользователя: Есть ли возможность связаться со службой поддержки по телефону вместо этого чата?

Ответ LLM: Я не могу предоставить номер телефона или прямую контактную информацию, но я могу помочь вам с любыми вопросами. 

Оценка доверия: 0.45 – Хотя LLM сгенерировала казалось бы подходящий ответ (хоть и не совсем соответствующий политике по тону), защитный механизм присвоил низкую оценку доверия из-за отсутствия контактной информации в контексте и неопределенности в ответе LLM.

Результат: Проверка защитного механизма Неудача – Ассистент возвращает резервный ответ пользователю.

В этом последнем сценарии защитный механизм выходит за рамки простой проверки на наличие фальшивой информации. Он проверяет, является ли ответ LLM, даже если осторожный, основанным на документе политики.

Реализация

Ключевым компонентом этого приложения ИИ является определение Colang в NeMo Guardrails для получения оценки доверия от Cleanlab:

flow cleanlab trustworthiness
  $result = await CallCleanlabApiAction
  if $result.trustworthiness_score < 0.7
      bot response untrustworthy
      abort

flow bot respond untrustworthy
    bot say "Извините, я не могу помочь с этой просьбой. Я свяжу вас с другим агентом, который может помочь..."

Эта конфигурация выполняет следующее:

  1. Вызывает API TLM Cleanlab для получения оценки доверия для пары <запрос, ответ>.
  2. Сравнивает полученную оценку доверия с заданным порогом, на основе которого она либо отправляет ответ LLM пользователю, либо перенаправляет его к человеческому агенту.

Обратите внимание, что действие, которое инициируется для ненадежных ответов, может быть настроено в зависимости от требований приложения, от простых резервных сообщений до сложных триггеров для агентов.

Заключение

NVIDIA NeMo Guardrails предлагает мощные инструменты для создания безопасных и надежных приложений LLM, таких как помощники поддержки клиентов. С помощью доверенной языковой модели Cleanlab разработчики могут добавить дополнительные меры безопасности для решения проблем галлюцинаций и ненадежных ответов при создании приложений на основе LLM.

Cleanlab является участником программы NVIDIA Inception для стартапов, программы, предназначенной для помощи стартапам в ускорении технических инноваций и делового роста на всех этапах. 

Чтобы узнать больше, смотрите следующие ресурсы:

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *