Галлюцинации по замыслу - (Часть 3): Доверяя векторам без тестирования

В моем предыдущем выпуске (ЧИТАТЬ ЗДЕСЬ) я исследовал, как модели встраивания сталкиваются с основными языковыми вариациями, такими как единицы измерения и предложения, специфичные для области. Ответ сообщества былRemarkable – явно, многие из вас столкнулись с аналогичными проблемами в своей работе. Сегодня я расширяю наше исследование, чтобы выявить еще более тревожные слепые зоны, которые я идентифицировал в ходе обширного тестирования. Эти фундаментальные проблемы имеют глубокие последствия для того, как мы подходим к разработке ИИ-систем.

Эта статья является третьим элементом в моем цикле “Галлюцинации по дизайну”, который напрямую продолжает наше исследование встраиваний галлюцинаций. Для оптимального понимания я настоятельно рекомендую сначала прочитать предыдущие статьи (ЗДЕСЬ и ЗДЕСЬ), чтобы установить необходимый фон для полного понимания концепций, которые мы будем обсуждать здесь. Этот последовательный подход обеспечит вам более связное понимание этих критических вопросов.

Статистическая значимость полностью переворачивается

Мой коллега-статистик побледнел, когда я показал ему это. Модель оценила «Результаты показали значительную разницу (p<0.05)» и «Результаты не показали значительной разницы (p>0.05)» на 0.94 сходства. Он только мотал головой. «Это… это противоположности. В этом вся суть статистического тестирования.»

Встраивания не могли различить статистически значимые и незначимые находки. Исследователи, ищущие проверенные эффекты, получили смесь валидированных и недействительных исследований. Думаете, ученые, принимающие решения в исследовании, ценят путаницу между доказательными и недоказательными данными? Я уверен, что не хочу, чтобы мое исследование финансировалось ради эффектов, которые исследования на самом деле опровергли.

Статистическая значимость является краеугольным камнем эмпирических исследований. Когда ваша модель не может различить «доказанный эффект» и «без доказанного эффекта», вы подрываете весь научный метод. Мы, по сути, работаем с моделями, которые игнорируют p-значения, несмотря на то что анализируют текст, где эти значения определяют, считается ли находка действительной.

Идентичность и сходство путаются

Мой коллега по материаловедению громко засмеялся, когда я показал ей это. Модель дала оценку 0.97 для «Этот материал – алюминий» против «Этот материал напоминает алюминий». Она перестала смеяться, когда я объяснил, как это влияло на результаты поиска в ее лаборатории. Быть чем-то и выглядеть как нечто – это совершенно разные вещи!

Встраивания не могли различить материалы, которые действительно являются веществом, и те, которые просто выглядят или ведут себя похоже. Инженеры, ищущие алюминиевые компоненты, получали результаты для алюминиевых сплавов с совершенно другими свойствами. Думаете, инженеры аэрокосмической отрасли ценят получение информации о материалах, похожих на алюминий, когда структурная целостность зависит от фактического алюминия? Я уверен, что не хочу лететь в самолете, построенном с использованием деталей «похожих на алюминий».

Различие между идентичностью и сходством имеет фундаментальное значение для точной коммуникации. Когда ваша модель рассматривает «X есть Y» как эквивалентное «X напоминает Y», вы теряете возможность делать окончательные идентификации. Мы, по сути, работаем с моделями, которые размывают категориальные границы, несмотря на то что анализируют текст, где точная идентификация часто является всей сутью.

Предположения исчезают в воздухе

Теперь немного из области философии, и это тоже беспокоило меня на глубоком уровне. Модель встраивания оценила «Что стало причиной сбоя системы?» и «Система сбоила?» на 0.93 сходства. Это полностью игнорирует суть! Первый вопрос предполагает, что сбой произошел, в то время как второй спрашивает, произошел ли он вообще. Это Логика 101!

Встраивания не могли различить вопросы, предположенные по отношению к условию, и вопросы, спрашивающие, существовало ли это условие. Службы поддержки, исследующие сбои системы, сталкивались с делами, сомневающимися, произошли ли сбои вообще. Думаете, IT-менеджеры, пытающиеся разрешить инциденты, ценят напрасно потраченное время на дела, где на самом деле ничего не сломалось? Я уверен, что не хочу, чтобы моя служба поддержки гонялась за фантомами вместо того, чтобы решать реальные проблемы.

Предположения кардинально меняют смысл предложения. Когда ваша модель рассматривает «Почему X истинно?» как эквивалентное «Является ли X истинным?», вы теряете возможность понимать, что предполагается, а что ставится под вопрос. Мы, по сути, работаем с моделями, которые пропускают встроенные предположения, несмотря на то что анализируют текст, где эти предположения содержат критически важную информацию.

Проценты полностью переворачиваются

Посмотрев на фармацевтические данные, у меня разболелась голова, и ни одна модель встраивания не могла их правильно классифицировать. Запомните: «Только 5% пациентов испытали побочные эффекты» против «До 95% пациентов испытали побочные эффекты» показали 0.90 сходства. В какой вселенной это хоть немного похоже? Один – это удивительно безопасный препарат, другой, вероятно, никогда не получит одобрения FDA!

Я обнаружил это, создавая базу данных фармацевтических исследований. Алгоритм не смог различить драматически разные профили безопасности. Исследователи, ищущие средства с минимальными побочными эффектами, получали варианты с почти универсальными побочными эффектами. Думаете, врачи, назначающие лекарства, ценят путаницу между удивительно безопасными и в значительной степени проблемными препаратами? Я уверен, что не хочу принимать медикаменты с уровнем побочных эффектов в 95%, когда думал, что он составляет 5%.

Проценты выражают кардинально разные величины, которые часто определяют оценку рисков и принятие решений. Когда ваша модель рассматривает «5%» как похожее на «95%», вы теряете возможность понимать статистическую значимость. Мы, по сути, работаем с моделями, которые воспринимают проценты как декоративные, а не существенные, несмотря на то что анализируют текст, где эти значения определяют критически важные решения.

Существует способ решения этих проблем, и они будут рассмотрены позже. Давайте поймем больше вопросов с встраиваниями.

Метафоры против буквального языка – все то же самое!

Помните, когда модели встраивания должны были понимать контекст? Так вот, они этого не делают. «Рынок взбирается на стену беспокойства» против «Скалы занимают беспокоящую стену» показали 0.89 сходства. Каждый, кто обладает базовым умением читать, знает, что одно – финансовая метафора, а другое – о настоящем восхождении на гору.

Я обнаружил это, создавая систему анализа финансовых новостей. Алгоритм не мог различить метафорический и буквальный язык. Инвесторы, ищущие рыночные анализы, получали смешанные результаты, включая реальные истории о скалолазании. Думаете, трейдеры, принимающие инвестиционные решения, ценят получение буквальных статей о восхождениях, перемешанных с финансовыми анализами? Я уверен, что не хочу, чтобы мои пенсионные сбережения зависели от статей о техниках скалолазания.

Метафорический язык распространен в специализированных областях, таких как финансы, медицина и право. Когда ваша модель путает метафоры с их буквальными интерпретациями, вы теряете возможность понимать жаргон области. Мы, по сути, работаем с моделями, которые пропускают фигуральный смысл, несмотря на то что анализируют текст, наполненный специализированными метафорами, которые эксперты области мгновенно распознают.

Экстенсионные и интенсионные ссылки путаются

Я не астроном, но даже я знаю, что это неправильно. «Утреная звезда видна на рассвете» против «Вечерняя звезда видна на рассвете» показали 0.93 сходства. Вот в чем дело – оба относятся к Венере, но только одно утверждение действительно! Вечерняя звезда (Венера вечером) не видна на рассвете, по определению.

Встраивания не могли различить разные способы обращения к одному и тому же объекту, когда эти ссылки несли разные значения правды. Астрономы, ищущие точные времена наблюдения, получали противоречивую информацию. Думаете, исследователи, планирующие наблюдения, ценят получение объективно ложных времен наблюдений? Я уверен, что не хочу просыпаться на рассвете, чтобы увидеть то, что видно только на закате.

Разные способы обращения к одному и тому же объекту часто несут разные контекстуальные импликации. Когда ваша модель рассматривает все ссылки на объект как взаимозаменяемые, вы теряете возможность сохранять контекстуально зависимую правду. Мы, по сути, работаем с моделями, которые размывают референтные различия, несмотря на то что анализируют текст, где эти различия определяют фактическую точность.

Специфические для области пороговые значения полностью игнорируются

Моя подруга-врач едва не получила сердечный приступ, когда я показал ей этот тест на результат. «Температура пациента составила 101°F» против «Температура пациента составила 104°F» показали 0.97 сходства. «Вы шутите?», – закричала она. «Это разница между ‘примите немного Тайленола’ и ‘немедленно обратитесь в отделение неотложной помощи’!»

Встраивания не могли различить клинически значимые температурные пороги. Врачи, ищущие случаи опасных лихорадок, получали смешанные результаты, включая легкие повышения температуры. Думаете, врачи неотложной помощи ценят получение не срочных случаев, смешанных с угрожающими жизни? Я уверен, что не хочу, чтобы моего опасно больного ребенка классифицировали как имеющего легкую лихорадку.

Специфические для области пороговые значения часто представляют собой критические границы принятия решений. Когда ваша модель рассматривает «чуть выше нормы» как эквивалентное «критически повышенному», вы теряете возможность различать рутинные и экстренные ситуации. Мы, по сути, работаем с моделями, которые рассматривают числа как взаимозаменяемые, несмотря на то что анализируют текст, где небольшие числовые различия представляют собой значительно разные клинические ситуации.

Форматы дат вызывают международные инциденты

Когда-нибудь пропускали срок из-за путаницы с форматом даты? Наши модели делают это постоянно. «Отправьте вашу заявку до 12/10/2023» против «Отправьте вашу заявку до 10/12/2023» показали почти идеальное 0.99 сходства. В зависимости от того, находитесь ли вы в США или Европе, эти даты разнятся на два месяца!

Встраивания не могли различить форматы MM/DD и DD/MM. Студенты, подающие заявки в университеты, пропускали сроки, поскольку форматы дат интерпретировались по-разному в разных странах. Думаете, заявители ценят пропущенные жизненно важные возможности из-за путаницы с форматом даты? Я уверен, что не хочу, чтобы мое будущее пошатнулось из-за того, что ИИ не смог различить октябрь и декабрь.

Неоднозначность формата даты не только раздражает – она может иметь юридические, финансовые и личные последствия. Когда ваша модель рассматривает различные форматы дат как идентичные, вы вводите культурные предвзятости, которые особенно влияют на международные системы. Мы, по сути, работаем с моделями, которые игнорируют конвенции формата даты, несмотря на то что анализируют текст, где эти различия могут определить, является ли что-то своевременным или безнадежно запоздавшим.

Правда и результаты

Вот сравнение между msmarco-distilbert-base-tas-b, all-mpnet-base-v2 и open-ai-text-embedding-3-large, и вы заметите, что между выходными данными этих моделей нет значительной разницы.

Оценка встраивания msmarco-distilbert-base-tas-b по различным тестовым случаям

Оценка встраивания all-mpnet-base-v2 по различным тестовым случаям

Оценка встраивания openai-text-embedding-3-large по различным тестовым случаям

Не могу подчеркнуть больше..

Смотрите, встраивания удивительно полезны, несмотря на эти проблемы. Я не выступаю против их использования, но очень важно подходить к ним с осторожностью. Вот мой проверенный на практике совет после десятков проектов и бесчисленных неудач:

Проверьте свою модель на реальных языковых шаблонах пользователей перед развертыванием. Не на академических benchmarks, не на очищенных тестовых случаях – на реальных примерах общения ваших пользователей. Мы разработали набор инструментов «лингвистического стресса», который имитирует общие вариации, такие как отрицания, опечатки и числовые различия. Каждый тестируемый нами система терпит неудачи в некоторых областях – вопрос в том, имеют ли эти области значение для вашего конкретного применения.
Постройте охранные заводы вокруг критических слепых зон. Разные приложения имеют разные требования, при которых не может быть ошибок. Для здравоохранения это обычно отрицание и точность сущностей. Для финансов это числа и временные отношения. Для юридической области это условия и обязательства. Определите, что совершенно недопустимо в вашем домене, и реализуйте специализированные меры защиты.
Сочетайте разные техники вместо того, чтобы ставить все на встраивания. Наши самые успешные системы объединяют извлечение на основе встраиваний с проверкой ключевых слов, явными проверками правил и специализированными классификаторами для критических различий. Эта избыточность не является неэффективной; она необходима.
Будьте прозрачными с пользователями о том, что система может и не может делать надежно. Мы добавили оценки уверенности, которые явно указывают, когда результат может быть связан с отрицанием, числовым сравнением или другими потенциальными слабостями. Пользователи ценят честность, и это создает доверие к системе в целом.

Вот самое важное, что я узнал:** эти модели не понимают язык так, как это делают люди – они понимают статистические шаблоны. Когда я перестал ожидать человеческого понимания и начал рассматривать их как сложные инструменты сопоставления шаблонов с конкретными слепыми зонами, мои системы стали лучше. Намного лучше.

Слепые зоны, о которых я говорю, не исчезнут в ближайшее время – они заложены в том, как работают эти модели. Но если вы знаете, что они есть, вы можете проектировать вокруг них. И иногда признание ограничения – это первый шаг к преодолению этого.

Примечание: У меня есть много таких случаев, найденных в ходе экспериментов, и я не буду их рассматривать, вместо этого начну освещать решение каждой из проблем, упомянутых в отношении встраиваний, в своем последующем посте.

Следующая статья продолжения скоро выйдет. Оставайтесь на связи!!

Перейти к источнику

Галлюцинации по замыслу – (Часть 3): Доверяя векторам без тестирования