Курация биологических находок из научной литературы с NVIDIA NIM

Научные статьи имеют высокую гетерогенность, часто используют различные терминологии для одних и тех же сущностей, применяют разнообразные методологии для изучения биологических явлений и представляют результаты в разных контекстах. Извлечение значимых выводов из этих статей требует глубокого понимания биологии, критической оценки методов и способности различать надежные результаты от нерелевантных или менее надежных. 

Ученые должны внимательно интерпретировать контекст, оценивать надежность экспериментальных данных и выявлять возможные предвзятости или ограничения в исследованиях. Учитывая высокие требования к точности для поддержки критически важных решений в моделировании заболеваний, крайне важно, чтобы биологические выводы основывались только на высококачественных знаниях.  

Большие языковые модели (LLM) при интеграции в конвейер, дополненный извлечением (RAG), открывают революционную возможность для автоматизации и ускорения курации биологических выводов. Оптимизируя извлечение данных из научных статей, LLM значительно увеличивают масштабируемость этого процесса. Эти языковые модели могут просеивать гораздо больше статей, чем любой человек смог бы просмотреть вручную, и выявлять значительно большее количество релевантных результатов.    

Команда CytoReason, участник программы NVIDIA Inception, разрабатывает вычислительные модели заболеваний, используя ИИ для анализа огромных объемов молекулярных и текстовых данных, чтобы поддержать принятие решений в биофармацевтике. Захватывая механизмы действия (MOAs), регуляцию генов, реакции пациентов и многое другое, эти модели могут моделировать человеческие заболевания на уровнях тканей, клеток и генов. 

Это позволяет исследователям прогнозировать прогрессирование заболеваний, оценивать реакции на лечение, приоритизировать биологические цели и выявлять релевантные подгруппы пациентов. Один из анализов в вычислительных моделях заболевания CytoReason основан на биологических выводах из литературы. Вручную добывать растущее количество научных статей требует сложного понимания биологии и значительного времени.   

В этом посте представляется метод CytoReason для ускорения процесса курации биологических выводов из литературы.   

Конвейер RAG на базе NVIDIA NIM

Команда CytoReason разработала конвейер RAG на базе микросервисов NVIDIA NIM, чтобы увеличить объем извлечения биологических выводов, интегрированных в вычислительные модели заболеваний CytoReason. На рисунке 1 показан процесс.  

Схема потока, описывающая конвейер RAG для добычи биологических выводов.

Вывод конвейера представляет собой список биологических доказательств, извлеченных из литературы. Эти доказательства агрегируются по типам сущностей и условиям, предлагая исчерпывающее резюме, которое предоставляет ценные сведения о биологии заболеваний. На рисунке 2 представлен пример вывода, поддерживающего повышенную экспрессию гена IL6 у пациентов с илеальным болезнью Крона. 

Микросервисы LLM NIM от NVIDIA, такие как Mistral 12B Instruct, обеспечивают удивительную простоту использования, позволяя бесшовно интегрироваться в этот конвейер. Благодаря использованию NIM команда достигла высокой производительности, сократив время, которое иммунологи затрачивают на составление такого списка, с дней до всего нескольких часов, при этом также увеличив покрытие.   

Структурированный ввод  

Конвейер RAG начинается с структурированного ввода, разработанного с учетом потребностей биологов команды. Этот ввод определяется четырьмя ключевыми параметрами: тип сущности (например, ген, путь или тип клетки), заболевание, ткань и условия. Например, ввод может включать извлечение доказательств из литературы, чтобы поддержать изменения в экспрессии генов, связанных с болезнью Крона в тканях илеума, сравнивая здоровые и воспаленные условия.  

Модуль извлечения   

Модуль извлечения отвечает за запрос данных в базах данных, таких как Google Scholar, PubMed или другие научные репозитории, чтобы получить релевантные статьи на основе ввода. Чтобы увеличить потенциал для разнообразных находок, модуль извлечения обрабатывает десятки запросов, составленных из одного и того же ввода. Научные статьи, полученные из этих запросов, затем консолидируются в единный унифицированный набор. Каждая статья хранится с подробными метаданными, включая название, авторов, дату публикации, аннотацию, отрывок из Google, журнал или источник и DOI/URL.  

Биологические ограничения  

После того как модуль извлечения собрал репозиторий статей и связанных метаданных, применяется процесс ограничения с использованием Mistral 12B NIM, чтобы уточнить коллекцию в высокоспецифичный и релевантный набор статей. Этот этап основан на подсказке, состоящей из трех критериев:   

  • Исследования на образцах человека: Исключение статей, основанных только на не человеческих образцах, таких как модели животных или in vitro исследования.   
  • Релевантность к заболеванию и ткани: Убедиться, что статьи сосредоточены на конкретном заболевании и ткани, представляющей интерес. Например, одна статья может содержать данные по нескольким заболеваниям ВЗК, влияющим на различные участки кишечника. Этот шаг гарантирует, что конкретное состояние и ткань (например, болезнь Крона в илеуме) попадают в область статьи.  
  • Наличие условий сравнения: Сравнительные исследования важны для получения значимых выводов, таких как выявление дифференциальной экспрессии генов или открытие биомаркеров. Статьи, в которых отсутствуют четкие сведения о сравнительных условиях, такие как «больной против здорового» или «обработанный против необработанного», исключаются, так как они с меньшей вероятностью будут соответствовать аналитическим задачам.  

Кроме того, подсказка состоит из элементов, таких как инструкции, примеры с несколькими выстрелами, направленные шаги по решению (цепочка мысли), вопросы и требования к результатам с высоким уровнем доверия.  

На этом этапе научный контент каждой оставшейся статьи обрабатывается, кусочек за кусочком. Для каждого фрагмента используется LLM NIM от NVIDIA для извлечения доказательств о сущностях, представляющих интерес, в отношении к заболеванию, ткани и условиям. Подсказка, предоставленная LLM, тщательно разрабатывается, аналогично парадигме на этапе биологических ограничений.  

Извлеченная информация организуется в структурированном формате (например, JSON), что упрощает эффективную дальнейшую обработку и анализ. В завершение вывод включает доказательства с ссылками на статью, как показано на рисунке 2. Гены классифицируются на основе изменения их экспрессии (увеличена, уменьшена, без изменений или неизвестно) в двух условиях (например, заболевание против здоровья). Представлены доказательства из литературы, поддерживающие повышенную экспрессию гена IL6 у пациентов с илеальным болезнью Крона.  

Таблицы, описывающие характеристики генов и текстовые выводы.

Результаты  

Команда оценила конвейер RAG, используя стандарт, сосредоточенный на экспрессии генов при болезни Крона в илеуме. В этом случае в процессе ручной курации, который занял днями, иммунологом было выявлено 101 ген с дифференциальной экспрессией (либо увеличенной, либо уменьшенной) между здоровыми и воспаленными условиями.   

Конвейер RAG извлек информацию о 99 генах за считанные минуты, 70 из которых совпадали с теми, что были идентифицированы через ручную куратору. Оставшиеся 29 генов были новыми открытиями и впоследствии были подтверждены по точности экспертом. Доказательства, полученные конвейером для всех генов, были точными в 96% случаев. 

Стоит отметить, что конвейер успешно определил 13 из 14 основных генов с значительным количеством предложений-доказательств для каждого из них. Это подчеркивает его способность извлекать критическую информацию с высокой точностью, так как основные гены сильно связаны с определенным заболеванием и часто обсуждаются в научной литературе.   

Резюме

Добыча биологических идей из литературы — это сложная задача, которая традиционно занимает дни и требует глубоких знаний в области биологии. Используя технологии NVIDIA NIM и LLM, CytoReason значительно сократила время, необходимое для этого процесса — с дней до всего лишь нескольких часов. Эти результаты показывают, что точность этих выводов очень высока, с еще большим охватом биологических сущностей по сравнению с теми, что были выявлены учеными-людьми.  

Чтобы начать работу с NVIDIA NIM, посетите NVIDIA NIM для разработчиков.

Благодарности

Мы благодарим NVIDIA за их профессиональную, терпеливую и приветливую поддержку на протяжении всего проекта. Мы также признательны нашим коллегам из CytoReason, которые внесли свой вклад своим временем и опытом. Особая благодарность Грегу Миневичу, Симону Шейбе, Инбаль Бераха, Дану Айзикову, Йонатану Энку, Элине Старосветски, Зеву Беншафару, Йоаву Шумейкеру и Ронену Шустеру за их ключевую роль в проектировании, реализации и рецензировании технологии, обсуждаемой в этом посте. Их идеи и отзывы были неоценимы в формировании как процесса разработки, так и содержания.

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *