Лаборатория Das в Стэнфорде ускоряет исследование сворачивания РНК с помощью NVIDIA DGX Cloud

Лаборатория Das при Стэнфорде ускоряет исследования сворачивания РНК с помощью NVIDIA DGX Cloud

09 апреля 2025

Автор Кристиан МунлиДекоративное изображение РНК на фоне букв нуклеотидов.

Лаборатория Das при Стэнфорде революционизирует исследования сворачивания РНК с помощью уникального подхода, который включает участие сообщества и ускоренные вычисления. С поддержкой NVIDIA DGX Cloud через программу NAIRR Pilot лаборатория получила доступ к 32 узлам NVIDIA A100 DGX Cloud с восемью GPU каждый на три месяца, что позволило команде перейти от малых экспериментов к крупномасштабному распределенному обучению. Это дало возможность обучать большие модели и наборы данных, улучшить методы обучения и продвигать область исследований сворачивания РНК.

Доктор Рхижу Дас и его команда находятся на переднем крае исследований РНК, проводя конкурс OpenVaccine на платформе Kaggle в 2020 году в ответ на пандемию Covid-19, а также конкурс Ribonanza в 2024 году для дальнейших исследований в области сворачивания РНК. Их цель — ускорить понимание и применение биологических наук путем точного моделирования структуры и функции РНК.

Одна из основных задач в разработке моделей сворачивания РНК — нехватка экспериментальных данных о структуре РНК, таких как базы данных структур белков, используемые для обучения AlphaFold2.

Чтобы решить эту проблему, лаборатория Das разработала Eterna, игру, позволяющую сообществу вносить вклад в создание новых последовательностей РНК. Эти последовательности затем синтезируются в лаборатории, и проводятся эксперименты по химическому картированию для вывода свернутых структур РНК.

Стратегия

Подход лаборатории Das к ускорению исследований сворачивания РНК включает несколько важных шагов:

  • Краудсорсинг данных: Лаборатория создала видеоигру Eterna для сбора новых последовательностей РНК от сообщества, в сочетании с другими базами данных, кураторствованными экспертами.
  • Аппроксимация данных структуры РНК: Эксперименты по химическому картированию производят профили реактивности РНК, синтезированной и протестированной в лаборатории на основе последовательностей, разработанных в Eterna и других методах краудсорсинга.
  • Краудсорсинг проектирования моделей: Конкурсы на Kaggle используются для тестирования различных архитектур моделей и пайплайнов обучения с помощью сообщества.

В дополнение к краудсорсингу данных, лаборатория Das использует несколько методов для получения синтетических дизайнов. Один из подходов включает модель, обученную с помощью обучения с подкреплением для игры в Eterna на уровне человеческой производительности, чтобы ускорить генерацию новых последовательностей. Эта модель обучалась 4000 часов на GPU A100 в NVIDIA DGX Cloud с использованием алгоритма Q-обучения.

На основе лучших моделей из конкурса Ribonanza прошлого года лаборатория Das создала новую модель, которая превзошла все предыдущие решения, RibonanzaNet. В последнее время они расширили свою учебную базу данных с 210K до 40M последовательностей РНК и профилей химической реактивности. С вычислительной мощностью NVIDIA DGX Cloud они начали проводить крупномасштабные распределенные тренировки, эксперименты с различными архитектурами моделей и оптимизацию гиперпараметров обучения.

Результаты

Лаборатория Das успешно собрала крупнейшую базу данных для обучения структуры РНК. С помощью этой базы данных они обучили фундаментальные модели на 256 GPU A100, основываясь на RibonanzaNet. Их последняя модель, RibonanzaNet2, является моделью с 100 миллионами параметров для структуры РНК, достигая передового уровня в моделировании вторичной структуры. Она открыта для дообучения сообществом.

26 февраля 2025 года лаборатория Das запустила конкурс на платформе Kaggle под названием Stanford RNA 3D Folding, с общим призовым фондом в $75K, который будет разделён между тремя лучшими командами. Конкурс длится 3 месяца и помогает сообществу дообучить RibonanzaNet2 для предсказания структур. Оценка включает экспериментальные структуры РНК, собранные после начала конкурса.

Чтобы начать дообучение RibonanzaNet2 в конкурсе Kaggle, смотрите сообщение о релизе RibonanzaNet2 alpha и релиз модели RibonanzaNet2. Для получения более подробной информации ознакомьтесь с шестичастным постом, в котором объявлен релиз RibonanzaNet2 в X. Осталось чуть менее 2 месяцев, чтобы присоединиться к конкурсу и помочь решить одну из оставшихся grand challenges в биологии.

Значимость этого исследования заключается в его потенциале ускорить понимание и применение биологических наук. Исследования сворачивания РНК имеют важные последствия для таких областей, как медицина, сельское хозяйство и биотехнология. Например, разработка более точных моделей структуры и функции РНК позволяет исследователям лучше понять механизмы, лежащие в основе различных заболеваний, и разрабатывать более эффективные методы лечения.

Присоединяйтесь

Достижения лаборатории Das демонстрируют потенциал краудсорсинга и совместных исследований, которые становятся возможными благодаря ускоренным вычислениям, в продвижении таких научных областей, как сворачивания РНК и биология. В дальнейшем группа планирует масштабировать размер моделей и наборов данных, а также вычислительные ресурсы для обучения, такие как NVIDIA DGX Cloud.

Чтобы поучаствовать и внести вклад в развитие моделей ИИ для РНК, присоединяйтесь к конкурсу Stanford RNA 3D Folding и начните дообучение RibonanzaNet2.

Для получения дополнительной информации о исследованиях лаборатории Das, смотрите следующие ресурсы:

Связанные ресурсы

Теги

Центр обработки данных / Облако | Здравоохранение и жизненные науки | A100 | DGX | Общий интерес | Главный акцент | Биология – Генеративный ИИ

О авторах

Фотография аватара

О Кристиане Мунли
Кристиан Мунли — архитектор решений в NVIDIA в программе ротации для новых выпускников. В NVIDIA он поддерживает различные передовые проекты в области ИИ для бизнеса и здравоохранения. Он окончил Университет Делавэра со степенями бакалавра в области прикладной физики и компьютерных наук. Его опыт включает исследования в области HPC, машинного обучения и биофизики.Посмотреть все посты Кристиана Мунли

Перейти к источнику
AI Daily

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *