Подписка тут

Google DeepMind представила модель для предсказания эффектов вариантов генов AlphaGenome

Она доступна через API для некоммерческого использования

Компания Google DeepMind, принадлежащая Alphabet, представила AlphaGenome — модель на основе машинного обучения для предсказания эффектов одиночных мутаций или вариантов генов на процессы регуляции генома по 11 различным модальностям. AlphaGenom способна обрабатывать длинные последовательности ДНК — до миллиона пар азотистых оснований — с разрешением до одной пары и охватывает как кодирующие, так и некодирующие участки генома. Ее описание опубликовано в журнале Nature.

Интерпретация влияния различий последовательности ДНК на ее функции остается одной из трудноразрешимых задач биологии. Особую сложность представляют некодирующие участки из-за многообразия возможных эффектов их вариантов (включая конфигурацию хроматина, эпигенетические модификации и другие), при этом они составляют 98 процентов всей генетической вариабельности. Для предсказания эффектов вариантов по полученным экспериментальным данным используют вычислительные методы, в частности предсказание функций по последовательностям ДНК. Современные подобные модели на основе машинного обучения имеют два фундаментальных ограничения. Первое состоит в том, что при увеличении длины анализируемой последовательности уменьшается разрешение в отдельных парах оснований и наоборот, из-за чего анализ может пропустить влияние на отдаленные участки генома или тонкие настройки, связанные с одиночными вариантами. Второе заключается в том, что модели анализируют эффекты только по одной модальности (например, экспрессии генов, сплайсингу или модификации гистонов) или ограниченному их набору.

Вице-президент по исследованиям Google DeepMind Пушмит Кохли (Pushmeet Kohli) с коллегами разработал модель на основе машинного обучения AlphaGenome, которая может анализировать с разрешением до пары оснований последовательности до миллиона пар, включая некодирующие последовательности, и предсказывать множество молекулярных характеристик, включая начала и окончания генов, места сплайсинга, количество производимой на их матрице РНК, доступность, связь с белками и другие. Для обучения модели использовали данные геномов человека и мыши из крупных публичных консорциумов ENCODE, GTEx, 4D Nucleome и FANTOM5. Она основана на предыдущей модели Google DeepMind для анализа генома Enformer и дополняет модель для анализа вариантов в кодирующих последовательностях AlphaMissense. Оптимизация технологий разработки позволила повысить эффективность без значительных затрат аппаратных ресурсов: обучение одиночной модели AlphaGenome (без дистилляции данных) заняло четыре часа и потребовало вдвое меньше вычислительных ресурсов, чем обучение Enformer.

AlphaGenome способна предсказывать эффекты одиночных мутаций и генетических вариантов по 11 модальностям, которые охватывают экспрессию генов (секвенирование РНК, кэп-анализ и PRO-cap), сплайсинг (места сплайсинга, их использование и соединение), состояние хроматина (DNase-seq, ATAC-seq, модификации гистонов и связывание факторов транскрипции) и карты физических контактов хроматина. Кроме того, она дает количественную оценку степени влияния вариантов на эти характеристики. В ходе испытаний эта модель оказалась не хуже наилучших имеющихся моделей или превзошла их в 25 из 26 оценок предсказаний эффектов генетических вариантов по различным модальностям, причем она единственная давала суммарную оценку по всем этим модальностям, а не отдельным из них. В качестве примера AlphaGenome использовали для анализа механизма действия выявленных ранее мутаций при остром Т-лимфобластном лейкозе и предсказали, что они активируют находящийся рядом с ними онкоген TAL1 путем добавления последовательности ДНК, связывающейся с фактором транскрипции MYB, что воспроизводит известный механизм развития заболевания.

Разработчики рассчитывают, что модель найдет применение в таких областях, как определение механизмов развития заболеваний, синтетическая биология и фундаментальные исследования генома. Для облегчения подобных исследований они открыли доступ к модели для некоммерческого использования через API и создали форум для пользователей. Авторы отмечают, что несмотря на существенные преимущества AlphaGenome, она имеет несколько ограничений. Во-первых, точность предсказаний уменьшается при большом (более 100 тысяч пар оснований) расстоянии от варианта до потенциальной мишени его эффектов. Во-вторых, способность модели давать предсказания, специфичные для конкретных клеток и типов тканей, нуждается в серьезной доработке. В-третьих, она не предназначена для персональных геномных предсказаний, а сосредоточена на отдельных генетических вариантах. В-четвертых, даваемые предсказания по молекулярным характеристикам не дают полной картины того, как генетические варианты влияют на развитие сложных признаков и заболеваний. И в-пятых, пока AlphaGenome обучена только на геномах человека и мыши и не распространяется на другие биологические виды.

Ранее Google DeepMind и Isomorphic Labs представили AlphaFold 3 — новую версию модели для предсказания точной структуры белков и их взаимодействий друг с другом и другими молекулами. В 2024 году создатели алгоритмов для предсказания аминокислотной последовательности белков (Rosetta) и их трехмерной структуры (AlphaFold) удостоились Нобелевской премии в области химии — подробно о значении этих разработок читайте в материале «Напророчили».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
В открытом доступе появился 3D-атлас раннего развития мышиного мозга

С картированием плотности ГАМКергических нейронов и микроглии