Новое исследование с использованием искусственного интеллекта показывает, как продвинутые модели машинного обучения не только подтверждают известные гены болезни Альцгеймера, но и выявляют шесть новых вариантов риска.
Статистические инструменты играют важнейшую роль в раскрытии генетической основы сложных заболеваний. Значительного прогресса за пределами линейных аддитивных моделей пока не произошло; однако в недавней статье, опубликованной в журнале Nature Communications, описаны результаты применения машинного обучения (МО) к геномным данным большой группы пациентов с болезнью Альцгеймера (БА) в Европе.
Полногеномные ассоциативные исследования (GWAS) позволили глубже понять генетические вариации как фактор риска болезни Альцгеймера. Эти вариации учитываются в полигенных индексах риска (PRS), которые помогают прогнозировать риск заболевания.
Эти инструменты разработаны исходя из предположения, что варианты одинаково предсказывают исход. Риски, связанные с отдельными вариантами, суммируются, независимо от того, находятся ли эти варианты в тех же или других генетических локусах. Это игнорирует тот факт, что риски изменяются под воздействием взаимодействий между вариантами и другими факторами риска.
Исследования болезни Альцгеймера (БА) показали, например, что различные варианты гена APOE изменяют характеристики заболевания и тип иммунного клеточного ответа на аномальные нейрональные белки. Генетические исследования показывают, что различия в экспрессии APOE приводят к различным ассоциациям генов БА и различному возрасту постановки диагноза.
По мере увеличения размеров выборок для GWAS и повышения эффективности PRS, для извлечения максимальной пользы из имеющихся в настоящее время больших данных необходимы новые платформы, использующие передовые вычислительные ресурсы, что позволит лучше понять генетическую основу болезни Альцгеймера. Искусственный интеллект в моделях машинного обучения применялся в нескольких исследованиях; однако небольшие размеры выборок привели к значительному повышению риска смещения.
Текущее исследование предприняло попытку решить эту проблему, используя крупнейший на сегодняшний день доступный набор данных по всему геному для болезни Альцгеймера.
В этом исследовании исследователи обучили три типа моделей, которые хорошо известны и высокоэффективны в этой области:
Целью было оценить эффективность каждого алгоритма при выполнении трех типов задач:
В исследовании использовались строгая перекрестная проверка, множественные случайные разделения обучающей и тестовой выборок, а также тщательная корректировка с учетом таких факторов, как пол, возраст, центр генотипирования и структура популяции.
Что касается первой задачи, результаты показали, что МО охватил все генетические варианты, охватывающие весь геном в обучающей выборке. Более того, было выявлено 22% вариантов, ассоциированных с болезнью Альцгеймера, описанных в более крупных метаанализах GWAS, хотя размер выборки составлял лишь одну двадцатую от их размера. Таким образом, данное исследование задаёт стандарт для методов, основанных на МО, охватывающих весь геном.
Способность моделей МО воспроизводить результаты гораздо более масштабных GWAS подчеркивает, что гибкие модели могут восстановить значительную часть известного генетического риска с меньшим количеством образцов.
Во-вторых, МО правильно определил APOE как фактор риска болезни Альцгеймера. Он корректно выявил ведущие однонуклеотидные полиморфизмы (SNP), причинно связанные с болезнью Альцгеймера. С помощью всех методов МО выделил ведущие SNP для нескольких важных генов болезни Альцгеймера. MB-MDR 1 d обнаружил 20 высокостабильных SNP, в основном картированных в области APOE, со всеми возможными разделениями между обучением и проверкой.
Модели также выявили шесть новых локусов, реплицированных в несвязанном наборе данных. Эти локусы кодируют такие гены, как ARHGAP25, LY6H и COG7. Большинство новых локусов было выявлено с помощью бластомеров (GBM).
Новая ассоциация была обнаружена в гене AP4E1, близком к уже известному локусу SPPL2A. AP4E1 кодирует часть белка, ключевого для метаболизма амилоида, и его дефицит может способствовать образованию бета-амилоида, увеличивая риск болезни Альцгеймера. Нейросетевой подход также выявил дополнительный новый локус (SOD1), имеющий возможную биологическую связь с патологией болезни Альцгеймера.
Все модели предсказывали статус болезни Альцгеймера с сопоставимой точностью. Наиболее выраженная корреляция между ГБМ и NN и MDRC 1 d. Несмотря на слабую корреляцию с NN, PRS был тесно связан с ГБМ.
Модели GBM и PRS лучше прогнозировали случаи, отличающиеся от контрольных. Прогнозы были подтверждены с помощью случайных перегруппировок обучающих и тестовых данных, что свидетельствует о высокой воспроизводимости.
Женщины были представлены в прогнозируемых случаях в избыточном количестве, как и ожидалось, учитывая женское большинство в данных. ГБМ стала исключением: соотношение мужчин и женщин в обеих группах (в случаях и контрольной) было одинаковым.
Все прогнозы модели оставались стабильными для разных когорт и повторных случайных разделений, что позволяет предположить, что результаты не обусловлены переобучением или техническими артефактами.
Исследователи сравнили первичные варианты, обнаруженные методом машинного обучения, со всеми важными однонуклеотидными полиморфизмами (ОНП), ассоциированными с болезнью Альцгеймера (БА), выявленными в метаанализах. Из 130 ранее описанных генов, соответствующих 86 локусам, один или несколько алгоритмов машинного обучения выявили 19. Все модели идентифицировали APOE, а две модели выявили семь локусов.
Исключение региона APOE из обучающего набора данных привело к выявлению большего количества известных генов риска болезни Альцгеймера, но с меньшей точностью. При использовании только текущих данных одна или несколько моделей машинного обучения идентифицировали каждый SNP, обнаруженный с помощью GWAS в обучающем наборе данных.
Высокоприоритетные однонуклеотидные полиморфизмы (ОНП), выявленные методом ML, были в большей степени сконцентрированы в микроглиальных и астроцитарных регионах. Они были вовлечены в различные пути, связанные с болезнью Альцгеймера, такие как регуляция бета-амилоидного белка, являющегося отличительным признаком болезни Альцгеймера, или изменение концентрации таких белков, как Ly6h. Эта молекула связывается с ацетилхолиновыми рецепторами, участвующими в нейротрансмиссии, и её уровень в спинномозговой жидкости коррелирует с тяжестью болезни Альцгеймера. Другие связаны с нарушениями гликозилирования, связанными с процессингом тау-белка при болезни Альцгеймера.
Метод, которым модели МО оценивают важность SNP (например, с помощью значений SHAP для GBM, перестановочных p-значений для MB-MDR или сетевых весов для NN), не всегда напрямую соответствует традиционной значимости GWAS, что отражает фундаментальные различия в выборе признаков между МО и традиционной статистикой.
Это мощное, сложное исследование подчеркивает, что МО может предсказывать генетические варианты, связанные с болезнью Альцгеймера, сопоставимо с традиционными методами анализа всего генома, учитывая большие доступные наборы данных.
Умеренная прогностическая точность метаанализов GWAS может быть обусловлена гетерогенностью включенных исследований, отражающей различия по нескольким релевантным характеристикам. Более однородные выборки обеспечивают более высокие отношения шансов, чем клинические выборки. Некоторые однонуклеотидные полиморфизмы (SNP), выявленные с помощью моделей машинного обучения, могут оказывать обнаружимые эффекты только в определенных когортах или при определенных условиях, которые могут быть не видны в больших гетерогенных внешних наборах данных.
Это также объясняет, почему все однонуклеотидные полиморфизмы (SNP), выявленные с помощью моделей машинного обучения, не удалось воспроизвести во внешних наборах данных. Их влияние может быть значимым только в определённых ситуациях, не демонстрируя общегеномной значимости в самых разных исследованиях с разными контекстами.
Несмотря на это, новые однонуклеотидные полиморфизмы (SNP) затронули биологически вероятные пути. Необходимы дальнейшие исследования, чтобы понять, как выделить важные SNP среди тех, что получены разными методами.
Результаты демонстрируют, что методы машинного обучения способны достигать предиктивной эффективности, сопоставимой с классическими подходами в генетической эпидемиологии . Помимо прогнозирования риска, они выявили новые локусы, пропущенные традиционными методами GWAS. Воспроизводимый подход, используемый здесь, минимизирует вероятность смещения.
В целом, данная работа демонстрирует перспективность и существующие ограничения МО в генетике болезни Альцгеймера. Она представляет собой ценное дополнение к полногеномному поиску ассоциаций (GWAS), но также подчёркивает необходимость тщательной интерпретации, воспроизведения и дальнейшего методологического совершенствования.
Текущее исследование открывает путь для будущей разработки и проверки моделей МО в качестве дополнения к традиционным методам генетических исследований болезни Альцгеймера.
Еще пару лет назад никто и представить не мог, что Германия, которая по очевидным причинам вообще не...
Туринская плащаница, которая, как утверждается, была оригинальным погребальным покровом Иисуса, не м...
Если тебе когда-нибудь придет в голову мысль, что в твоем возрасте не подобает чего-либо делать, просто напомни себе, что ты никогда уже не будешь таким молодым, как сегодня.
Этот сайт использует файлы «cookie» с целью повышения удобства его использования. Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием сервиса «Яндекс. Метрика». Продолжая использовать сайт, вы соглашаетесь с Политикой конфиденциальности.
Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций
(Роскомнадзор). Реестровая запись от 07.06.2022 серия ЭЛ № ФС 77 – 83392. При использовании, полном или частичном
цитировании материалов planet-today.ru активная гиперссылка обязательна. Мнения и взгляды авторов не всегда совпадают с
точкой зрения редакции. На информационном ресурсе применяются рекомендательные технологии (информационные технологии
предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей
сети "Интернет", находящихся на территории Российской Федерации)".