Когда я был преподом в универе в далеком 2015-том году, то вел также факультативный курс «психология трансгуманизма». На первой лекции приводил пример с секвенированием генома. А именно, что первая процедура секвенирования генома человека обошлась в 3 миллиарда долларов, без поправки на инфляцию, и длилась 13 лет. В 2015-том году секвенирование стоило 1-3 тысячи долларов, и занимало условно неделю. Сегодня искусственный интеллект ставит эту процедуру на поток. Сокращая сроки, цену и увеличивая объемы данных

Секвенирование генома и искусственный интеллект
Нейросети стали возможностью для реализации амбициозного плана по секвенированию геномов 1,85 миллиона эукариотов на нашей планете. Этот масштабный проект значительно расширит наши знания в области биологии и послужит основой для восстановления биоразнообразия.
Искусственный интеллект играет роль сильного катализатора. Его функции сводятся к регистрации и каталогизации данных ДНК, а также к проверкам и перепроверкам последовательностей, с сохранением точности и устранением ошибок в миллиардах и миллиардах строительных блоков.
Название проекта: «Проект БиоГеном Земли» (EBP) – это совместная программа по каталогизации генома всех современных видов Земли в рамках десятилетия. Проект стартовал в 2018 году и, по прогнозам, его стоимость составит примерно 5 миллиардов долларов США. EBP включает в себя скоординированную работу более 60 международных проектов по регистрации и секвенированию геномов, и на сегодняшний день в рамках проекта собраны данные по 4386 видам. Это касается млекопитающих, рептилий, рыб, птиц, насекомых, и всех видов растений.
Значимость работы – сохранить генетический материал вымирающих видов, ведь как только они исчезнут, у человечества не будет возможности узнать, как они когда-то жили или как они появились в ходе эволюции.
Насколько вообще критично это вымирание?

И здесь я подумал: «ой, да ладно, да сколько тех видов вообще вымирает?». И решил узнать с помощью Алисы в Поиске. После чего, немало офигел!
То есть буквально биоразнообразие нашей планеты теряет по три вида в час. Кстати, именно для таких вопросов в режиме «почемучки» и использую нейросети, чтобы как быстро получить ответ, так и прийти к первоисточникам. И тут у нас есть Iguides, которые ссылаются на PLOS утверждая, что 1 исчезнувший вид на миллион в год – это средняя норма. Вот только сейчас скорость вымирания – 3 вида в час.
И либо раньше подсчеты были неверными, либо это мы усовершенствовали одновременно и методы подсчета, и методы экспансии. Возможно, мы и не заметим большей части вымерших, но есть и «пороговый статус» у 18 000 животных, которые находятся на грани вымирания. И мы можем, если не спасти, то маленько придержать их как минимум в виде генетического слепка.
Скорость усвоения данных и инструменты на базе нейросетей
Итак, у нас есть 1,85 миллиона эукариотов и из них секвенировано 4386. Темп не очень впечатляющий. Но технологии анализа, сбора и упорядочивания данных, а также автоматизации всех этих процессов значительно усовершенствовались. И могут способствовать дальнейшему ускорению работ.
Интересно то, что в этом процессе главную роль играет Google. Его исследовательское подразделение разработало множество инструментов на основе искусственного интеллекта, которые ускоряют разные этапы процесса секвенирования.
Deep Variant
DeepVariant, выпущенный в 2018 году, точно реконструирует полную последовательность генома человека, используя данные, полученные с помощью современных инструментов высокопроизводительного секвенирования (HTS) ДНК. Сами же HTS-системы существуют уже несколько десятилетий, но они несовершенны. HTS производят лишь миллиарды коротких фрагментов ДНК, или «ридов», а не полный геном, поэтому преобразование этих ридов в единую точную последовательность – отдельная задача.
DeepVariant работает с этой задачей по аналогии с классификацией изображений, позволяя обученной глубокой нейронной сети анализировать общую визуальную картину выровненных ридов и определять природу расхождений: истинный ли это генетический вариант или просто ошибка прибора HTS. В результате, мы получаем и скорость, и точность обработки.
Deep Polisher
В этом году группа специалистов по геномике Google Research представила технологию DeepPolisher, которая помогает в сборке генома. Технология сокращает количество ошибок в процессе сборки на 50% и предотвращает пропуск болезнетворных вариантов генов программами аннотации, которые анализируют необработанные данные и идентифицируют как гены, так и их функции.
По словам представителей Google Research, такие инструменты помогают исследователям понять, как можно предотвратить некоторые заболевания у диких видов. А также помочь исчезающим видам избежать вымирания посредством деликатных вмешательств.
Первые результаты программ
Упорядочив геномные данные конкретного вида, специалисты по охране природы могут определить локации с наибольшим генетическим разнообразием. Это важно для предотвращения проблем, возникающих при инбридинге: низкая плодовитость и слабая иммунная система. Затем те же специалисты перемещают птиц в другие места обитания, чтобы те могли эффективно размножаться и увеличивать популяцию.
Командам, участвующим в проекте EBP, предстоит нелёгкая работа по каталогизации практически всех оставшихся видов, чтобы достичь своей цели к 2028 году. Однако автоматизация и искусственный интеллект значительно облегчают задачу. И пример с секвенированием генома человека из начала статьи – наглядное тому доказательство.
Традиционно, больше материалов про технологии и их симбиоз с природой человека, читайте в сообществе Neural Hack. У нас нет бога из машины, но его очертания отчетливо видны.
Комментарии (7)

aamonster
26.11.2025 11:32Я понимаю, как помогают. Я не понимаю, как обойти предел производительности HTS-систем.

MisterClever Автор
26.11.2025 11:32Ааааа, если в этом плане, то да, пока еще это затруднительно. Но кто знает, может сами наработки нейросетей помогут нащуать более эффективную процедуру секвенирования. Или снять часть нагрузки с ученых, чтобы те добрались до иных принципов

ArtFrost
26.11.2025 11:32Пардон, не совсем понял, описанные нейросети помогают именно полностью секвенировать весь геном начиная с секвенатора при чтении нуклеотидов или помогают собирать из ридов уже полученных сырых данных контиги и конечные хромосомы ? Если второе, то есть где-то открытая база с этими raw data ?

shadrap
26.11.2025 11:32конечно. основной труд это сборка и анотирование. все референсные геномы находятся на серверах ncbi - национальный центр биоинформации США. доступ открытый.
aamonster
Разве упирается в обсчёт данных, а не в их получение (собственно, процесс "отщипывания" кусочков ДНК с выяснением, что же мы отщипнули)? Не вижу, как тут может помочь ИИ – тут надо тупо больше "пробирок".
MisterClever Автор
В статье приведены два раздела, с названием инструментов: Deep Variant и Deep Polisher которые и описывают, как именно ИИ помогает в процедуре