image

Решение проблемы прогноза структуры белка откроет новую эпоху управляемой биологии.

Американский исследователь создал нейронную сеть ProteinNet, которая способна предсказывать структуру белка за миллисекунды. Ученый опубликовал статью о разработке на страницах Cell Systems и выложил код на сайт GitHub.

Одна из величайших задач биологии — предсказание трехмерных структур белков по их аминокислотным последовательностям. Существующие методы исследования первичной структуры белка — цепи из аминокислот — работают относительно легко, дешево и быстро. Существующие техники изучения третичной структуры белка — пространственной укладки изгибов, листов и спиралей аминокислотной цепи — проблематичны. Методы разрешения топологии белка включают электронную микроскопию, рентгеноструктурный анализ и ядерную магнитно-резонансную спектроскопию. Чтобы применять их, необходим кристаллизованный белок, замороженный белок, химически обработанный белок или радиоактивно меченный белок. К тому же сложность процесса подготовки образца усугубляется высокой стоимостью методов.

Решение может быть найдено в применении искусственного интеллекта (ИИ). В конце прошлого года Google DeepMind представила алгоритм AlphaFold, который обошел предшественников по эффективности. На основе последовательности аминокислот нейросеть предсказывает расстояния между всеми парами аминокислотных остатков и углы между связями, соединяющими аминокислоты. К тому же алгоритм самостоятельно оценивает точность своих расчетов.

В апреле этого года биолог из Гарвардской медицинской школы в Бостоне Мохаммед Аль Курайши представил алгоритм, который использует совершенно другой подход. По словам исследователя, ProteinNet предсказывает структуры почти в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно. Алгоритм работает на основе рекуррентной нейронной сети и предсказывает структуру одного сегмента белка на основе структур сегментов до и после него. Новизна модели заключается в том, что она способна создавать непрерывные предсказания, стык в стык. Это достигается тем, что модель связывает локальную и глобальную структуру белка через геометрические единицы.

Обучение сети ProteinNet занимает месяцы. После она способна преобразовать последовательность в структуру за миллисекунды. Высокая скорость достигается тем, что алгоритм использует математическую функцию для расчета в один шаг. AlphaFold применяет функцию в два шага и потому может прогнозировать топологию часы и даже дни.

Комментарии (9)


  1. poznawatel
    26.07.2019 07:52
    -1

    Прорыв!


  1. solariserj
    26.07.2019 08:51

    То есть Rosetta от BOINC уже не нужна?


    1. Sau
      26.07.2019 11:20

      «в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно» — думаю, рано розетту списывать со счетов


  1. vesper-bot
    26.07.2019 09:09

    Интересно, способен ли этот алгоритм учитывать третичные водородные связи дальше нескольких оснований? Вроде как основной затык как раз в них.


  1. vershinin
    26.07.2019 09:54

    Очень интересно, а способен ли он предсказывать белки с лигандами? С ионами металлов?
    Как он может предсказать белки, которые сворачиваются только в присутствии шаперонов? Или тех, что сворачиваются только в определённых условиях — pH, температура, электролиты?


  1. Dron11
    26.07.2019 12:33
    +1

    Забавно, сколько внимания уделяется скорости, да пусть хоть полгода считает, если это результат будет соответствовать действительности.


  1. Vsevo10d
    26.07.2019 13:16

    Вот тут я против нейросетей.
    В первом приближении достаточно хорошо должны работать алгоритмы. Легко задать такие параметры, как Ван-дер-Ваальсов радиус, заряд, водородные взаимодействия, гидрофильность, электроотрицательность. Дальше уже рассматривается принцип энергетической выгодности (минимальной энергии полученной в результате фолдинга молекулы), и вот тут очень выручает человек, задающий основные направления и способы укладки, которые затем проще оптимизировать — привет вышеупомянутым распределенным вычислениям BOINC, Folding и т.д. (да я и сам гнул белки на своем ноуте в Folding в далеком 2009-м).
    А нейросеть, насколько я понял, обучается по конфигурациям, и где-то это может работать, а в сильно экзотическом случае может серьезно споткнуться об отсутствие учета какого-нибудь аддитивного эффекта разного типа взаимодействий, например редкий ион, лиганд и т.д. Или просто провалиться в локальный оптимум чисто математически, не дойдя до истинно выгодной структуры, появляющейся в результате ферментного катализа.


    1. fireSparrow
      26.07.2019 13:30

      Ну, кажется, ничего не мешает нейросети заменить как раз ту стадию, где человек участвует. А всё остальное оставить как в вашем варианте.


  1. KonkovVladimir
    26.07.2019 13:45

    фолдинг белка же NP-hard задача www.gwern.net/docs/biology/1993-fraenkel.pdf, как можно «за миллисекунды» или белки маленькие???