Решение проблемы прогноза структуры белка откроет новую эпоху управляемой биологии.
Американский исследователь создал нейронную сеть ProteinNet, которая способна предсказывать структуру белка за миллисекунды. Ученый опубликовал статью о разработке на страницах Cell Systems и выложил код на сайт GitHub.
Одна из величайших задач биологии — предсказание трехмерных структур белков по их аминокислотным последовательностям. Существующие методы исследования первичной структуры белка — цепи из аминокислот — работают относительно легко, дешево и быстро. Существующие техники изучения третичной структуры белка — пространственной укладки изгибов, листов и спиралей аминокислотной цепи — проблематичны. Методы разрешения топологии белка включают электронную микроскопию, рентгеноструктурный анализ и ядерную магнитно-резонансную спектроскопию. Чтобы применять их, необходим кристаллизованный белок, замороженный белок, химически обработанный белок или радиоактивно меченный белок. К тому же сложность процесса подготовки образца усугубляется высокой стоимостью методов.
Решение может быть найдено в применении искусственного интеллекта (ИИ). В конце прошлого года Google DeepMind представила алгоритм AlphaFold, который обошел предшественников по эффективности. На основе последовательности аминокислот нейросеть предсказывает расстояния между всеми парами аминокислотных остатков и углы между связями, соединяющими аминокислоты. К тому же алгоритм самостоятельно оценивает точность своих расчетов.
В апреле этого года биолог из Гарвардской медицинской школы в Бостоне Мохаммед Аль Курайши представил алгоритм, который использует совершенно другой подход. По словам исследователя, ProteinNet предсказывает структуры почти в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно. Алгоритм работает на основе рекуррентной нейронной сети и предсказывает структуру одного сегмента белка на основе структур сегментов до и после него. Новизна модели заключается в том, что она способна создавать непрерывные предсказания, стык в стык. Это достигается тем, что модель связывает локальную и глобальную структуру белка через геометрические единицы.
Обучение сети ProteinNet занимает месяцы. После она способна преобразовать последовательность в структуру за миллисекунды. Высокая скорость достигается тем, что алгоритм использует математическую функцию для расчета в один шаг. AlphaFold применяет функцию в два шага и потому может прогнозировать топологию часы и даже дни.
Комментарии (9)
solariserj
26.07.2019 08:51То есть Rosetta от BOINC уже не нужна?
Sau
26.07.2019 11:20«в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно» — думаю, рано розетту списывать со счетов
vesper-bot
26.07.2019 09:09Интересно, способен ли этот алгоритм учитывать третичные водородные связи дальше нескольких оснований? Вроде как основной затык как раз в них.
vershinin
26.07.2019 09:54Очень интересно, а способен ли он предсказывать белки с лигандами? С ионами металлов?
Как он может предсказать белки, которые сворачиваются только в присутствии шаперонов? Или тех, что сворачиваются только в определённых условиях — pH, температура, электролиты?
Dron11
26.07.2019 12:33+1Забавно, сколько внимания уделяется скорости, да пусть хоть полгода считает, если это результат будет соответствовать действительности.
Vsevo10d
26.07.2019 13:16Вот тут я против нейросетей.
В первом приближении достаточно хорошо должны работать алгоритмы. Легко задать такие параметры, как Ван-дер-Ваальсов радиус, заряд, водородные взаимодействия, гидрофильность, электроотрицательность. Дальше уже рассматривается принцип энергетической выгодности (минимальной энергии полученной в результате фолдинга молекулы), и вот тут очень выручает человек, задающий основные направления и способы укладки, которые затем проще оптимизировать — привет вышеупомянутым распределенным вычислениям BOINC, Folding и т.д. (да я и сам гнул белки на своем ноуте в Folding в далеком 2009-м).
А нейросеть, насколько я понял, обучается по конфигурациям, и где-то это может работать, а в сильно экзотическом случае может серьезно споткнуться об отсутствие учета какого-нибудь аддитивного эффекта разного типа взаимодействий, например редкий ион, лиганд и т.д. Или просто провалиться в локальный оптимум чисто математически, не дойдя до истинно выгодной структуры, появляющейся в результате ферментного катализа.fireSparrow
26.07.2019 13:30Ну, кажется, ничего не мешает нейросети заменить как раз ту стадию, где человек участвует. А всё остальное оставить как в вашем варианте.
KonkovVladimir
26.07.2019 13:45фолдинг белка же NP-hard задача www.gwern.net/docs/biology/1993-fraenkel.pdf, как можно «за миллисекунды» или белки маленькие???
poznawatel
Прорыв!