Химический IT кентавр – хемоинформатика / forpes.ru

Главная
Химический IT кентавр – хемоинформатика

Химический IT кентавр – хемоинформатика

29.06.2024 10:35

AIinChemistry 4 1700 Источник

В 21 веке мы сталкиваемся с бурным развитием мультидисциплинарных наук, где информационные технологии играют ключевую роль. Одной из привлекающих внимание областей, где эти технологии активно применяются, является хемоинформатика (от анг. chemoinformatics). Определение, данное И.Гастайгером, звучит так, хемоинформатика — это применение методов информатики для решения химических задач [1].

Зачем нужна хемоинформатика?

В настоящее время по данным одной из наиболее крупных химических баз данных PubChem человечеству известно более 100 миллионов органических молекул [2]. Казалось бы очень большое число, однако размер всего химического пространства оценивается в ошеломляющие 10^180 веществ, которые потенциально могут быть синтезированы [3]. Это на сотню порядков больше числа атомов во вселенной. Иметь методы навигации в известных и неизвестных областях химического пространства критически важно, т.к. среди непознанных 10^180 веществ наверняка существует множество полезных соединений — это новые лекарства, красители, агрохимикаты, ароматы для парфюмерии, материалы для электроники и другие важные для людей материалы.

Масштаб даже известной нам части химического пространства требует использования методов анализа больших данных. Это послужило одной из причин возникновения дисциплины на стыке химии и IT - хемоинформатики. Но чем именно занимается хемоинформатика в прикладном смысле? Основные направления приведены на схеме ниже.

1. Предсказание свойств

Существует множество свойств, которые успешно прогнозируются с помощью методов машинного обучения и/или компьютерного моделирования. К ним относятся различные физико-химические параметры (растворимость, липофильность), биологическая активность, реакционная способность и многие другие [4,5,6,7]. В этой статье мы рассмотрим предсказание токсичности ввиду важности этого параметра. Ежегодно синтезируется порядка нескольких миллионов новых веществ, при этом профиль безопасности устанавливается лишь для около 10 тыс. Это значит, что за 1 год мы устанавливаем токсичность соединений, синтезированных всего за 1 день.

Налицо серьезное отставание скорости экспериментальной проверки токсичности новых молекул от скорости их синтеза. Но даже если весь научно-технический потенциал человечества был бы направлен на токсикологическое профилирование для всех новых веществ - смогли бы мы это сделать? Разберем пример. Для регистрации пестицида в США требуется провести порядка 80 тестов на определение токсичности, их суммарная стоимость оценивается более чем в 20 миллионов долларов [8]. Токсичность очень многогранное понятие, которое требует десятков экспериментов. Стоимость некоторых из них в соответствии с данными U.S. Environmental Protection Agency (EPA):

Острая токсичность (рыбы) 17.000$
Хроническая токсичность (дафнии) 180.000$
Канцерогенность (крысы и мыши) 2.100.000$.

В соответствии с приведенными выше данными тотальное экспериментальное определение токсичности для всех новых соединений видится, действительно, мало реалистичным с точки зрения колоссальных затрат ресурсов на эту задачу.

Кроме того, токсичность в большинстве случаев оценивается на лабораторных животных, масштаб использования которых сейчас во всем мире достигает почти 200 миллионов в год [9]. Существует даже серия мультфильмов, посвященная их защите. Особую известность получил кролик Ральф. Этически предпочтительно избегать тестов на животных, что закреплено, например, в регламенте Евросоюза REACH [10].

Современные подходы позволяют создать альтернативные решения, которые на порядки снижают стоимость профилирования, а также не вызывают этических вопросов связанных с проведением опытов на животных — это предсказание токсичности in silico, то есть за счет применения вычислительных технологий. Разумеется, есть определенная ошибка в предсказательном моделировании, однако по меньшей мере это способствует приоритезации исследований и минимизации расхода животных. Более того – использование этих методов снижает риски для добровольцев, участвующих в клинических испытаниях.

Уже существует ряд цифровых инструментов, позволяющих предсказать токсичность веществ. Среди них ряд методов, разработанных российскими учеными [11, 12]. С помощью основанной на этих методах цифровой платформе Синтелли можно прогнозировать более 40 параметров токсичности [13].

2. Дизайн веществ и материалов

Существуют инструменты, позволяющие сгенерировать молекулу с заданными свойствами. Этому находится много применений, однако в данной статье мы сосредоточимся на лекарствах. Разработка препарата — это сложный процесс, длительность которого составляет в среднем 10–15 лет, а стоимость может достигать 3-х миллиардов $ [14], однако применение методов хемоинформатики способно ощутимо сократить как временные, так и материальные расходы (рис. 1). R&D департаменты крупных фармацевтических компаний уже не могут существовать без таких специалистов, как хемоинформатик, вычислительный и цифровой химик. Дело в том, что хемоинформатика значительно оптимизирует решение основных задач фармы: поиск активных молекул, определение токсичности, растворимости в воде, проницаемости через клеточную мембрану, метаболизма, взаимодействия с белками плазмы крови и др. Дизайн лекарств с помощью компьютерных технологий (Computer-aided drug design) развивается внушительными темпами и особенно впечатляющими являются следующие 2 примера:

§ Компания Insilico Medicine в 2023 года заявила об успешном прохождении доклинических исследований молекулы INS018-055 для лечения идиопатического легочного фиброза. Интересно, что с помощью ИИ не только была сгенерирована активная молекула, но и идентифицирована мишень для лечения. К текущему моменту молекула успешно преодолела I фазу клинических исследований, тем самым подтвердив безопасность применения [15]. Продолжается II фаза клинических исследований.

§ В 2020 году британская фармацевтическая компания Exscienta заявила об успешном окончании доклинических исследований молекулы DSP-1181 для лечения обсессивно-компульсивного расстройства (ОКР) [16].

«Этот год был первым, когда было разработано лекарство с помощью искусственного интеллекта, но к концу десятилетия все новые препараты могут быть созданы с помощью алгоритмов» - Эндрю Хопкинс, генеральный директор Exscienta.

Рисунок 1. Стратегии разработки лекарственного препарата. — *Рисунок 1.* Стратегии разработки лекарственного препарата.

Еще одной привлекающей внимание программой является PASS, разработанная отечественными учеными и позволяющая прогнозировать целый ряд параметров, характеризующих биологическую активность соединений [17, 18]. Также стоит отметить метод USPEX, который позволяет предсказывать кристаллическую структуру веществ при различных температурах и давлениях, исходя из знания только химического состава материала [19].

3. Идентификация веществ

Данная область связана с обработкой результатов исследования веществ и их смесей физико-химическими методами анализа. Строго говоря, она называется хемометрика и считается производным хемоинформатики. Для наглядности разберем пример (рис. 2). Вы хотите определить есть ли пестициды в почве на дачном участке. Вы собираете почву и отдаете ее в лабораторию, где с ней проводят специальную пробоподготовку и анализируют на приборе (ВЭЖХ-МС). Сначала с помощью хроматографа (ВЭЖХ) смесь веществ разделяется так, что вещества попадают последовательно в следующий блок прибора - масс-спектрометрический детектор. Последний выдает некую информацию о каждом веществе из пробы (масс-спектры). На этом этапе еще нельзя сделать заключение о том, что содержится в почве. Масс-спектры, выданные прибором, нужно проанализировать. В некоторых случаях, для этого достаточно квалифицированного специалиста, однако более эффективным является подход, когда компьютер автономно сравнивает масс-спектры для каждого вещества из вашей пробы с аннотированными масс-спектрами из базы данных (которые, к слову, требует курирования данных хемоинформатиками). Если они совпадают, то вещество идентифицировано.

Рисунок 2. Алгоритм идентификации малых молекул — *Рисунок 2.* Алгоритм идентификации малых молекул

Но есть 1 проблема. Базы данных (БД) не всеобъемлющи. Так, одна из самых крупных БД NIST содержит масс-спектры для 350.000 веществ, что составляет 0.2% от числа известных нам молекул (~10^8) [20]. Как следствие, мы наблюдаем поразительную неосведомленность об окружающем нас мире:

v При анализе бытовой пыли были идентифицированы 33 вещества из 5.000 [21]

v При анализе сточных вод - 1.2% веществ [22]

Фактически, мы до сих пор толком не знаем, что нас окружает. Однако у человечества есть надежда приблизиться к решению этой задачи. Разработан ряд хемоинформатических инструментов, способствующих идентификации структуры вещества, исходя из масс-спектра [23, 24, 25]. Безусловно, стоит оговориться, что это лишь прогноз и в ряде случаев определить структуру по одному лишь масс-спектру невозможно априори, но тем не менее это полезный инструмент в отсутствие альтернатив. Также существует и обратный подход, который предполагает предсказание масс-спектров и, как следствие, расширение баз данных для сопоставления с анализируемыми образцами. Данную задачу можно решить с помощью методов разработанных российскими учеными, которые позволяют прогнозировать и другие не менее важные для идентификации веществ спектральные данные (ЯМР, ИК) [13].

Есть и другой важный для нас пример — лекарства. Как понять соответствует ли фактический состав препарата заявленному? На практике для решения этой задачи широко применяется метод ИК-спектроскопии. Для экспресс-анализа были разработаны специальные портативные версии ИК-спектрометра весом до 2 кг [26]. Лекарство можно анализировать непосредственно в блистере (недеструктивно), время анализа составляет 5-10 секунд. Но, как и в ранее описанной масс-спектрометрии, полученные ИК-спектры нужно анализировать и здесь приходит на помощь хемометрика. В результате, такая гибридная технология позволяет быстро и эффективно осуществлять контроль качества препаратов на производстве, а также мониторинг фальсифицированных и недоброкачественных лекарственных средств, находящихся в обращении.

В заключение, хемоинформатика возникла как ответ на необходимость эффективного анализа огромного объема химических данных, который стал невозможен с использованием исключительно экспериментальных методов из-за их продолжительности, трудоемкости и дороговизны. Несмотря на споры о точности методов in silico, достижения хемоинформатики, особенно в области разработки лекарств, неоспоримы. Ожидается, что в ближайшее время мы увидим множество прорывов в молекулярных науках благодаря применению методов предсказательного моделирования.

Литература

1. Gasteiger, J. (2016). Chemoinformatics: Achievements and challenges, a personal view. Molecules, 21(2), 151.

2. https://pubchem.ncbi.nlm.nih.gov/ (доступ от 14.06.2024)

3. Restrepo, G. (2022). Chemical space: limits, evolution and modelling of an object bigger than our universal library. Digital Discovery, 1(5), 568-585.

4. Osipenko, S., Bashkirova, I., Sosnin, S., Kovaleva, O., Fedorov, M., Nikolaev, E., Kostyukevich, Y. (2020). Machine learning to predict retention time of small molecules in nano-HPLC. Analytical and Bioanalytical Chemistry, 412, 7767-7776.

5. Karlov, D. S., Sosnin, S., Fedorov, M. V., Popov, P. (2020). graphDelta: MPNN scoring function for the affinity prediction of protein–ligand complexes. ACS omega, 5(10), 5150-5159.

6. Dmitriev, A. V., Rudik, A. V., Karasev, D. A., Pogodin, P. V., Lagunin, A. A., Filimonov, D. A., Poroikov, V. V. (2021). In silico prediction of drug–drug interactions mediated by cytochrome P450 isoforms. Pharmaceutics, 13(4), 538.

7. Sosnina, E. A., Sosnin, S., Fedorov, M. V. (2023). Improvement of multi-task learning by data enrichment: application for drug discovery. Journal of Computer-Aided Molecular Design, 37(4), 183-200.

8. https://www.epa.gov/pesticide-registration/cost-estimates-studies-required-pesticide-registration (доступ от 14.06.2024)

9. Taylor, K., Alvarez, L. R. (2019). An estimate of the number of animals used for scientific purposes worldwide in 2015. Alternatives to Laboratory Animals, 47(5-6), 196-213.

10. Lilienblum, W., Dekant, W., Foth, H., Gebel, T., Hengstler, J. G., Kahl, R.,et al. (2008). Alternative methods to safety studies in experimental animals: role in the risk assessment of chemicals under the new European Chemicals Legislation (REACH). Archives of toxicology, 82, 211-236.

11. Sosnin, S., Karlov, D., Tetko, I. V., Fedorov, M. (2018). Comparative study of multitask toxicity modeling on a broad chemical space. Journal of chemical information and modeling, 59(3), 1062-1072.

12. Sosnin, S., Misin, M., Fedorov, M. (2017). Predicting bioaccumulation using molecular theory: A machine learning approach. arXiv preprint arXiv:1710.08174.

13. https://syntelly.ru/ (доступ от 14.06.2024)

14. Wouters, O. J., McKee, M., Luyten, J. (2020). Estimated research and development investment needed to bring a new medicine to market. 2009-2018. Jama, 323(9), 844-853.

15. https://insilico.com/blog/first_phase2 (доступ от 14.06.2024)

16. https://www.frontierip.co.uk/portfolio-companies/exscientia-worlds-first-trials-of-new-drug-candidate-created-by-artificial-intelligence (доступ от 14.06.2024)

17. Filimonov, D. A., Lagunin, A. A., Gloriozova, T. A., Rudik, A. V., Druzhilovskii, D. S., Pogodin, P. V., Poroikov, V. V. (2014). Prediction of the biological activity spectra of organic compounds using the PASS online web resource. Chemistry of Heterocyclic Compounds, 50, 444-457.

18. Rudik, A. V., Dmitriev, A. V., Lagunin, A. A., Filimonov, D. A., Poroikov, V. V. (2019). PASS-based prediction of metabolites detection in biological systems. SAR and QSAR in Environmental Research, 30(10), 751-758.

19. https://uspex-team.org/ru (доступ от 14.06.2024)

20. https://chemdata.nist.gov/dokuwiki/doku.php?id=chemdata:start (доступ от 14.06.2024)

21. Rager, J. E., Strynar, M. J., Liang, S., McMahen, R. L., Richard, A. M., Grulke, C. M., Sobus, J. R. (2016). Linking high resolution mass spectrometry data with exposure and toxicity forecasts to advance high-throughput environmental monitoring. Environment international, 88, 269-280.

22. Schymanski, E. L., Singer, H. P., Longrée, P., Loos, M., Ruff, M., Stravs, M. A., et al. (2014). Strategies to characterize polar organic contamination in wastewater: exploring the capability of high resolution mass spectrometry. Environmental science & technology, 48(3), 1811-1818.

23. Kangas, L. J., Metz, T. O., Isaac, G., Schrom, B. T., Ginovska-Pangovska, B., Wang, L., Miller, J. H. (2012). In silico identification software (ISIS): a machine learning approach to tandem mass spectral identification of lipids. Bioinformatics, 28(13), 1705-1713.

24. Krettler C. A., Thallinger, G. G. (2021). A map of mass spectrometry-based in silico fragmentation prediction and compound identification in metabolomics. Briefings in Bioinformatics, 22(6), bbab073.

25. Kostyukevich, Y., Sosnin, S., Osipenko, S., Kovaleva, O., Rumiantseva, L., Kireev, A., Zherebker, A., Fedorov, M., Nikolaev, E. N. (2022). PyFragMS─ A Web Tool for the Investigation of the Collision-Induced Fragmentation Pathways. ACS omega, 7(11), 9710-9719.

26. Балыклова, К. С., Родионова, О. Е., Титова, А. В., Садчикова, Н. П. (2015). Исследование таблеток с помощью портативного и лабораторного БИК-спектрометра. Вестник росздравнадзора, (4), 65-71.

Комментарии (4)

ru1z
29.06.2024 11:53
#26985874
есть 1 проблема

Э, там проблем не пересчесть. Поразительно идеалистическая статья.

Keka8
29.06.2024 11:53
#26986286
На это уже можно отучиться?)

Nyaruko
29.06.2024 11:53
#26987266
Спасибо за то, что оставили ссылки на работы, а не на tg, но... Вам не кажется, что лучше написать немного про одно направление, чем практически ничего про дюжину? Если немного покопаться, можно найти вопросы, которые будут по-настоящему интересны многим.

Ну, например... Представьте, что в R&D получили сложную и перспективную вещь (например, будущий vancomycin), и теперь нужно подготовить статью... скажем, в Nature. Проблема в том, что структура довольно нетипичная, время поджимает, а нарисовать нужно красиво. То есть, с как можно более "правильными" углами и длинами связей.

Подобные молекулы изобразить сходу почти невозможно. То есть, у вас имеется известный порядок соединения атомов, и вам нужно, чтобы в итоговой структуре заместители не налезали друг на друга, не смотрели в цикл там, где не надо, углы были "стандартные", связи одинаковой длины. Причем для циклов различного размера есть свои предпочтительные способы изображения, т.е. выдать произвольный многоугольник нельзя. Для осознания проблемы можно посмотреть картинки по запросу "macrocycles".

Начальство недовольно тем, что сотрудники тратят время на такую ерунду, как рисование "красивых" формул, и просит вас написать алгоритм, который такие формулы рисует сам. Это задача, имеющая отношение к smiles to structure (упоминалась в одной из ссылок). Для простых молекул она решена во многих библиотеках (у разработчиков rdkit даже была презентация со сравнениями). Но вот сложные вещи автоматически рисовать на 100% хорошо пока не научились.

Ещё более сложная задача связана с конформационным поиском. Просто наберите "conformational sampling" или "crest conformational sampling" (реализация в конкретной программе).

Правда, в обоих темах порог вхождения довольно высокий, и тег научпоп уже не поставить...

DImaN1
29.06.2024 11:53
#26987960
Хемоинформатика у вас как то страннно переросла в рекламу ИК - спектометра. Если что, ИК-спектрометров которые сходу выдают результат анализа исследуемого образца, достаточно на рынке. И как вы правильно выразились в статье , к хемоинформатике, на сегодняшний день, они не имеют никакого отношения. Очень жаль что вы не раскрыли потенциал данной темы. По сути хемоинформатика это сочленение ИИ-продукта с химией. А вот прибор который занимается этими вычислениями ….непонятен. А то что вы называете спектрометром, газоанализатором, хроматографом это все алгебра + программирование +химия. Спасибо за статьи.