Современные исследования требуют серьезных вычислительных мощностей. Суперкомпьютеры помогают анализировать снимки из космоса, а также моделировать кровеносную систему человека, и это только вершина айсберга. Однако доступ к такому оборудованию не всегда легко получить, а стоимость обслуживания собственного парка техники зачастую превышает возможности университетских лабораторий и научных институтов. Здесь на помощь приходят облачные провайдеры, при этом поддержка с их стороны не ограничивается вопросами инфраструктуры.
Облачные провайдеры не только предоставляют ученым свои мощности и специализированные инструменты для экспериментов. Поддержка начинается ещё с образования, когда в партнерстве с университетами создаются специальные курсы для новых специалистов. Как этот подход реализуется на практике — продемонстрируем далее на разных кейсах и собственном примере.
Построить виртуальный суперкомпьютер
Чтобы тестировать разные виды терапии и лекарств, исследователи в области медицины используют цифровых двойников — крайне детальные модели отдельных частей человеческого организма. Для работы с такими системами требуются мощности суперкомпьютеров, число которых в мире ограничено. Обычно доступ к ним предоставляют только по предварительной записи и за деньги. Далеко не каждая организация может себе позволить ждать недели и месяцы в очереди, и финансировать проект в таком режиме сколько-нибудь продолжительное время.
Альтернативой суперкомпьютерам сегодня становятся облака. Сервис-провайдеры адаптируют свою инфраструктуру под проведение высокопроизводительных вычислений. Так, в августе этого года Гарвардский университет получил облачный суперкомпьютер для медицинских исследований. Ученые используют комплекс, объединяющий тысячи виртуальных машин, для построения цифрового двойника человеческой кровеносной системы. Он поможет протестировать новый вид терапии, способный растворять тромбы и опухолевые клетки с помощью искусственных бактериальных жгутиков. По данным представителей Гарвардского университета, мощность такой виртуальной системы вполне сопоставима с возможностями коммерческого суперкомпьютера, который специалисты использовали ранее. Вычисления производятся всего на 20% медленнее, но при этом команде ученых не приходится ждать свой очереди для проведения экспериментов.
Что интересно, это далеко не первый виртуальный суперкомпьютер, который использовали на практике. Еще в 2018 году исследователи из Индии разработали и протестировали новый способ неинвазивной электростимуляции мозга для лечения шизофрении и других психоневрологических расстройств. Они использовали облачный кластер для построения цифрового двойника мозга, за счет чего сократили серию испытаний на живых пациентах.
Применение виртуальных суперкомпьютеров в облаке не ограничивается медициной. Стартап Boom Supersonic использовал облачные супервычисления для построения цифрового двойника пассажирского сверхзвукового самолета. Такой подход позволил заместить значительную часть физического прототипирования и испытаний в аэродинамической трубе. В то же время крупные автопроизводители уже совмещают такой подход с машинным обучением для доработки программного обеспечения и проектирования транспортных средств, проверяя их устойчивость к повреждениям и тестируя системы автономного вождения.
Предсказать структуру белка
Анализ больших данных требует много времени, особенно в сфере разработки лекарств. Согласно отчету консалтинговой компании Deloitte, в среднем на запуск одного препарата уходят несколько сотен миллионов и даже миллиардов долларов. При этом разрешение на массовое производство получает всего 16% лекарств, а сами исследования могут длиться по 10–15 лет. Ключевая сложность в процессе разработки препарата — определение биологических целей для выбора терапии (чаще всего ими оказываются белки). Обычно ученым приходится вручную просматривать библиотеку из 3 млн различных молекул, чтобы найти необходимую.
Профильные системы ИИ, развернутые в облаке, позволяют автоматизировать этот процесс. Существуют уже несколько подобных инструментов. Первый — Target and Lead Identification Suite — прогнозирует трехмерную структуру белков с помощью модели машинного обучения AlphaFold2. Второй — Multiomics Suite — помогает исследователям «просеивать» огромные объемы геномных данных и обмениваться ими в рамках одного предприятия. Так, специалисты могут быстрее подобрать нужный способ лечения, не тратя время на ручной анализ всех данных.
Наладить обмен знаниями
Возможность совместной работы и доступ к исследованиям из любой точки мира до сих пор остается одним из главных аргументов в пользу облачных платформ. Тем более что на рынке уже есть ряд решений для разных научных направлений: нейробиологии, климатологии, исследований космоса. Например, уже несколько лет существует проект Brainlife.io. Он представляет собой облачную платформу для нейробиологов, работу которой поддерживают специалисты из нескольких крупных университетов.
Благодаря Brainlife.io, ученые могут хранить и обрабатывать данные, полученные с помощью диффузионно-взвешенной магнитно-резонансной томографии и трактографии. Так как платформа работает в облаке, исследователи могут легко получить доступ к результатам всех исследований после их публикации и ознакомиться с исходными данными. Кроме того, платформа предлагает более 400 веб-приложений для обработки собранной информации.
Другим примером может служить проект Pangeo.io. На этот раз набор инструментов подготовили для ученых-климатологов. Это — площадка, где собирают данные о Земле со спутников, беспилотников и других источников. Пользователи могут работать с системой с помощью Jupyter Notebook и распределять вычисления, используя библиотеку с открытым исходным кодом для параллельных вычислений DASK, а также вводить метки в виде измерений, координат и атрибутов для необработанных массивов данных с помощью еще одной библиотеки — Xarray. Pangeo можно развернуть на своем оборудовании, либо использовать в качестве облачного сервиса, который поддерживают такие же исследователи.
Облачные сервисы активно помогают с изучением космоса. Один из крупных проектов в этом направлении планируют запустить в 2024 году после того, как завершится строительство обсерватории Веры К. Рубин в Чили. За 10 лет она должна сгенерировать 500 петабайт изображений и данных о 30 млрд звезд и их скоплений, астероидах, галактиках. С помощью платформы ученые хотят подробнее изучить структуру и эволюцию нашей вселенной. Вся информация из обсерватории будет загружаться в общий каталог, доступ к которому получат исследователи за пределами Чили. В рамках связанного проекта на основе данных телескопа планируют протестировать новые аналитические алгоритмы, чтобы в будущем ученые могли проще работать с космическими снимками и информацией в таких объемах.
Образовательные и исследовательские инициативы
Мы в CloudMTS также активно работаем с образовательными организациями для подготовки специалистов. Например, при нашей поддержке образовательный центр МТС.Тета и представители факультета компьютерных наук НИУ ВШЭ подготовили курс, касающийся DevOps и IaC (Infrastructure as Code). В рамках программы студенты пишут микросервисы, настраивают инфраструктуру, а также изучают различные архитектурные подходы. Помимо экспертизы, мы предоставили студентам доступ к своим вычислительным ресурсам в облаке. Так, ученики смогли на практике освоить возможности виртуальной инфраструктуры.
Мы также провели образовательный проект «DevOps: методология и практика» для бакалавров и стали инфраструктурным партнером медицинского университета. Во время приемной кампании организация приняла тысячи заявлений от абитуриентов, обработка которых велась в облаке. На этом партнерство не закончилось: на базе виртуального хранилища CloudMTS работает сайт организации и личный кабинет.
CloudMTS участвовал в открытом научном проекте Folding@Home, который привлекал вычислительные мощности со всего мира исследования коронавируса SARS-CoV-2. А один из разработчиков тестов на коронавирус — крупная биотехнологическая компания «Система-БиоТех» — стал нашим постоянным клиентом.
Медицинский центр Дальневосточного федерального университета запустил в облаке CloudMTS портал для оперативного мониторинга состояния здоровья пациентов, страдающих болезнью Паркинсона. Пациенты загружают на платформу информацию о своем самочувствии, что позволяет врачам отслеживать изменения в течении болезни и своевременно, в том числе, в удаленном режиме, оказывать медицинскую помощь.
Наконец, сейчас резиденты (юридические лица или ИП, зарегистрированные в течение последних 10 лет) инкубаторов, акселераторов, университетов, инновационных центров или экономических зон могут получить от нас гранты на облачные сервисы до 10 млн руб.