Как обычно работают астрономы? Они согласовывают с обсерваторией дату и время использования телескопа, и в назначенный день проводят наблюдения, загружая к себе собранные данные. Но в связи с тем, что телескопы генерируют всё больший объём полезной информации, традиционные методы перестают работать. И учёные нашли выход, задействовав облачные технологии. Cloud4Y рассказывает, как теперь работают «смотрящие за звёздами».
Обсерватория имени Веры Рубин в Чили может собрать 20 терабайт данных за ночь. Во многом это обусловлено её удачным расположением. Исследовательский широкоугольный зеркальный телескоп расположен на высоте 2715 м на пике Эль-Пеньон (это север Чили). Конструкция телескопа уникальна тем, что обладает очень широким полем зрения: 3,5 градуса в диаметре или 9,6 квадратных градуса. Для сравнения, и Солнце, и Луна, видны с Земли как объекты, составляющие 0,5° по горизонтали или 0,2 квадратных градуса. В сочетании с большой апертурой, это позволяет ему иметь исключительно большую собирающую силу. Другими словами, телескоп позволяет получать данные с огромных участков неба одновременно. «Инженерный» первый свет запланировано получить в мае 2021 года, всей системы — в октябре 2021, а в октябре 2022 начать полноценное функционирование
20 терабайт — это примерно столько же, сколько в Слоановском цифровом обзоре неба, который предлагает самые подробные трехмерные карты Вселенной, и в котором собраны все данные за период с 2000 по 2010 год. Но это ещё не всё. Проект Square Kilometer Array, который должен заработать в 2020 году, увеличит этот объём в сто раз, до 2 петабайт в день (при выходе на максимальную мощность в 2028 году). А оборудование следующего поколения (ngVLA), как считают руководители обсерваторий, будет генерировать сотни петабайт.
Такие объёмы данных переработать непросто. Их не получится просто скачать и где-то хранить. А создание поддержка локальных вычислительных ресурсов для работы обходится слишком дорого. По некоторым оценкам, стоимость организации ИТ-инфраструктуры с нуля и содержания персонала, необходимого для поддержки обсерватории имени Веры Рубин, может приблизиться к 150 миллионам долларов США в течение 10 лет. Поэтому астрономы из Чили, как и многие их коллеги, обратились к облаку. И вот какие выводы они уже успели сделать.
Инвестиции в вычислительные мощности полезны для науки
Недостаточно перенести данные в облако, исследователи должны иметь возможность взаимодействовать с ними. Вместо традиционной модели работы, когда астрономы переносили данные на свои компьютеры, теперь они загружают свой код для работы с имеющимися в облаке данными. Благодаря наличию онлайн-доступа к научной платформе обсерватории (блокнотов Jupyter для программирования на Python, Julia, R, и пр, интерфейсов прикладного программирования (API) для анализа, просмотра и поиска данных) пользователи могут писать и запускать код на Python для удаленного анализа всего набора данных обсерватории на серверах, размещенных в Национальном центре суперкомпьютерных приложений в Урбане, штат Иллинойс. И не надо ничего скачивать на свой компьютер.
В других отраслях науки такой подход весьма эффективен. Например, проект Pangeo, который представляет собой платформу для анализа big data в области наук о Земле, сделал петабайты климатических данных общедоступными и вычислимыми, что упрощает совместную работу исследователей.
Удобно, даже если работать без больших данных
Эвелина Момчева, работающая с космическим телескопом в Балтиморе (штат Мэриленд), рассказывает, что сталкивалась со случаями, когда проекты, использующие только данные среднего размера, получали массу преимуществ от облачных вычислений. Хотя бы потому, что исследователи могли получить доступ к ресурсам, значительно превосходящим производительность их ноутбуков. И, что важно, при относительно небольших затратах. А некоторые поставщики облачных услуг и вовсе предлагают бесплатные ресурсы для образовательных целей.
В 2015 году Момчева и ее коллеги имели только 8-ядерный сервер для своего проекта 3D-HST, который анализировал данные космического телескопа Хаббл, чтобы понять силы, которые формируют галактики в далёкой Вселенной. Ресурсов не хватало, и они обратились к облакам, взяв пять 32-ядерных машин. Почему? А потому, что после предварительных расчётов выяснилось, анализ на собственных машинах занял бы как минимум три месяца. С облачным провайдером потребовалось пять дней и менее 1000 долларов».
Цена — это ещё не всё
Споры о том, дешевле ли облачные сервисы по сравнению с собственной ИТ-инфраструктурой, если и утихнут, то нескоро. Сильные аргументы есть у обеих сторон. Например, в отчете Magellan Министерства энергетики США за 2011 год об облачных вычислениях был вывод, что вычислительные центры департамента обычно дешевле, чем аренда облачных услуг. Однако с того времени немало воды утекло, и технологии изменились кардинально.
Оптимизация работы с облачными сервисами, по мнению Вашингтонского университета, способна нивелировать эти различия. Исследователи смогли доказать, что эксперимент с использованием облачных ресурсов, который обходился в 43 доллара, стоил всего 6 долларов через несколько месяцев работы и оптимизации издержек. Также они посчитали, что выполнение тех же задач в сопоставимое время с использованием собственных ресурсов обошлось бы команде примерно в $75 000 (за железо, электричество и зарплату персонала), при этом серверы должны были быть активными 87% времени в течение трех лет.
Экономия времени часто влияет на принятие решений. Когда для обработки ваших данных вашей ИТ-инфраструктуре требуется девять месяцев, а облаку — всего месяц, и примерно за те же деньги, то эта разница в восемь месяцев становится очень интересной.
Астрономы говорят, что у них нет желания переходить на какую-то одну сторону. Наоборот, использование локальной инфраструктуры для повседневных задач и «облаков» — для сложных вычислений, — это оптимальная модель для многих научных центров.
Консолидация данных открывает новые горизонты
Ещё одна вещь, которая очень нравится астрономам — это возможность объединить несколько наборов больших данных. Их совокупность может дать какую-то информации, которая была бы неочевидной для каждого набора в отдельности. То есть чем больше информации астрономы собирают вместе, тем более полезной она становится.
Будучи вдохновлёнными проектом Data Commons NIH, в котором учёные хранят и обмениваются биомедицинскими и поведенческими данными и ПО, исследователи планируют создать Astronomy Data Commons. Учёные из Вашингтонского университета уже опубликовали один набор данных под названием Zwicky Transient Facility, который включает 100 млрд наблюдений за примерно 2 млрд небесных объектов. Если эта работа принесёт пользу, их примеру могут последовать и другие астрономы. Тогда будет создана целая астрономическая экосистема, о возможностях которой пока можно только мечтать.
Мало перейти в облако, надо уметь им пользоваться
Чтобы работать с данными в облаке, пользователям необходимо завести учётную запись, выбрать один из множества вариантов взаимодействия с информацией, установить своё (зачастую самописное или созданное под заказ) ПО. Да ещё и настроить всё так, чтобы программное обеспечение могло работать на нескольких машинах одновременно. Ошибки неизбежны, и они могут дорого обойтись исследователям, отбивая у них всякий интерес к облачным технологиям. Был случай, когда неумелые аспиранты «сожгли» пару тысяч часов процессорного времени впустую. Поэтому учёным рекомендуют сначала тренироваться «на кошках», запуская небольшие пилотные проекты с использованием собственной инфраструктуры.
Также важно не забывать о требованиях безопасности. Хотя конфиденциальность и безопасность в облаке выше, чем у локальных ресурсов, настройка облачной инфраструктуры может оказаться сложной задачей. И ошибка неопытного программиста приведёт к тому, что ваши данные будут доступны всему миру. При использовании собственного ИТ-парка такие проблемы контролируются жёстче. А в облаке, если не прислушиваться к рекомендациям технических специалистов провайдера, легко напортачить.
В целом, понятно желание астрономов использовать облачные ресурсы для изучения звёздных систем, строительства моделей формирования Вселенных и хранения «озёр данных». Тяжёлые вычисления уже давно отданы на откуп оборудованию, стоящему в ЦОДах. Облачные платформы здорово преобразили науку и бизнес, став важным инструментом развития человеческой мысли. Главное — правильно пользоваться этим инструментом.
Что ещё интересного есть в блоге Cloud4Y
> «Сделай сам», или компьютер из Югославии
> Госдепартамент США создаст свой великий файерволл
> Искусственный интеллект поёт о революции
> Какова геометрия Вселенной?
> Пасхалки на топографических картах Швейцарии
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем не чаще двух раз в неделю и только по делу.