«Страж» — это первая в России ML-система для обнаружения и классификации переменных звезд на базе сразу нескольких разнотипных нейросетей. Она уже на этапе прототипа способна анализировать данные обсерваторий с точностью до 98% и скоростью в 5 раз выше ручной обработки.
Работая с огромными массивами данных, «Страж» упрощает и ускоряет обработку снимков звездного неба, на которых могло притаиться потенциальное открытие. Проект реализован при технологической поддержке облачной платформы Yandex Cloud.
В настоящее время команда завершила разработку MVP, который способен обрабатывать данные из FITS-файлов, извлекать ключевые характеристики светимости звезд и проводить их предварительную классификацию.
Решение уже доступно в формате open-source, и астрономы по всему миру могут использовать его бесплатно.
Исходный код «Стража» на Гитхабе
«Наша цель — чтобы „Стражем“ пользовались обсерватории по всему миру», — отмечает научный руководитель проекта Виталий Шелест.
Команда, идея и ресурсы проекта
Проект начался как дипломная работа в формате «Стартап как диплом» онлайн-магистратур Центра «Пуск» МФТИ под научным руководством Виталия Шелеста.
Трое студентов — Алексей Любезный, Полина Комарова и Якуб Харабет — пришли в нашу онлайн-магистратуру без готовой идеи, но с горячим интересом к науке о данных. Научный руководитель предложил им взяться за актуальную проблему автоматизации астрономических наблюдений, так и родился «Страж».

Концепция продукта формировалась в процессе обучения: все вместе обсуждали цели проекта, изучали открытые каталоги (Gaia, TESS, VSX и др.), делали первые прототипы. Идея эволюционировала по этапам: сначала получился простой MVP с базовой классификацией звезд, а затем, с появлением новых знаний и обратной связи от экспертов, система дополнялась новыми возможностями и улучшалась точность.
Кроме того, в проекте участвовали внешние консультанты.
Старший научный сотрудник и руководитель проекта AstroAlert Станислав Короткий из обсерватории «Ка-Дар» давал ценные советы по обработке астрономических данных. А руководитель роботизированной астрономической обсерватории из г. Оренбурга Михаил Топчило (проект «Смотри на звезды») первым поддержал проект и поделился с командой отснятыми материалами и советами. Также проект консультировал Кирилл Соколовский — научный сотрудник кафедры астрономии Иллинойсского университета в США (проект TESS).
В конце ноября 2024 года команда «Стража» получила грант на реализацию научного проекта в рамках программы поддержки Центра технологий для общества Yandex Cloud — безвозмездный доступ к ресурсам Yandex Cloud. Так, в проекте использовались Yandex Object Storage для хранения и обработки больших объемов данных (6 Тб астрономических наблюдений) и Yandex DataSphere для обучения и деплоя моделей машинного обучения.
Сотрудники платформы проводили экспертные консультации, чтобы разработать, настроить и оптимизировать работу системы. Технический руководитель социально-стратегических проектов Yandex Cloud Сергей Кукуруз и менеджер проектов науки и образования Центра технологий для общества Yandex Cloud Даниил Ефимов помогали с облачной инфраструктурой и вычислениями.
Полученные по гранту ресурсы дали возможность быстро обучать и тестировать модели без дефицита вычислительных мощностей — их вполне хватает для реализации ключевых этапов прототипа.
Первые результаты
Основная работа по освоению полученных мощностей и обучению модели продлилась 2,5 месяца, затем начались тестовые прогоны, и участники проекта начали получать первые результаты. Поначалу многое приходилось править руками на бегу, но команда была уверена, что первые результаты удалось получить достаточно оперативно. Пусть даже они оказались не такими качественными, как ожидалось.
После тестовых прогонов скорректировали количество используемых данных, значительно улучшили состав датасетов и сократили количество аномалий, которые система нашла в представленных данных.

Первый «успешный» прогон шокировал: было найдено более 360 объектов, которые система маркировала как потенциальное открытие. Конечно, что это было слишком хорошо, чтобы быть правдой. Поэтому разработчики «Стража» обратились за консультацией к профессионалам. Так они узнали много нового об аномалиях, артефактах и оптических аберрациях, которые очень мешали.
Затем команда доработала модель и датасеты, а полученные результаты были переданы научному сотруднику обсерватории «Ка-Дар» на валидацию. Он нашел несколько методологических ошибок (сказалось отсутствие профессионального астрофизического образования у участников команды) и дал обратную связь — что и как можно улучшить. Сейчас команда закончила доработки и занята их тестированием.
Конечно, модель будет и дальше дорабатываться. Но уже есть подтверждение того, что код работает успешно, находит и распознает объекты. К релизу планируется добавить еще несколько крупных каталогов для повышения точности модели.
Покажем, как выглядит поиск звезд на примере фрагмента из каталога allWISE-w1:





Технологии и алгоритмы «Стража»
На сегодняшний день «Страж» использует гибридные модели ConvLSTM: анализирует временные ряды и изображения одновременно, повышая точность на 20% относительно аналогов.
Базовый функционал заключается в следующем:
Поиск звезд на снимке с последующей проверкой их наличия в каталогах Gaia DR3 и VSX в целях обнаружения новых объектов.
Классификация переменных звезд по основным классам: Eclipsing, Eruptive, Pulsating, Rotating, Cataclysmic.
На текущем этапе применяются многослойные сверточные и рекуррентные нейронные сети для обработки научных данных. Это позволяет гораздо точнее анализировать динамические изменения светимости звезд. Весь проект развернут на Yandex Cloud и в DataSphere.


Для работы используются данные из различных астрономических каталогов, включая информацию от спутника Gaia. Для обучения модели был сформирован сбалансированный датасет из 100 000 объектов, отобранных из исходных 1,5 миллиона записей. Это позволило улучшить качество обучения модели и снизить требования к вычислительным ресурсам.
Одной из основных проблем была высокая вычислительная нагрузка при обработке больших объемов данных, что приводило к утечкам памяти. Задачу решили, применив методы undersampling (уменьшение выборки) для балансировки данных и используя вычисления на графических процессорах (GPU) с помощью библиотеки cuDF. Это позволило значительно ускорить обработку данных и снизить нагрузку на систему.
В текущей архитектуре модели используется следующий подход:
Сверточные слои (Conv1D) — выделяют паттерны во временных данных.
PrototypeLayer вместо Dense — этот слой вычисляет евклидово расстояние между векторными представлениями (эмбеддингами) данных и эталонными прототипами классов. Прототипы — это усредненные эмбеддинги всех примеров класса.
Дополнения:
Макс-пулинг — уменьшает размерность данных, сохраняя ключевые признаки.
Дропаут — предотвращает переобучение, случайно «отключая» часть нейронов во время обучения.
Метод основан на ProtoNet — архитектуре, изначально созданной для классификации изображений с малым числом примеров на класс. Ее адаптировали для временных рядов. Такой подход устойчив к дисбалансу классов (когда одних объектов в данных больше, других — меньше) и работает даже с небольшими выборками.
Модель выглядит следующим образом:


«Страж» уникален тем, что сочетает в себе автоматизированное извлечение признаков из астрономических данных и их последующую классификацию с помощью машинного обучения. В отличие от других проектов здесь интегрируются различные типы нейронных сетей для анализа как визуальных данных, так и временных рядов. Более того, чем больше материалов будет «пропущено» через «Страж», тем «умнее» он будет становиться, повышая точность обработки данных.
Решение доступно в формате open-source, что позволяет исследователям и энтузиастам по всему миру использовать и развивать его.
Планы по развитию проекта
После завершения работы над MVP команда проекта планирует расширить функциональность системы для автоматического обнаружения и классификации не только переменных звезд, но и астероидов, комет и других потенциально опасных небесных тел. Это особенно важно для своевременного выявления объектов, потенциально представляющих угрозу для Земли. Это решение может быть полезно как профессиональным астрономам, так и любителям, а также обсерваториям различного масштаба.
К финальной защите в онлайн-магистратуре МФТИ в июне 2025 года планируется продемонстрировать полностью функционирующую систему, способную автоматически обрабатывать астрономические данные и классифицировать небесные объекты с точностью не менее 90%.
Исходный код проекта уже опубликован в открытом доступе, а команда готовит научную публикацию, описывающую методы и полученные результаты.
«И вот тут появляется важный нюанс: если при поиске новых объектов использовать в системе сразу два каталога — Gaia и Pan-STARRS, то почти половина обнаруженных объектов будут идентифицироваться как „новые“ или „потенциально новые“. Причина в том, что Pan-STARRS может заглянуть в космос гораздо глубже, за пределы возможностей инструментов Gaia. А это означает, что большее количество найденных объектов — не открытие: мы просто „подсветили“ для другого каталога объекты за пределами его технологических возможностей.
Нам было крайне важно обеспечить высочайшую точность в плане идентификации объектов, поэтому по наставлениям экспертов мы доработали нашу методологию. Теперь, чтобы открыть что-то новое, нам просто нужно взять много снимков с проницанием максимум до +20 звездной величины. И на этих снимках искать объекты, которых нет в каталоге Gaia.
Для нашей работы с профессиональными снимками и данными такая доработка оказалась просто отличным решением, а вот что касается любительских снимков и данных с астроферм — там почти все объекты уже каталогизированы в Gaia, кроме краев снимков, где астрометрия дает сбой (эту проблему мы пока не решили, нужно поработать на стыке оптики, астрономии и IT)», — Виталий Шелест.
Также очень приветствуется участие профессионального сообщества в развитии «Стража». Теперь, после публикации исходного кода на платформе GitHub исследователи и разработчики смогут предлагать улучшения, сообщать о найденных ошибках и участвовать в обсуждениях. Кроме того, планируется организовывать вебинары и семинары для обмена опытом и обсуждения дальнейших направлений развития проекта.
Команда Yandex Cloud уже выразила готовность участвовать в развитии и поддержке «Стража», помогать масштабировать проект, рассказывать про него и выделять ресурсы ученым, заинтересованным в развитии проекта.
Таким образом, «Страж» стремится внести значительный вклад в автоматизацию астрономических исследований, предоставляя профессиональному сообществу инструмент для эффективного анализа и классификации небесных объектов.
21 июня наши студенты защищают свой ML-стартап на ГИА. Желаем им удачи и дальнейших профессиональных достижений!
Над статьей работали:
Виталий Шелест — научный руководитель проекта «Страж»
Александр Дубовик — руководитель проектов онлайн-магистратур Центра «Пуск» МФТИ
Анна Глазкова — главред онлайн-магистратур Центра «Пуск» МФТИ
Фото и скриншоты предоставили участники команды «Стража» — Алексей Любезный, Полина Комарова и Якуб Харабет.
Также выражаем благодарность за помощь в подготовке материала команде Yandex Cloud