Как мы учили ИИ распознавать скопления галактик / forpes.ru

Главная
Как мы учили ИИ распознавать скопления галактик

Как мы учили ИИ распознавать скопления галактик +50

04.08.2018 13:58

Sunny_Space 18 7100 Источник

Недавно, вместе с командой друзей-астрофизиков, я закончила проект, целью которого был поиск далеких, скрытых тканью космоса галактик и их скоплений. Сейчас я поделюсь с вами тем, что мы сделали в результате этой непростой работы.

Анализ данных

Галактики и их скопления – крупномасштабные объекты видимой части Вселенной, поэтому результаты посвященных им исследований представляют ценную информацию для расширения области знания о различных масштабных структурах, позволяют проследить эволюцию масс скоплений и выявить особенности формирования современного вида Вселенной. Подробнее об этом я расскажу в следующих статьях (если вам будет интересно).

Для анализа гигантского объема информации, поступающей с телескопов, хотя бы на наличие галактик требуется автоматический механизм (или больше астрономов). Можно написать программу, выполняющую эту задачу. Но как научить её отличать галактики и их скопления от других объектов космоса?

Нам повезло, в космосе нашлось место для «магии», а конкретно для эффекта Сюняева-Зельдовича, открытом еще в прошлом веке.

Эффект заключается в следующем: изначально фотоны реликтового излучения не энергичны, как ленивец на ветке эвкалипта, но после взаимодействия с электронами, обладающими большим количеством энергии внутри газа, их энергия возрастает за счет температуры горячего газа в скоплении, который разогревается при адиабатическом сжатии либо под действием сил гравитации, либо при столкновении галактик и облаков межгалактического вещества.

Рис. 1. Эффект Сюняева — Зельдовича.

За счет увеличения энергии, фотон увеличивает свою частоту и переходит из миллиметрового диапазона в субмиллиметровый. В этот момент в направлении на скопления галактик фотонов реликтового излучения с заданной температурой в миллиметровом диапазоне не хватает, поэтому в направлении на скопление галактик там наблюдается провал по отношению к среднему фону. А в субмиллиметровом диапазоне, наоборот, избыток фотонов и локальный пик.

Проявляется это так: эффект космического микроволнового фона (т.е. равномерно заполняющего Вселенную теплового излучения, далее CMB), наблюдаемый вдоль линии скопления галактик, выглядит слабее на низких частотах и ярче на высоких.

Таким образом, под влиянием эффекта фон преобразуется в отрицательный сигнал для частот ниже порога (рис. 2, изображение слева) и положительный сигнал для частот выше порога с отсутствием сигнала на нулевой частоте 217 ГГц (рис. 2, изображение справа). Эта особенность эффекта и позволяет астрономам находить кластеры галактик и сверхскопления в микроволновой области спектра.
Чем не магия?

Рис. 2. Влияние эффекта Сюняева-Зельдовича на видимые свойства скоплений галактик

Экспериментальные доказательства существования эффекта были получены совсем недавно, когда на телескопе Planck астрофизики проводили исследования электромагнитного спектра и обратили внимание на то, что на одних частотах наблюдаемая область неба кажется «пустой», а на других на ней вырисовываются целые скопления галактик.

Рис. 3. Это первое сверхскопление, открытое с помощью эффекта Сюняева-Зельдовича. Слева — изображение, полученное «Планком». Правая панель показывает изображение, полученное с помощью обсерватории «XMM-Ньютона».

Это все здорово, но что сделали мы?

Знаете, часто возникают ситуации, когда вы принимаете решение заняться чем-либо просто потому, что вам это нравится, хотя вы предполагаете, что это не понадобится в будущем. Это была такая же ситуация.

Когда текст для основной части работы был написан и оставалось совсем немного времени для оформления результатов, а до дедлайна оставалось чуть меньше недели, я сидела перед монитором и не знала, что делать. Мне иногда даже нравятся такие ситуации, потому что только в них приходится решать задачу на оптимальную стратегию. Я понимала, что распознать большое количество данных (около 10 000 изображений) не смогу физически, а за моими плечами только три пройденных курса, один из которых меня как раз и выручил. Курс посвящен работе с Inception, свёрточной нейросетью компании Google, который я когда-то прошла «для саморазвития» (ссылка в конце статьи).

Для работы с нейронной сетью использовано программное обеспечение Anaconda 2, язык программирования Python 2.7, библиотека Keras для работы с машинным обучением и большими данными и Theano для работы с числовыми данными.

Конечно без советов людей, которые занимаются машинным обучением в течение двух лет, не обошлось. Поэтому через четыре дня у нас была программа для работы с нейросетями глубокого обучения.

Сеть состоит из последовательностей сверточных слоев (CL) и слоев объединения (PL). Сверточные слои позволяют извлекать несколько карт признаков из входных изображений, а слои объединения выполняют заданную подвыборку на картах функций.

Эти последовательности слоев соответствуют этапу выделения признаков. Для классификации изображений выходной уровень является полностью связанным слоем с числом единиц, равным количеству классов. Сеть построена по базовой архитектуре с двумя этапами свертки (особого вида интегрального преобразования) и подвыборки, подключенными к классификатору, что представлено на рисунке.

Рис. 4. Архитектура нейронной сети

Обучение сети происходило без учителя. Каталоги фотографий для обучения сети и дальнейшего распознавания скоплений галактик составлен с помощью GLESP — схемы пикселизации карт космического микроволнового фона, которая создает строгое ортогональное разложение отображения. Для создания каталога обучения нейронной сети использованы данные с миссии телескопа Planck, целью которой был поиск галактик и их скоплений при помощи эффекта Сюняева-Зельдовича. Данные с миссии представлены в виде 6 135 изображений, сделанных на частотах 100, 143, 217, 353 и 545 ГГц.

Одни из результатов работы сети представлены на рисунке 5. Мы получили два коэффициента (0,35 и 0,87). И если коэффициент больше 0,5, то на изображении скопление галактик.
И, о чудо, мы нашли скопление!

Рис. 5. Результаты работы сети

Программа была применена к каталогу изображений разных участков неба и в настоящее время анализирует их на наличие галактик и их скоплений.

В перспективе проекта мы будем более подробно изучать принцип влияния эффекта Сюняева-Зельдовича на видимые свойства крупномасштабных объектов Вселенной и создадим универсальный аналитический алгоритм для более подробного изучения космических объектов.

Я очень надеюсь, что эта небольшая статья хоть на минутку перенесла вас в чудесный мир космоса. До встречи в следующих статьях!

Полезные ссылки:

Курс по Inception
О. В. Верходанов, Н. В. Верходанова, О. С. Улахович и др., Астрофизическая бюллетень, том 73, 1, 2018
Ostriker, Jeremiah P., Ethan T., Nature, 322 (6082): 804, 1986
Passmoor S., Cress C., MNRAS, 397 (1), 2009
Planck Collaboration, Astron. Astrophys.571, A29, 2014

Комментарии (18)

qbertych
04.08.2018 18:36
#18957569
Спасибо, очень интересно!

Идея любопытная, поэтому не очень верится, что ее опубликовали только в Астрофизическом бюллетене. Может быть кто-то уже делал что-то похожее? Или на это нет спроса в сообществе?
1. Sunny_Space Автор
  04.08.2018 22:50
  #18958053
  +1
  Здравствуйте! Изначально этот проект был создан для астрофизической школы. Моим научным руководителем был Олег Верходанов, который и является одним из авторов статьи про поиск кандидатов в скопления галактик.
  Главная идея нашего проекта заключалась в использовании методов машинного обучения для эффективного поиска скоплений галактик на изображениях, что ранее не применяли в похожих исследованиях.
  1. ra3vdx
    05.08.2018 00:52
    #18958225
    Нужно застолбить приоритет в Архиве, пока китайцы не.
    Идея элегантная)

DrZlodberg
04.08.2018 18:56
#18957603
А финальные картинки — это результат работы сети? Уж больно интересный визуальный эффект получился на правой. Не соображу сходу, как такое получить просто из изображения.
1. Sunny_Space Автор
  04.08.2018 22:36
  #18958019
  Здравствуйте! Результатом работы сети являются не изображения, а коэффициенты (в нашем случае 0,35 и 0,87).
  Если коэффициент больше 0,5, на изображении галактики или их скопления. Иначе на изображении отсутствуют интересующие нас объекты.
  1. DrZlodberg
    04.08.2018 23:02
    #18958081
    А картинка — это то самое ортогональное разложение? Можно где-нибудь почитать, как оно делается? Какие-то мысли изображения навевают, но до конца сообразить не могу. Надо пробовать.
    
    Вообще же тема интересная.
    
    Sunny_Space Автор
    05.08.2018 13:00
    #18958999
    Информация про то, как работает GLESP здесь: cyberleninka.ru/article/n/paket-analiza-dannyh-glesp-dlya-kart-reliktovogo-izlucheniya-na-polnoy-sfere-i-ego-realizatsiya-v-ramkah-sistemy-obrabotki-fadps и здесь: cyberleninka.ru/article/n/baza-dannyh-kart-protyazhennogo-izlucheniya-i-sistema-dostupa-k-nim.
  1. roryorangepants
    05.08.2018 09:48
    #18958555
    А почему вы не решали задачу сегментации, раз вам все же нужно находить сами скопления?

Andronas
04.08.2018 19:20
#18957657
Получается что данный эффект позволяет отличить звезды от галактик и их скоплений на очень больших расстояниях?

Rb3As
04.08.2018 23:14
#18958099
Это прекрасно.

yorko
05.08.2018 01:02
#18958227
+1
А как все же вы без учителя определяли, есть ли скопления? Как получали эти коэффициенты?
пс. изображённая на рисунке сеть это не Inception, а сильно более простая сеть типа LeNet.
1. phenik
  05.08.2018 04:29
  #18958353
  Судя по схеме на выходе классификация изображений по этому коэффициенту.
  1. yorko
    05.08.2018 10:51
    #18958657
    +1
    Это и так можно в статье прочитать, и смысла в этом как-то не видно. На схеме обыкновенный LeNet для классификации рукописных цифр. Если выборка неразмеченная, то можно что-то интересное придумать только с автокодировщиками или подобными архитектурами, но никак не с той, что представлена.
    По сути, детали исследования в статье обфусцированы, как и в большинстве научных статей.
    
    phenik
    05.08.2018 13:12
    #18959029
    Это был ответ на вопрос, как без учителя)
1. Sunny_Space Автор
  05.08.2018 13:08
  #18959025
  Обучали нейросеть мы очень просто: у нас был архив из 6 135 изображений с скоплениями галактик, полученными в результате миссии Planck, и 10 000 изображений без скоплений.
  
  И да, вы правы. Здесь будет более уместна эта схема: habrastorage.org/webt/oo/lp/11/oolp11ghgcxncno4crk9akmfnzw.jpeg

BingoBongo
05.08.2018 11:35
#18958767
+2
И чем вам для такой относительно несложной задачи edge-detection не угодил?
1. roryorangepants
  05.08.2018 11:47
  #18958793
  +1
  Тот же вопрос возник. Хотя я бы скорее предложил бинаризировать картинку и дальше найти пятна.
  В общем, если смотреть чисто на семплы, которые приведены в статье, то CNN для классификации выглядят как оверкилл.
  1. Sunny_Space Автор
    05.08.2018 13:11
    #18959027
    Да, вы правы, можно было сделать и так)

Как мы учили ИИ распознавать скопления галактик +50

Анализ данных

Это все здорово, но что сделали мы?

Комментарии (18)

Sunny_Space Автор

Sunny_Space Автор

Sunny_Space Автор

Sunny_Space Автор

Sunny_Space Автор