Всем привет! Я хотел бы рассказать здесь о проекте EyeWire. Но сначала — пара слов о том, что собой представляет «общественная» наука (citizen science).



Многие из вас помнят такую платформу, как BOINC (статья на Geektimes, новость про BOINC для Android). Сейчас ее популярность, по ощущениям, снизилась, но ряд проектов всё еще активен, например Einstein@Home — поиск гравитационных волн от компактных объектов по данным с телескопа LIGO. Суть участия там состояла в том, чтобы установить к себе на компьютер программное обеспечение, обрабатывающее вычисления для одного или нескольких проектов и отослать результаты на сервер. Суммарная мощность вычислений множества настольных компьютеров довольно велика, но немного уступает топовым суперкомпьютерам. Например, на 2013 год платформа BOINC имела скорость около 9 ПФлопс, а самый новый суперкомпьютер (Тяньхе-2) — 33 ПФлопс, то есть в ~3,5 раза быстрее. Сегодня разрыв несколько больше: у BOINC скорость выросла вдвое (до 18 ПФлопс), а суперкомпьютеры уже вплотную подобрались к отметке в 100 ПФлопс и проектируются эксафлопс-суперкомпьютеры (1 ЭФлопс = 1000 ПФлопс = 1000000 ТФлопс). Тем не менее, какие-то результаты вычисления дали и если желаете, я проведу обзор таких результатов и их применения в реальном мире.

Альтернативой донорства компьютерного времени является более активное участие самого человека в проектах. Пример такого проявления «общественной» науки — проекты GalaxyZoo. Проект стартовал в 2007 году и до сих пор имеет достаточно большое количество поклонников. Сейчас не искал цифры, но ряд проектов отмечал значительное превышение активности над ожидаемой — например, самый первый проект по классификации имел порядка 70000 классификаций в час. В данных проектах, в основном, используется умение человеческого мозга находить паттерны (образы, подобные другим). В то время как для программы нужно прописать всю логику оценки, часто в мелких деталях, человек может оценивать картинку «целиком», при этом игнорируя дефекты изображения и несоответствие оси изображаемого предмета плоскости картинки (проще говоря, когда объект развернут в пространстве и виден сбоку или под каким-то углом). Считается, что обученные на примерах простые люди, не имеющие ученых степеней, могут делать выводы по содержимому изображений (например, отличать эллиптическую галактику от спиральной) статистически не хуже, чем сами ученые. Изначально проекты Galaxy Zoo носили астрономический характер, а позже на том же движке было запущено большое количество проектов из других областей науки — от поиска морских обитателей или животных на фотографиях до прочтения судовых журналов Британского Королевского морского флота (сам проект, Old Weather, имел цель восстановить погодные данные начала 20 века).

Наконец, проект о котором я хочу рассказать, в гораздо большей мере вовлекает участника — в нём есть часть от игры (с непременной «доской почета» и всякими статусами-значками), часть от социальной сети (довольно активный чат с милыми дискуссиями как по поводу того, что мы делаем, так и по беседами о жизни) и часть от науки (с научными публикациями с непременным соавтором Dr The EyeWirers).

EyeWire — проект по восстановлению 3D-структуры и связности нейронов в мозге мыши, а точнее той его части, которая связана с глазом (так называемый «коннектом»). Безусловно, хотелось бы узнать как эта часть мозга устроена у человека, но его мозг значительно сложнее и, что еще важнее, здоровый мозг на ломтики порезать никто не даст. Как и у Galaxy Zoo в EyeWire нет этапа длительного чтения инструкций — начать можно за считанные минуты после регистрации (ничего кроме логина, пароля и почты не спросят).

Большая зеленая кнопка «Start Playing» — и вперед, на тропу науки! Вот скриншот интерфейса в режиме «обзора».



Слева та самая кнопка, в центре 3D превью простой клетки (здесь в шутку называемой «усатой» — англ. moustache cell), справа «доска почета». После входа в режим игры вы попадаете внутрь одного из произвольно выбранных «кубов» — областей набора данных, где находятся ветки (дендриты) нашей клетки.



Движок игры, на основе данных о «кубах»-соседях строит предварительную модель той части дендрита, которая проходит через «куб». Можно заметить резкие грани, обрывы — это характерно для неполной модели. Наша задача как раз и состоит в том, чтобы достроить её. При этом важно как закрасить максимально точно области, относящиеся к дендриту (потому что любая из них может породить другой отросток), так и постараться не захватить лишних данных, иначе мы включим в модель кусок дендрита совсем другой клетки (это называется «слияние» — англ. merger). Для удобства модель сразу же визуализируется, когда вы добавляете фрагмент на плоскости. На первой же картинке видно, что закрашенное поле имеет пробел, его мы тоже закрасим, но важнее другой участок, который даст нам достроить дендрит. Вот он:



После закрашивания появляется сначала часть:



Потом мы добавляем остальное, кликая на другие светлые участки, и не выходя за черные линии (границы дендритов на срезе) Чтобы убедиться в полноте модели, переходим выше-ниже в плоскости, если нужно — меняем плоскость на другую (кнопкой на панели инструментов в правом верхнем углу или клавишей D). Финальный вид:



Отправляем куб. Получаем очки и переходим к следующему кубу. Для новичков авторы EyeWire придумали специальный интерактивный сценарий, который показывает правильность выполнения работы в реальном времени (а не после отправки куба), это упрощает начальный этап. Если вы хорошо работаете с 3D-структурами и вам слишком легко, не переживайте: для новичков доступны только простые клетки но вы сможете выбрать другую и, после дополнительного обучающего сценария, перейти к работе в клетках второго типа:



Думаю, этого достаточно для первого раза. Буду рад видеть вас на просторах EyeWire! Если будет интерес к статье, могу рассказать чуть больше про то, что происходит после того, как модель клетки построили, а также про еще более сложные части игры — где скауты ищут недостающие ветки или слияния, а косцы (англ. scythe) «подчищают» данные до финального результата.

Для заинтересовавшихся: кроме EyeWire есть проект Mozak Brainbuilder (нашел его при подготовке статьи) — на данный момент в бета-версии, предлагается строить модели нейронов рисованием ломаных линий по фото, детализация куда ниже EyeWire, но и требования не такие значительные. Также есть проект по поиску 3D-структур белков Fold.It для более точного таргетирования лекарств.

Спасибо за внимание!

UPD: Добавлена КПДВ.
UPD2: Спасибо Mad__Max, исправлена ошибка в единицах измерения производительности суперкомпьютеров

Комментарии (17)


  1. REALpredatoR
    25.11.2017 14:13

    Почему компьютер сам не может это просчитать? Или вы пишите нейросеть на основе тех результатов что присылают вам игроки?


    1. ggreminder Автор
      25.11.2017 20:29

      Отчасти это проблема качества подготовки материалов. EyeWire использует очень тонкую «нарезку» биоматериала и даже крохотные сдвиги и дефекты могут влиять на возможность построить модель.


    1. LennoxRize
      25.11.2017 21:40

      Компьютер тоже просчитывает. А потом результат сравнивает с несколькими решениями одного и того же куба от разных игроков. Результатом становится «консенсус», который отправляется дальше по цепочке. Плюс на этом консенсусе учится уже сама нейросеть.


      1. binarydao
        26.11.2017 11:20

        Раньше компьютеры использовались, чтобы учить людей, теперь люди — чтобы учить компьютеры…
        А проект прикольной, только туториал с толку сбивает.


        1. ggreminder Автор
          26.11.2017 11:23

          Чем сбивает, можно чуть детальней?


          1. binarydao
            26.11.2017 12:21

            Первый вопрос: а нафига там люди, если программа оценивает сама?
            Потом понимаешь, что это туториал, и там всё предзаготовлено.
            Вопрос потом повторяется при переходе от первой части туториала ко второй. Ты считаешь, что тебе уже дают реальные кубы, а на деле — так же заготовленные.
            Очень сильно демотивирует, т.к. непонятно, зачем здесь вообще человек.


            1. ggreminder Автор
              26.11.2017 12:25

              Я чуть позже ради интереса заведу новый аккаунт и пройду все этапы, включая оба туториала, возможно с записью видео. Просто я уже очень давно проходил, почти 4 года назад. Я видел как много ребят с Гиктаймс пришло и зарегистрировалось, но очень многие дальше туториала не прошли. Админы ребята понятливые, и я попробую что-то улучшить в этом плане.


  1. Mad__Max
    26.11.2017 05:52

    Суммарная мощность вычислений множества настольных компьютеров довольно велика, но уступает топовым суперкомпьютерам. Например, на 2013 год платформа BOINC имела скорость около 9 ТФлопс, а самый новый суперкомпьютер (Тяньхе-2) — 33 ПФлопс, то есть в ~3500 раз быстрее. Сегодня разрыв еще больше: у BOINC скорость выросла лишь вдвое (до 18 ТФлопс), а суперкомпьютеры уже вплотную подобрались к отметке в 100 ПФлопс и проектируются эксафлопс-суперкомпьютеры (1 ЭФлопс = 1000 ПФлопс = 1000000 ТФлопс). Тем не менее, какие-то результаты вычисления дали и если желаете, я проведу обзор таких результатов и их применения в реальном мире. Ряд проектов носил чисто математический характер, а некоторые другие закрылись, не выполнив заявленных целей, что на мой взгляд сыграло не последнюю роль в остывании интереса к BOINC и проектам на нём основанным.

    У вас с единицами измерения беда большая — мощность BOINC вычислений тоже давным давно в петафлопах измеряется. Например только один упомянутый вами проект Einstein@Home работает со средней фактической на реальных данных (а не пиковой чисто теоретической в синтетических тестах как обычно для суперкомпьютеров указывается) скоростью выше 6 ПетаФлопс:
    Computing capacity #
    Floating point speed 6273.1 TFLOPS

    https://einsteinathome.org/server_status.html

    Если бы это был единый суперкомпьютер, а не распределенная сеть, то он занял бы место во 2м десятке самых мощных суперкомпьютеров Земли.
    BOINC платформа в целом — была бы в первой десятке или даже в ТОП-5.

    Все остальные более менее серьезные BOINC проекты тоже как минимум по несколько сотен TФлопс имеют, топовые перебираются за 1 ПФлопс. Например Rosetta@Home — около 300 ТФлопс. Причем это без использовая GPU, на универсальных х86 процессорах.
    Тоже среди топовых х86 суперкомпьютеров.

    И остывания интереса никакого нет, вычислительные мощности, кол-во участвующих людей и работающих компьютеров, хоть и медленно но продолжает расти.


    1. ggreminder Автор
      26.11.2017 06:40

      Да, вы правы. Я ошибся на порядок — десятичная точка и запятая меня запутали.
      На 2013 год было 9 ПФлопс (а не ТФлопс), сейчас 18 ПФлопс. Т.е. ~3,5 раза и ~5 раз соответственно.


  1. NikRag
    26.11.2017 06:40

    Немного пробовал полгода назад, забавно.
    Но возник, собственно, вопрос — зачем это все, конкретно этот проект? Закрашивание автоматически проверяется, т.е. и так уже имеется информация о связности.
    Просто фан?
    Объясните, я не понимаю.


    1. ggreminder Автор
      26.11.2017 06:47

      Проект нужен для понимания связности между нейронами мозга. Данные, как именно работает мозг и как взаимодействуют его отделы, постоянно уточняются. Ученые хотят понять как именно работают процессы вроде распознавания образов и запоминания информации.
      Закрашивание не проверяется автоматически, его проверяют другие люди (двухступенчатый процесс), я хотел посвятить деталям вторую статью на эту тему.


    1. Mad__Max
      26.11.2017 07:33

      Автоматически проверяется только на обучающих уровнях которые в начале дают новичкам и которые уже решены и проверены более опытными участникам.
      Это обучение игрока как ПРАВИЛЬНО нужно делать. Если результаты человек показывает нормальные (т.е. на практике подтверждает что успешно прошел обучение), то дальше идут уже рабочие уровни — для которых правильный результат еще не известен. Он как раз складывается из сравнения нескольких результатов присланных несколькими разными людьми.


  1. nomadmoon
    26.11.2017 23:52

    Вот лучше бы это сделали новым discovery в EVE Online, а не бесполезный «поиск экзопланет».


    1. ggreminder Автор
      27.11.2017 02:11

      Интерес к космосу он тоже у людей в крови, не стоит так категорично.


      1. nomadmoon
        27.11.2017 18:10

        Не в этом дело, там графики светимости которые
        1) Прекрасно анализируются машинно.
        2) В 99% случаев там либо всё очевидно либо фиг увидишь этот провал в графике.

        Когда в дискавери была сортировка снимков клеток было интересно и сложно и полезно для саморазвития, многие научились ядро от цитоплазмы отличать и митохондрии от аппарата Гольджи :) А сейчас точность 99% набивается по принципу «если очевидного транзита нет значит его нет».


  1. Fenyx_dml
    28.11.2017 18:11

    Когда-то я заинтересовался этим folding@home, даже ставил их клиент, оставлял на ночь комп работать… А потом у меня возникли такие вопросы: — а что конкретно получилось-то? Мой комп работает, а я даже не вижу результатов! Хотя бы отображалась та молекула, обсчет которой ведется, её эволюции в процессе… А надо сказать, что я тогда баловался одной из программ, которая тоже рассчитывала конформации молекул, но попроще, чем белки и мне это было интересно. А вот фиг там — вы вкалывайте, а мы потом статиь в научные журналы напишем, гранты попилим… А вам достанется чувство глубокого удовлетворения от того что вы помогли науке! Нет, не интересно.
    А на такое бесплатное вкалывание на дядю с пяленьем в монитор за какие-то смехотворные ачивки — нет ни лишнего времени ни желания. Пусть студенты им рисуют, которым зачеты нужны — у них времени много, а ретивости в достатке…


    1. ggreminder Автор
      28.11.2017 20:27

      Трудно смириться с мыслью, что бывают тупиковые ветви научных исследований или что некоторые исследования начинают приносить плоды только через годы, а то и десятилетия после того, как были проведены, верно?