В эти выходные ЦЕРН порадовал физиков со всего мира, опубликовав в открытом доступе 300 терабайт данных с коллайдера. Студенты и школьники могут скачать эти данные и использовать для курсовых и лабораторных работ. Возможно, какой-нибудь любитель даже обнаружит скрытые корреляции, которые ускользнули от внимания специалистов ЦЕРН.

Причины такого решения объяснила Кати Лассила-Перини, работающая на детекторе компактный мюонный соленоид: «После того, как мы исчерпали наши возможности по анализу данных, мы не видим причин, почему не сделать их доступными для всех, — сказала она. — Здесь многочисленные выгоды: начиная с того, что они подогреют интерес старшеклассников к науке, и заканчивая подготовкой специалистов по физике элементарных частиц завтрашнего дня. И лично для меня, как координатора проекта хранения данных компактного мюонного соленоида, это важная часть обеспечения доступности наших исследовательских данных».

Сами данные получены во время экспериментов 2011 года, в основном, от столкновения протонов с энергией 7 тераэлектронвольт. При таких столкновениях порождается множество редких элементарных частиц, которые разлетаются в разные стороны и регистрируются детекторами.



Для обработки и анализа данных ЦЕРН предоставляет инструментарий. Там есть уже готовая виртуальная машина CernVM с операционной системой Linux CERN 6 и всеми установленными программами. Виртуальная машина открывается в VirtualBox или другом менеджере под Linux или Windows. Отдельные инструменты ЦЕРН с открытым исходным кодом опубликованы в репозитории на Github.

Ссылки на все наборы данных и программы собраны на странице CMS Open Data. Там есть «сырые» данные без обработки в формате AOD (Analysis Object Data), данные моделирования для экспериментов 2011 года в формате AODSIM и примеры упрощённых наборов данных для использования в различных приложениях и для анализа.

В прошлый раз ЦЕРН публиковал данные с экспериментов в открытом доступе в ноябре 2014 года: тогда выложили 27 терабайт, собранные в 2010 году.

Комментарии (34)


  1. TimsTims
    24.04.2016 23:22
    +1

    > Студенты и школьники могут скачать эти данные
    Представляю себе школьника, у которого под столом стоит пачка винтов на 300+ТБ и нехилый такой компьютер, который всё это сможет прожевать…

    > для меня, как координатора проекта хранения данных
    Похоже, она решила таким образом сделать «бэкап», что если вдруг у неё что-то потеряется, можно попросить копию «у того школьника»

    А если серьезно, то это большой шаг по открытию данных науки для каждого. Действительно из миллиардов людей — наверняка есть один тот-самый эйнштейн, который заметит нужную деталь и сделает открытия в науке


    1. rPman
      24.04.2016 23:39
      +1

      Если бы только винты, так как вычислительные мощности для анализа могут понадобиться гораздо мощнее.
      Школьники? может тут ошибка перевода и речь идет о high school т.е. университеты?


      1. TimsTims
        24.04.2016 23:50
        +1

        Зато какая веская причина выпросить у родителей новый комп с 300тб на борту!)


        1. Grox
          25.04.2016 01:04

          Можно делать инкрементальную обработку. И часть данных кэшировать у себя.


          1. TimsTims
            25.04.2016 13:04

            Да, помимо знаний — Как всё это обработать и сохранить, надо еще оставить места в голове по теории физики, чтобы хотя бы знать что искать. А мне кажется, что гений физики — он так себе программист…


            1. Grox
              25.04.2016 21:36

              Так вы думаете в ЦЕРН все физики-программисты? Объеденяться нужно.


              1. TimsTims
                26.04.2016 13:15

                Я не про ЦЕРН, а про школьников, у которых нет 300тб и им надо научиться кэшировать результаты и освоить сложные программы по bigdata перед тем, Как начать изучение данных, используя науку


                1. Grox
                  26.04.2016 23:14

                  А я для примера. Школьник-программер + школьник-физик, вот уже и команда. Винтами по несколько ТБ школьников не удивишь. Кэшировать это совсем не сложно. Сложные программы освоить? Вы больше пугаете. Изучать данные можно и без науки. Это само по себе интересно.


      1. mityada
        25.04.2016 01:08
        +2

        В исходной статье (http://cms.web.cern.ch/news/cms-releases-new-batch-research-data-lhc) есть фраза
        «The “derived datasets” on the other hand require a lot less computing power and can be readily analysed by university or high-school students, and CMS has provided a limited number of datasets in this format.»
        То есть часть данных уже обработана и суперкомпьютер под столом иметь не обязательно.

        High school это старшие классы средней школы, а не университет.


      1. vkn
        25.04.2016 01:08
        +1

        High school это как раз средняя школа.


        1. SvyatoslavMC
          25.04.2016 12:11

          В России средняя 5-9 класс, у нас аналог High school как раз 10-11 класс.


          1. yea
            25.04.2016 12:17

            «Средняя школа» в России — это общее название всего цикла обучения с первого по одиннадцатый класс. После девятого класса дают аттестат об основном образовании, а после одиннадцатого — о полном среднем.


            1. Xaliuss
              26.04.2016 16:47

              С 5 по 11 все таки, 1-4 начальное образование, по 9 класс частичное среднее.


  1. artsnz
    24.04.2016 23:33
    +1

    А почему такие старые данные? Почему не опубликовать свежие данные? с 2015 года например?


    1. rPman
      24.04.2016 23:42
      +4

      Вот аналогия, вы собрались с друзьями, создали компанию и собираете уникальные данные о сокровищах, зарытых пиратами… вы вложили в это дело огромные деньги (покупки артефактов, доступ и анализ библиотечных данных) и еще больше своего времени и сил… через некоторе время, не найдя в части этих данных ничего интересного, вы (не важно почему) подарить часть данных музею/библиотеке...


      И тут из толпы выкрики — а почему так мало, — а почему такие старые данные!


      1. artsnz
        25.04.2016 00:35
        +1

        Насколько мне известно Церн — это не частная контора, а межгосударственный проект, который финансируется из бюджета тех самых государств — это раз, два оно работает на благо науки и человечества, а не ради коммерческих целей, и есть ли в церне коммерческая составляющая? Так почему не открывать данные в онлайне? Речь исключительно про колайдер, а не сторонние проекты церна типа интернетов и пр…


        1. rPman
          25.04.2016 01:39
          +2

          Пожалуйста, не принимайте мой комментарий как мое личное несогласие с халявой, естественно это не так — все (каждый в отдельности) мы любим халяву, пока недостаточно богаты/могущественны, чтобы обеспечить всем себя самостоятельно (процент таких людей очень и очень мал). Да, само собой все научные достижения должны быть общедоступны, ресурсы должны принадлежать народу, всем по потребностям и т.п… но я не обо этом хотел говорить


          Межгосударственные отношения нужно рассматривать с позиции аналогии отношения обычных частных лиц в условиях абсолютной анархии без контроля сверху. И все не равны! Дал где то слабину и сосед откусит от тебя очередной кусок, или еще хуже, вас уже едят, но со скоростью, с которой вы готовы смириться… а если ошибешься, тебя начнут кушать с еще большей скоростью.


          Пока ваши действия имеют отношение только к тому что происходит внутри вас, это одно дело, можете играть в коммунизм, показушную демократию или тоталитарный ад оруэла, но как только вы выходите на международную сцену, работают другие правила.


          В проекте ЦЕРН участвуют далеко не все страны, и раздавать знания, способных изменить распределение сил, попросту опасно… это как вводить в шахматную партию джокера. И речь тут я думаю даже не в деньгах а в возможностях, которые могут появиться у ранее слабых не-участниках.
          К сожалению эта система стремится к стабилизации, и ни о каком развитии говорить не получается.


    1. CYBOPOB
      24.04.2016 23:52
      +6

      Подозреваю что более новые данные еще находятся в обработке. Не отдавать же возможное открытие кому нибудь другому :-)


    1. Orcus13
      25.04.2016 01:25

      Чтоб не украли научное открытие, видимо они над ними еще работают.
      В астрономии фотографии выкладываются в общий доступ также с приличной задержкой.


    1. mrxak
      26.04.2016 21:59

      А пока идет Run 2 «свежих» данных и не будет. Они мало того, что сырые, так ещё и не структурированные. Скорее это защита от «псевдооткрытий». А структурировать их будут уже после. Если не в курсе, при работе коллайдера, пока задние детекторы ещё отрабатывают сигнал от столкновений, в переднем уже сталкиваются следующие частицы. Поэтому при работе это всё сваливается в этакую кучу, потом уже связывается по времени и превращается в те самые «сырые» данные. Где знают, что примерно хотят найти, обрабатывают быстрее, остальное остаётся на потом.

      Скрытый текст

      Специально взял из share, значит они и так уже где-то доступны. Это, скорее всего, дискретизированный уровень сигнала в каналах одного из детекторов.


  1. pwrlnd
    24.04.2016 23:34

    Представляю себе школьника, у которого под столом стоит пачка винтов на 300+ТБ и нехилый такой компьютер, который всё это сможет прожевать…

    TimsTims, никто не заставляет выкачивать все данные. Также особых вычислительных мощностей не требуется, так как это не симуляция, а уже готовые данные.


    1. Vjatcheslav3345
      25.04.2016 23:21

      Вот и те кто думал что 300 кб хватит всем 1 тб и ноут представить себе не могли, как мы сейчас — суперкомп размером с пылинку.


  1. Randl
    25.04.2016 00:03
    +1

    kaggle?)


  1. LeoPlus
    25.04.2016 00:21
    +1

    Нука дайте-ка, щас я бозонов накопаю!


    1. Old_Chroft
      25.04.2016 02:38

      Жизнь такова, что в этой области науки еще и LeoPlus-ов накопать можно :-)
      Существует масса проектов, (астрономы, генетики, физики) где наши глаза и знания во-первых, а во-вторых любознательность и вычислительные мощности позволя(ю)т найти много всего интересного.


  1. icoz
    25.04.2016 00:27

    Дали бы методику вычислений… Я бы перепроверил, действительно ли они нашли бозон Хиггса.
    Доверяй, но проверяй!


    1. LeoPlus
      25.04.2016 00:36

      Хиггса нашли в 2012, а данные выложили за 2011, так что… :-)


      1. icoz
        25.04.2016 00:37

        Вот, черт! Они что-то скрывают!


        1. veprbl
          25.04.2016 01:08

          Открытие сделано по объединённому датасету 2011 + 2012 с приблизительно равными вкладами в статистику. Так что Хиггса в данных 2011 года вы можете искать вполне хорошо, только статистики будет чуть меньше.


  1. Vjatcheslav3345
    25.04.2016 09:15

    А нельзя ли заливать их в проекты распределённых вычислений и хранить понемногу, дублированно на множестве компьютеров и обрабатывать как самостоятельно — по своим идеям, так и понемногу вычислять что то на общее благо.


  1. Kyoki
    25.04.2016 10:01

    Очень хорошо… Но лучше бы они прикрутили какой-нибудь апи к этим данным, пусть даже платный. Все-таки не у каждого университета есть возможность хранить по 300 Тб.


    1. yea
      25.04.2016 11:50

      А и не нужно хранить всё. Данные носят сессионный характер, можно обрабатывать их частями.


      1. Vjatcheslav3345
        25.04.2016 23:16

        Можно даже свежий трафик обрабатывать с помощью апи и в распределёнке — только договориться с пользователями в соглашении, что новый трафик какое то небольшое время из за научных приоритетов будет обрабатываться шифрованным, а потом автоматом расшифровывается.


  1. Dj0cker
    27.04.2016 11:30

    а мне вот интересно кто первый в россии на раздачу торрент закинет)