И всё же сегодня пятница (хоть и не конец трудовой недели). Дабы скрасить этот факт, предлагаем вам пройти небольшой тест по Data Science. Некоторые любители каверзных математических задач уже оценили его на Data Fest'е — крупнейшей отечественной конференции для всех, кто зарабатывает на хлеб с маслом (или просто увлекается) анализом и обработкой данных, машинным обучением и разработкой на базе ИИ. Под катом – небольшой рассказ о наших активностях на мероприятии и, конечно же, сам DeSерт.



В этом году мы влились в стройные ряды партнёров конференции, поставили стенд, выступили с несколькими докладами. Как и все партнёры Data Fest, мы старались и себя показать, и людей похантить посмотреть. Рассказывали о компании и проектах, о наших планах в сфере Data Science и машинного обучения.



Приглашали не только готовых специалистов, но и студентов, и недавних выпускников — им мы предлагали пройти у нас стажировку по интересующим направлениям.





На стенде было две интерактивных стойки — на одной мы регистрировали гостей, рассказывали о компании и вообще хвастались демонстрировали некоторые свои проекты. А на второй – можно было пройти тот самый тест (наберитесь терпения ;) с несколькими интересными задачами и альтернативной теорией вероятности :-).





Конечно же, мы раздавали сувениры — для этого нужно было зарегистрироваться на стойке. И вскоре у стенда возникло две очереди: одна — из страждущих разжиться бесплатными ништяками, вторая — из желающих порешать задачи нашего теста удовольствия ради.











И как раз те, кто интересовался задачами, а не бесплатным сыром, не прогадали. Мы это никак не афишировали, но тем, кто правильно прошел весь тест, дарили более существенные подарки: фитнес-браслеты и power bank’и.

А ещё мы раздавали вот такие прикольные datascience-наклейки на ноутбуки. Кто в теме — поймут!



Наш вклад в Data Fest не ограничился тестом и сувенирами. От нашей компании было 4 коротеньких выступления.

Владимир Молодых, руководитель департамента по разработке и внедрению ПО, выступил с рассказом о компании, о том, почему мы обратились к Data Science.



Николай Князев рассказал о нашем совместном с «М.Видео» исследовательском проекте. Пользователи заходят в интернет-магазин, кладут товары в корзину и… не покупают. Мы постарались придумать, как спрогнозировать — купит ли человек в конце концов или так и уйдёт без оформления заказа.



Александра Царева и Анна Воеводская поведали о ещё одном ML-проекте с нашим клиентом из сферы ритейла. По техническим причинам девушкам не включили презентацию на большом экране, поэтому им пришлось пробудить в себе спящие актёрские способности и импровизировать. А рассказывали они об интересной задаче: как по массиву разнородных данных предсказать, какие клиенты розничного ритейлера могут вернуться и совершить вторую-третью-десятую покупку.



И наконец, Вадим Седельников рассказал о хакатоне AI.Hack, в котором мы заняли 1 место при решении задачи, поставленной «Газпром нефтью». Если предыдущие выступления были посвящены историям, которые больше про бизнес, то здесь — чистая наука: математика, программные методы, вот это вот всё. Задача стояла такая: на основе статистических данных по покупкам розничных клиентов — марка бензина, цена, регион покупки и номер АЗС — нужно было спрогнозировать, сколько бензина приобретёт каждый розничный клиент в течение ближайших трёх месяцев. Подробнее об участии в хакатоне мы расскажем в одной из ближайших публикаций. Не переключайтесь.

Aaaaand now… кто хочет получить немного фана от задачек — welcome!

Комментарии (14)


  1. LAG_LAGbI4
    09.06.2018 09:11

    Можно разобрать тут вопросы?
    1. Если вы выберете ответ из предложенных вариантов (50%, 25%, 75%, 25%) на данный вопрос случайным образом, какова вероятность выбрать правильный ответ?
    2. Леди Осгрен пыталась выдать свою дочь за сына Джона Доу, но не удалось. Джон Доу говорит, что у него есть еще второй ребенок, какова вероятность, что он тоже мальчик?
    3. Написаны n писем, предназначенные разным адресатам. Есть n конвертов с соответствующими адресами, письма в случайном порядке вложены в конверты. Найдите среднее значение числа писем, посланных по правильному адресу.


    1. swelf
      09.06.2018 11:52

      Последнее сводится, есть ряд чисел 1 — n, построить все перестановки (их n!), найти и посчитать все числа, где значение совпадает с позицией. тут я только для частных случаев перебором смог посчитать, общую формулу не вижу(доказательства).
      1) 2 числа — 12, перестановки 12 21, в первом варианте 2 числа совпадает с позицией, во втором 0. Всего 2.
      2) 3 числа — 123, перестановки 123(3 совпадения) 132(1) 312(0) 213(1) 231(0) 321(1) = 6
      2/2=1, 6/6=1, скорее всего следующим будет 24/24=1


      1. LAG_LAGbI4
        09.06.2018 11:59

        я воообще ничего не понял


        1. swelf
          09.06.2018 12:21

          А чего не понятно, есть письма предназначеные для адресатов: адрес 1, адрес 2. Есть конверты: конверт адрес 1, к.а. 2.
          они лежат друг напротив друга, в задаче говорится что мы перемешали письма.
          возможные варианты а1, а2 и а2, а1, конверты лежат так же ка1 и ка2. так вот письмо уйдут адресату только тогда, когда конверт совпадет с письмом. В первом случае а1, а2 и ка1, ка2, у нас 2 совпадения, во втором а2, а1 и ка1, ка2 у нас 0 совпадений, в среднем голубцы 1 совпадение.


          1. LAG_LAGbI4
            09.06.2018 13:07

            Буквы конверты
            цифры адреса

            Вероятность равна количетву вариантов на количество правильных вариантов. Количество правильных вариантов = N.

            N=1
            A1
            1 вариант. N/(N*N!)= 1/N! = 1/1 = 1

            N=2
            A1
            B2
            A2
            B2
            4 варианта N/(N*N!)= 1/2! = 0,5

            N=3
            a1
            b2
            c3
            a1
            b3
            c2
            a2
            b1
            c3
            a2
            b3
            c1
            a3
            b1
            c2
            a3
            b2
            c1

            18 вариантов
            1/N!= 1/(3*2)=0.166

            совсем не вяжется с тем что вы написали


            1. swelf
              09.06.2018 13:34

              Вероятность равна количуству вариантов на количество правильных вариантов. Количество правильных вариантов = N.

              Вроде бы да, только в задаче мы не вероятность считаем)
              N=3, мы отправляем 6 пачек писем, из 6 пачек(18писем) письма получает 6 человек. значит с каждой пачки 1 человек получает письмо что равно вашей вероятности при n=3 0.166.
              совсем не вяжется с тем что вы написали

              на самом деле тоже самое же, только в других «единицах измерения»


              1. swelf
                09.06.2018 13:48

                Не могу отредактировать, не верны рассуждения мои.
                6 писем из 18 доставлено, шанс получить =1/3, да и вас должна быть 1/3, кол-во правильных вариантов 6, всего 18. но это не меняет ответа, в среднем письмо получает 1 человек.


                1. LAG_LAGbI4
                  09.06.2018 14:56

                  можно формулу?
                  я в екселе посчитал у меня в глубокий 0 уходит после 7ми писем


    1. iRumata
      09.06.2018 15:47

      1. я бы предложил разобрать все ответы по очереди, и выяснить что ни один не подходит
      2. Подробно разобрано здесь ru.wikipedia.org/wiki/Парадокс_мальчика_и_девочки
      3. разобрал swelf вцелом


  1. megaentwickler
    09.06.2018 14:20

    А где хоть какой-то результат тестирования? У меня не появилось ни количества правильных, ни какого-то статуса — ничего вообще. Это нормально?


    1. JetHabr Автор
      09.06.2018 14:23

      Здравствуйте. У нас подобная ошибка не воспроизводится. Пришлите, пожалуйста, принтскрин или скринкаст прохождения теста и экрана результатов, чтобы мы поняли, что не так. Возможно, у вас включен блокировщик рекламы/баннеров и он мешает воспроизвести содержимое.


      1. megaentwickler
        09.06.2018 14:34

        yadi.sk/i/Jjgt7cwJ3XZivT
        Выводится это при том, что ответа 0.51 не было, только 0.5, потом форма «Хотите ли у нас работать», потом «Спасибо» и всё.


        1. JetHabr Автор
          09.06.2018 14:58

          На принтскрине отображаются золотые монетки — они обозначают число правильных ответов, серые — неправильных. Заголовок над монетками — результат теста.


          1. megaentwickler
            09.06.2018 15:01

            Спасибо, понял. Видать, я слишком профан в ML :)