Хабр, привет! По релевантным поисковым запросам нашлось около 1000 вакансий, затем они были вручную отфильтрованы по заголовкам и описаниям, и для подготовки обзора мы использовали 288 активных вакансий в области big data и data science с HeadHunter.

В действительности активных вакансий больше, так как во внимание не принимались другие ресурсы (например, SuperJob, Blastim, социальные сети, сайты компаний). Кроме того, нужно понимать, что это всего лишь снимок текущей ситуации, каждый день вакансии заполняются и появляются новые.

Данные были получены через API Headhunter, получение и обработка данных осуществлялись с помощью библиотек языка Python.

Географическое распределение размещенных на HeadHunter вакансий получилось таким:

image

Практически половина всех активных вакансий (128) приходится на Москву, в Санкт-Петербурге их более чем в 3 раза меньше (42), далее идут столицы сопредельных государств, Беларуси (16) и Украины (12), но не Казахстана, и другие крупные российские города. Небольшое число вакансий в развитых странах вместе с вакансиями в других городах России и СНГ попали в группу «Другие» (58).

Почти все вакансии в выборке предполагают полную занятость, но достаточно большое количество вакансий позволяет работать с гибким графиком (32). В базе есть 11 вакансий с возможностью удаленной работы. При этом абсолютное большинство вакансий (244, т.е. около 85%) требуют находиться в офисе полный рабочий день.

image

image

Таким получилось распределение вакансий по опыту работы:

image

Вакансии, требующие экспертного уровня опыта работы в данной области – более 6 лет – самая редкая категория, таких вакансий оказалось всего 9. Возможно, это связано с тем, что данная профессиональная область молодая и динамично развивающая. Наиболее популярны средние значения опыта работы: 1-3 года (152) и 3-6 лет (110). Есть и возможности для тех, у кого опыта работы еще нет, таких вакансий в базе 17.

Заработная плата в большинстве вакансий не указана, однако мы посчитали доступную выборку вакансий с указанием заработной платы (56) достаточной для того, чтобы по ней оценить примерный уровень оплаты по рынку.

image

Для части вакансий из числа тех, для которых заработная плата была указана, она была выражена в иностранной валюте.

image

Все суммы в иностранных валютах были переведены в рубли по актуальному курсу.

Заработная плата на HeadHunter указывается следующим образом: от определенной суммы и до определенной суммы. Если были указаны оба значения, в качестве оценки заработной платы бралось среднее между ними. Если только «от», к указанному значению добавлялось 10%, если только «до» — указанное значение сокращалось на 10%. Заработные платы были рассчитаны по категориям опыта работы отдельно для Москвы, развитых стран и всех остальных городов России и СНГ.

image

Как видно из таблицы (значения в ней даны в тыс. руб.), в Москве уровень заработных плат выше для всех значений опыта работы. Особенно значимо это различие для молодых специалистов: для специалистов с опытом работы менее 3 лет заработная плата в Москве выше на треть, также именно в Москве сосредоточены все вакансии без опыта работы (из числа тех, где указана заработная плата). Вакансия в развитых странах в списке была только одна, в Японии, уровень оплаты там ощутимо выше, почти в 2 раза превышает максимальную заработную плату в Москве. Средняя зарплата по выборке составила 138 тыс. руб., без опыта работы – почти в 2 раза меньше, всего 63 тыс. руб. Максимальная указанная зарплата в России – 220 тыс. руб.

HeadHunter предоставляет отдельное поле для указания ключевых навыков в описании вакансий, однако для большинства вакансий в выборке оно не было заполнено. Кроме того, ключевые навыки вводятся вручную, а не выбираются из фиксированного списка, поэтому написание одних и тех же навыков может отличаться. В связи с этим по базе вакансий был сформирован список из Top-50 ключевых навыков, который затем был дополнен экспертным методом. По многим навыкам было дано несколько ключевых слов-синонимов, в том числе на разных языках (например, Machine Learning и Машинное обучение, JavaScript и JS). Для некоторых навыков был дан список стоп-слов, чтобы отделить C от C++, Java от JavaScript, SQL и MySQL от NoSQL и т.п. Далее поиск этих ключевых слов осуществлялся с помощью регулярных выражений по объединенному тексту ключевых навыков и описаний вакансий, засчитывалось по одному вхождению на вакансию.

image

Самым необходимым навыком в рассматриваемой профессиональной области оказалось знание Python: он упоминается в 170 из 288 вакансий. Java упоминается в 92 вакансиях, С++ в 58, Scala – в 46, Matlab – в 44. Остальные языки оказались значительно менее востребованными, в том числе и популярные в среде анализа данных языки R (21) и Julia (3). Вторым по востребованности умением является знание SQL (140 вакансий). Знание методов машинного обучения требуется в 104 вакансиях, методов майнинга данных – в 81, глубокого обучения – в 52 (включает в качестве ключевых слов, помимо Deep Learning, названия основных используемых в глубоком обучении библиотек, например, TensorFlow и Theano), методов обработки естественных языков (включая Text Mining) – в 23. Знание технологий больших данных требуется в 122 вакансиях, впрочем, не совсем понятно, что именно здесь имеется в виду. Более конкретно, Hadoop упоминается в 99 вакансиях, Spark – в 84, Hive – в 39, MapReduce – в 29, Kafka – в 19. Опыт работы с NoSQL базами данных требуется в 37 вакансиях, в том числе в 21 упоминается MongoDB. В 41 вакансии требуется знание английского языка, в 22 требуется знание статистики. Площадка для проведения соревнований по анализу данных Kaggle упомянута в 25 вакансиях.

image

Диаграмма выше показывает распределение вакансий по классификатору специализаций HeadHunter (одна вакансия может относиться одновременно к нескольким специализациям). Как видно из нее, большинство вакансий выборке относятся к разработке (185) и анализу данных (162). Остальные специализации следуют со значительным отрывом, в их числе управление проектами (66) и математика (60).

image

Про профессиональным областям абсолютное большинство вакансий относится к области информационных технологий, некоторая часть (66) – к области науки и образования, по всей видимости, из-за математики и алгоритмов.

Сделать какой-то отвечающий реальности рейтинг работодателей по данным выборки не удалось в силу ее значительной случайности (представлены не все заполненные в компаниях позиции, а только активные вакансии). Поэтому был сделан выбор в пользу разбиения вакансий по отраслям.

API HeadHunter не позволяет получить распределение по отраслям для компаний-работодателей, поэтому его для 165 работодателей выборки пришлось проставить вручную на основе их названий и описаний. Получившиеся распределение вакансий по отраслям показано на диаграмме ниже.

image

Наиболее многочисленная индустрия – компании, специализирующиеся исключительно на информационных технологиях (93 вакансии). Из них отдельно были выделены компании, образованные вокруг Интернет-порталов (Internet, например, Яндекс и Авито, 19 вакансий), телекоммуникационные компании (16 вакансий), IT консалтинг (16 вакансий) и IT безопасность (например, Лаборатория Касперского, 4 вакансии). Во вторую по числу вакансий индустрию Marketing вошли медиа и рекламные агентства, а также в меньшем количестве компании, проводящие маркетинговые исследования. На их долю приходится 23 вакансии. Банковский сектор имел 20 активных вакансий, остальной финансовый – еще 18. Достаточно крупным работодателем оказалась индустрия разработки игр (18 вакансий). Впрочем, для отрасли разработки игр в выборку попали множественные дублирующиеся позиции для разных регионов. Ритейл, в том числе fashion retail, дал 9 вакансий выборки. FMCG и фармацевтические компании в выборке практически не представлены. Несмотря на популярность анализа данных в биологии и медицине и популярность профессии биоинформатика число активных вакансий в этих отраслях оказалось сравнительно небольшим (3 в здравоохранении и 2 в биотехнологиях).

Напоминаем, что у нас в марте стартует программа «Специалист по большим данным», приходите :)
Поделиться с друзьями
-->

Комментарии (6)


  1. potan
    24.01.2017 17:53
    -1

    Появление вакансий с требованием Julia уже интересно. Надо поискать…


  1. mephistopheies
    24.01.2017 19:32

    хочу записаться на ваши курсы, они точно помогут мне стать big data analyst?


    1. erwins22
      24.01.2017 19:57
      +4

      не правильный вопрос, какой средний доход имеют ваши выпусники?

      бигдата не бигдата
      1. До курсов
      2. сразу после курсов
      3. через год


  1. Avvero
    25.01.2017 09:50
    +1

    Простите, но цены у вас конечно конские (я сравнил с http://newprolab.com/deeplearning/), Machine learning от Andrew Ng на курсере стоит всего 4к.


    1. mephistopheies
      25.01.2017 09:52
      +1

      ну потому, что там цель другая, у Нг задача обучать и распространять знание, а у этих тупо капусту стричь


  1. Ananiev_Genrih
    25.01.2017 09:53
    +2

    выдача HH.ru по ключевым словам R + Data выдает (в мобильной версии) 5 страниц вакансий с навыками R, при этом первые 3 страницы — уже 45 вакансий с R (дальше не считал). Не очень вяжется с Вашим графиком где число вакансий с R в 2 раза ниже чем Scala/Matlab и чуть выше чем Excel "… в области big data и data science..."