Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию – Data Scientist.

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?


Кто такие Data Scientists?


Если задать такой вопрос жителю Сан-Франциско, можно получить ответ, что Data Scientist – это статистик, живущий в Сан-Франциско. Смешно, хотя не сильно обнадеживает тех, кто живет не в Сан-Франциско, правда? Хорошо, тогда еще одно определение: Data Scientist – это тот, кто разбирается в статистике лучше, чем любой программист, и разбирается в программировании лучше, чем любой статистик. А вот этот вариант уже близок к сути. Data Scientist, ученый по данным, является своеобразным гибридом статистика и программиста. Причем как статистики, так и программисты бывают очень разными, поэтому лучше рассматривать эту профессию как широкий спектр от чистых статистиков до чистых программистов.

Роберт Чанг, Data Scientist из Twitter, делит представителей своей профессии на 2 группы: Type A Data Scientist v.s. Type B Data Scientist.

Тип A, где A – это Analysis. Эти люди по большей части занимаются извлечением смысла из статических данных. Они очень похожи на статистиков, могут даже быть статистиками и просто сменить название должности на Data Scientist, а, как мы знаем, уже только одна смена названия должности может дать значительный прирост зарплаты, плюс почет и уважение. Но кроме статистики они знают еще и практические аспекты: как очищать данные, как работать с большими наборами данных, как визуализировать данные и описывать результаты своей работы.

Тип B, где B – Building. Они также обладают знаниями статистики, но при этом сильные и опытные программисты. Они больше заинтересованы в применении данных на реальных системах. Часто строят модели, работающие во взаимодействии с пользователями, например, системы рекомендаций товаров, фильмов, рекламы.

Data Science также немного пересекается с такими областями деятельности как Machine Learning и Artificial Intelligence, представители этой сферы близки к Data Science типа B.

Data Scientist Skills


В англоязычном Интернете тренд повышения интереса к Data Science хорошо заметен примерно с 2012 года (https://www.google.com/trends/explore#q=Data%20Science). В последние несколько лет также хорошо заметен рост интереса к смежным областям: Machine Learning, Artificial Intelligence, Deep Learning. Gartner поместил Machine Learning на вершину hype curve в 2015 году: Gartner's 2015 Hype Cycle for Emerging Technologies Identifies the Computing Innovations That Organizations Should Monitor. А журнал Harvard Business Review в 2012 году опубликовал статью с интригующим заголовком: Data Scientist: The Sexiest Job of the 21st Century.



Что же изучать тем, кто хочет стать Data Scientist, какие навыки необходимы? Давайте посмотрим на то, какие требования американские работодатели предъявляли к кандидатам на позиции в областях Data Science и Machine Learning.

Мы проанализировали 549 вакансий, опубликованных на одном из крупнейших мировых порталов по поиску работы — Monster.com, которые включали требования Data Science и Machine Learning.

Data Scientist Hard Skills


Начнем с анализа требований к владению профессиональными навыками (hard skills).

Как можно увидеть из рейтинга, наиболее популярными являются фундаментальные знания математики, статистики, Computer Science и машинного обучения. Помимо теоретических знаний, Data Scientist должен уметь «добывать», очищать, моделировать и визуализировать данные. Также важен опыт в разработке программного обеспечения и управлении качеством.



Data Science Tools and Technologies


Основным инструментарием Data Scientist являются языки программирования Python и R.

R – это специализированный язык программирования для статистических расчетов, именно поэтому он так полюбился статистикам и ученым по данным. Он позволяет быстро загрузить набор данных, посчитать основные статистические характеристики, визуализировать данные, построить модели данных.

Python, хоть и представляет собой язык программирования общего назначения, но имеет огромное количество качественных библиотек и платформ для Data Science и Machine Learning.

Что примечательно, в 39% вакансий требуется знание как R, так и Python одновременно, поэтому лучше изучать оба языка сразу, а не пытаться выбрать один из них.

Для работы с большими данными работодатели предпочитают использовать Hadoop и Spark. Среди баз данных популярны MySQL и MongoDB.



Data Scientist Soft Skills


Общие компетенции (soft skills) по сравнению с профессиональными навыками востребованы в меньшей мере, так как упоминаются в вакансиях более чем вдвое реже. Средние зарплаты вакансий, в которых требуются soft skills так же существенно, примерно на 20%, ниже тех, где требуются hard skills и знание технологий.

Тем не менее, среди встреченных soft skills наиболее важными являются следующие: умение общаться, визуализировать данные, делать презентации, эффективно писать и говорить. Также полезны навыки работы в команде, менеджмента и решения проблем.



Data Scientist Domain Knowledge


В некоторых вакансиях требуется знание предметной области от физики и биологии до недвижимости и гостиничного бизнеса. Здесь в лидерах экономика, маркетинг и медицина.



Data Scientists Specializations


Перед началом исследования мы предполагали выделить подспециализации профессии Data Scientist. Например, отделить тех, кто занимается преимущественно анализом и визуализацией данных от тех, кто строит модели для предсказательной аналитики или алгоритмы машинного обучения. Но, как оказалось в ходе анализа данных, требования к большинству вакансий достаточно однородны, и четкого разбиения на специальности не прослеживается.

Хотя некоторые закономерности кажутся интересными. Например, если в вакансии требуются знания Python или C++, то маловероятно требование коммуникационных навыков и менеджмента, и наоборот.

Влияние технологий на зарплату


Опрос O’Reilly 2015 Data Science Salary Survey помогает нам взглянуть на рынок труда с противоположной стороны. Это исследование базируется на опросе 600 Data Scientists, а собранные данные включают уровень зарплат, демографическую информацию и количество времени, которое специалисты тратят на задачи различных типов. Ключевые выводы этого исследования следующие:

  • SQL, Excel, R, Python – ключевые инструменты, и этот список не меняется на протяжение 3 лет.
  • Сильно растет популярность Spark и Scala.
  • Фокус тех, кто ранее использовал специализированные коммерческие инструменты, смещается на использование R.
  • Но те, кто ранее использовал R, переходят на Python, Python лидирует.
  • Среди всех индустрий наиболее высокие зарплаты в Software Development.
  • Cloud Computing продолжает быть востребованным.

Рекомендуем прочитать отчет целиком. Кроме прочего, он описывает математическую модель зависимости зарплаты Data Scientist от того, где он живет, какое образование имеет и над какими задачами работает. Например, Data Scientists, которые проводят больше времени на встречах, зарабатывают больше. А кто больше 4 часов в день занимаются изучением данных, зарабатывает меньше.

Как изучать Data Science?


За последние годы появилось множество online-курсов на эту тему. И это очень хороший способ начать!

Если вы склоняетесь больше к анализу данных, то хорошим вариантом являются курсы специализации Data Science на Coursera: Launch Your Career in Data Science. Получение специализации не бесплатно, но если вам не нужен сертификат, то вы можете пройти все эти курсы бесплатно: просто посмотрите название курса и с помощью поиска найдите курс.

Для тех, кого интересует Machine Learning, можно порекомендовать курс Андрю Эн (Andrew Ng), Chief Scientist в компании Baidu Research, который по совместительству преподаватель в Стэнфорде и является основателем Coursera: Компьютерное обучение.

Что же такое Data Science?


Data Science – это новая область деятельности, поэтому требования к Data Scientists еще не до конца сформированы. Учитывая динамичность нашего времени, возможно, Data Science никогда не станет самостоятельной профессией, которой будут обучать в университетах, а так и останется набором практик и навыков. Но это точно те практики и те навыки, которые будут очень востребованы в ближайшие годы.

Комментарии (18)


  1. Magister-Ice
    01.12.2015 12:11
    +2

    Какое-то очень странное сравнение

    Data Scientist Hard Skills
    Не совсем понятно как можно ставить в один ряд навыки типа «Software Development» и «Microsoft Ofice», причем с указанием зарплат.
    Плюс, глядя на график можно сделать вывод, что человек с навыками работы в «Microsoft Ofice» будет иметь большую зарплату, чем человек с навыками «Software Development». Т. е. разработчики менее ценны чем пользователи? Как минимум странно.

    Data Science Tools and Technologies
    Не понятно как можно сравнивать язык программирования типа C++ и готовый инструмент типа SAS? ИМХО, это аналогично сравнению набора запчастей с готовым изделием (набор плат и процессоров с готовым ноутбуком). Наличие специализированных библиотек, никаким образом не делает из языка программирования, специализированный статистический инструмент.

    Data Scientist Soft Skills
    В любой нормальной компании потребуют наличия почти всех перечисленных навыков. Кому нужен специалист, который не может работать в рамках команды (team player) или который не способен решать возникшие проблемы (problem solving). Даже если эти навыки не указаны в вакансии, они являются чем-то само собой разумеющимся.

    Я конечно понимаю, что сравнение делалось на анализе некоторых атрибутов конкретных вакансий, но лично мне непонятно, какую смысловую нагрузку несут полученные результаты?


    1. ServPonomarev
      01.12.2015 13:28

      Плюс, глядя на график можно сделать вывод, что человек с навыками работы в «Microsoft Ofice» будет иметь большую зарплату, чем человек с навыками «Software Development».


      На самом деле, так и есть. Знание офиса, презентаций и прочего — явные признаки не технической позиции, а менеджерской или представительной. Не кодить, а проводить презентации, участвовать в симпозиумах и переговорах с клиентами. И это стоит дороже.


    1. sharky
      02.12.2015 05:13

      Да, можно было разбить hard skills на подкатегории, например «языки программирования», «статистические пакеты», «операционные системы», и т.п. Однако учитывая малое количество данных, это привело бы только к увеличению шума. На мой взгляд, 4 больших категории вполне достаточно в данном случае. Остальные детали можно легко заметить самостоятельно.
      Насчет soft skills в целом соглашусь. Хотя некоторые исключения здесь есть, например далеко не в каждой вакансии потребуются management skills.


    1. pro100olga
      02.12.2015 12:06

      Думаю, тут еще надо сделать какую-то скидку на страну, из которой идет вакансия.
      И было бы интересно понять, что это за загадочный «крупнейший мировой портал по поиску работы» :)


      1. SkillsWiki
        02.12.2015 12:09

        Статистика собрана по американскому рынку труда. Данные были получены с monster.com.


    1. SkillsWiki
      02.12.2015 20:25

      Целью этого исследования было понять какие скиллы сейчас наиболее востребованы для Data Scientist на американском рынке.
      Эта информация дает ориентир людям, которые хотят развиваться в этой отрасли, по выбору приоритетных направлений для развития.
      Учитывая, что развитие американского рынка идет с большим опережением, можно сказать, что эти скиллы станут востребованы на нашем рынке спустя 1-2 года.


  1. couatl
    01.12.2015 13:10
    +7

    Тоже исследовали этот вопрос со стороны предложения (вакансий).
    Графики ниже (возможно кому-то будет интересно состояние рынка)
    (прошу прощения за стиль xkcd, но пересчитывать долго)




    1. sharky
      02.12.2015 05:15
      +1

      Круто! Спасибо. Чем рисовали графики?



      1. couatl
        02.12.2015 12:31

        matplotlib + seaborn
        в matplotlib есть xkcd


  1. lockywolf
    01.12.2015 13:11

    >>Основным инструментарием Data Scientist являются языки программирования Python и R.

    Вот так взяли и выбросили всех, кто пользуется MATLAB, SPSS, Statistica и им подобными.


    1. mephistopheies
      01.12.2015 14:33
      +4

      ну так все ок, SPSS и Statistica — это вообще прошлое, еще и платное, фуфуфу


    1. sharky
      02.12.2015 05:19

      Судя по приведенным цифрам, MATLAB и SPSS вдвое менее популярны у американских работодателей.
      На конференциях тот же тренд, например на последней Open Data Science Conference West большинство докладов и workshop'ов было с использованием Python, сильно реже R. MATLAB'а не было совсем.
      Мне кажется, что MATLAB всё еще используется, но передовые инструменты сейчас в экосистеме Python.


  1. pro100olga
    02.12.2015 12:20

    В графике гугл-тренд интересное снижение с 2004 по 2007, а вторая страна по степени интереса — Нигерия О.о
    Результаты по запросу «data scientist» лучше иллюстрируют текст статьи: www.google.com/trends/explore#q=data%20scientist


    1. sharky
      02.12.2015 19:01

      Ниегрия удивила :) Если пройти глубже, то видно что в Нигерии интерес был только из одного города, и по нему график очень странный — ноль, резкий пик в 2014, падение до нуля и пик в 2015. На географию в Google Trends я бы не смотрел, выглядит очень зашумленно.


      1. pro100olga
        02.12.2015 19:03

        Наверное, кто-то в командировку приезжал из интересующихся дата сайенс ))


        1. dstarcev
          04.12.2015 10:57

          Или профессиональные нигерийские мошенники решили провести исследование для выбора более качественной жертвы.


          1. sharky
            04.12.2015 20:10

            Кстати говоря, Microsoft Research делал исследование на тему нигерийского спама :)
            «Why Do Nigerian Scammers Say They are From Nigeria?»
            research.microsoft.com/apps/pubs/default.aspx?id=167713