Заголовок этой статьи может показаться немного странным. И вправду: если вы работаете в сфере Data Science в 2019, вы уже востребованы. Спрос на специалистов в этой области неуклонно растет: на момент написания этой статьи, на LinkedIn размещено 144,527 вакансий с ключевым словом «Data Science».

Тем не менее, следить за последними новостями и трендами в индустрии однозначно стоит. Чтобы помочь вам в этом, мы с командой CV Compiler проанализировали несколько сотен вакансий в сфере Data Science за июнь 2019 и определили, какие навыки ожидают от кандидатов работодатели чаще всего.

Самые востребованные навыки в сфере Data Science в 2019


Этот график показывает навыки, которые работодатели чаще всего упоминают в вакансиях в сфере Data Science в 2019:



Мы проанализировали примерно 300 вакансий со StackOverflow, AngelList, и похожих ресурсов. Некоторые термины могли повторяться более одного раза в пределах одной вакансии.

Важно: Этот рейтинг демонстрирует скорее предпочтения работодателей, чем самих специалистов в сфере Data Science.

Основные тренды в сфере Data Science


Очевидно, что Data Science — это в первую очередь не фреймворки и библиотеки, а фундаментальные знания. Тем не менее, некоторые тенденции и технологии все же стоит упомянуть.

Big Data


Согласно исследованиям рынка Big Data в 2018 году, применение Big Data на предприятиях возросло с 17% в 2015 до 59% в 2018. Соответственно, возросла и популярность инструментов для работы с большими данными. Если не учитывать Apache Spark и Hadoop (о последнем мы еще поговорим подробнее), самыми популярными инструментами являются MapReduce (36) и Redshift (29).

Hadoop


Несмотря на популярность Spark и облачных хранилищ, «эра» Hadoop еще не окончена. Поэтому некоторые компании ожидают от кандидатов знания Apache Pig (30), HBase (32), и похожих технологий. HDFS (20) также еще встречается в некоторых вакансиях.

Обработка данных в режиме реального времени


Учитывая повсеместное использование различных датчиков и мобильных устройств, а также популярность IoT (18), компании пытаются научиться обрабатывать данные в режиме реального времени. Поэтому платформы обработки потоков, такие как Apache Flink (21), популярны среди работодателей.

Feature Engineering и Hyperparameter Tuning


Подготовка данных и выбор параметров модели — важная часть работы любого специалиста в сфере Data Science. Поэтому термин Data Mining (128) довольно популярен среди работодателей. Некоторые компании также уделяют внимание Hyperparameter Tuning (21) (о таком термине как Feature Engineering тоже забывать не стоит). Подбор оптимальных параметров для модели — это важно, ведь от успеха этой операции зависит работоспособность модели в целом.

Визуализация данных


Умение правильно обработать данные и выводить необходимые закономерности — это важно. Тем не менее, визуализация данных (55) является не менее важным навыком. Необходимо уметь представить результаты своей работы в формате, понятном любому члену команды или клиенту. Что касается инструментов для визуализации данных, работодатели предпочитают Tableau (54).

Общие тренды


В вакансиях нам также встречались такие термины как AWS (86), Docker (36), а также Kubernetes (24). Можно сделать вывод, что общие тренды из сферы разработки ПО потихоньку перекочевали в сферу Data Science.

Мнение экспертов


Этот список технологий действительно отображает реальное положение вещей в мире Data Science. Тем не менее, есть вещи не менее важные, чем написание кода. Это способность правильно интерпретировать результаты своей работы, а также визуализировать и представлять их в понятной форме. Все зависит от аудитории — если вы рассказываете о своих достижениях кандидатам наук, говорите на их языке, но если вы представляете результаты заказчику, его не будет волновать код — только результат, которого вы достигли.

Карла Гентри,
Data Scientist, владелец Analytical Solution
LinkedIn | Twitter
Этот график показывает текущие тренды в области Data Science, но предсказать будущее, основываясь на него, довольно сложно. Я склонен считать, что популярность R будет снижаться (как и популярность MATLAB), в то время как популярность Python будет только расти. Hadoop и Big Data также оказались в списке по инерции: Hadoop вскоре исчезнет (никто больше не инвестирует в эту технологию всерьез), а Big Data перестало быть нарастающим трендом. Будущее Scala не совсем ясно: Google официально поддерживает Kotlin, который гораздо более прост для изучения. Я также скептически отношусь к будущему TensorFlow: научное сообщество предпочитает PyTorch, а влияние научного сообщества в сфере Data Science куда выше, чем во всех остальных сферах. (Это мое личное мнение, которое может не совпадать с мнением Gartner).

Андрей Бурков,
Director of Machine Learning в Gartner,
автор Hundred-Page Machine Learning Book.
LinkedIn
PyTorch — это движущая сила обучения с подкреплением, а также сильный фреймворк для параллельного выполнения кода на нескольких графических процессорах (чего не скажешь о TensorFlow). PyTorch также помогает строить динамические графы, которые эффективны при работе с рекуррентными нейронными сетями. TensorFlow оперирует статическими графами и более сложен для изучения, но его использует большее количество разработчиков и исследователей. Однако, PyTorch ближе к Python в плане отладки кода и библиотек для визуализации данных (matplotlib, seaborn). Большинство инструментов отладки кода на Python можно использовать для отладки кода на PyTorch. У TensorFlow же есть свой инструмент для отладки — tfdbg.

Ганапати Пулипака,
Chief Data Scientist в Accenture,
обладатель премии Top 50 Tech Leader.
LinkedIn | Twitter
По моему мнению, работа и карьера в Data Science — не одно и то же. Для работы вам понадобится вышеприведенный набор навыков, но для построения успешной карьеры в Data Science самый важный навык — это умение учиться. Data Science — непостоянная сфера, и вам придется научиться осваивать новые технологии, инструменты и подходы, чтобы шагать в ногу со временем. Постоянно ставьте перед собой новые вызовы и старайтесь не «довольствоваться малым».

Лон Ризберг,
Основатель/куратор Data Elixir,
ex-NASA.
Twitter | LinkedIn

Data Science — это быстро развивающаяся и сложная сфера, в которой фундаментальные знания важны настолько же, насколько и опыт работы с определенными инструментами. Надеемся, эта статья поможет вам определить, какие навыки необходимы, чтобы стать более востребованным специалистом в сфере Data Science в 2019. Удачи!

Эта статья была подготовлена командой CV Compiler — инструмента для улучшения резюме для специалистов в сфере Data Science и других отраслях IT.

Комментарии (6)


  1. sshikov
    31.07.2019 19:50
    +2

    >Hadoop и Big Data также оказались в списке по инерции: Hadoop вскоре исчезнет (никто больше не инвестирует в эту технологию всерьез), а Big Data перестало быть нарастающим трендом. Будущее Scala не совсем ясно: Google официально поддерживает Kotlin, который гораздо более прост для изучения.

    Эксперты, такие эксперты…


  1. epishman
    31.07.2019 21:56

    Судя по вакансиям, самым востребованным навыком в ML все-таки остается математика, а не питон, который за месяц можно выучить.


    1. sshikov
      31.07.2019 22:06

      Я бы согласился, что это реально близко к истине, но где вы тут видите математику? Тут львиная доля вакансий это Hadoop+Spark+Java+Scala+BigData (что бы это ни значило)+SQL. Добавить NLP или ETL еще по вкусу — и мы имеем больше половины точно. Или вы по своим вакансиям?


  1. stanislavnikitin
    01.08.2019 11:33

    Hadoop скоро исчезнет — куда, почему? Что подразумевается под Hadoop? MapReduce2, Hive — может быть. Но мне сложно представить, что перестанут быть востребованы HDFS, YARN, тот же Spark вроде тоже считался частью экосистемы всегда. Скорее стек технологий экосистемы трансформируется со временем. Тем не менее, Hadoop уже стал одним из стандартов Бигдате, куда ему пропадать?
    Отдельные компоненты заменимы, да, например S3 как альтернатива HDFS. Но это не значит, что одно исключает другое.


    1. sshikov
      03.08.2019 09:24

      Не, ну если подойти к теме серьезно, то есть и более приличные статьи об этом же. Вот например, такая. Автор есть на Хабре, если что, можно попробовать его спросить, что он об этом думает.

      А вот этот конкретный пост — он ни о чем, без каких-либо аргументов. Спросили экспертов по ML (оставим за скобками уровень экспертов, но допустим что он высокий), эксперты ответили — конечно, ML в фаворе, а BigData никому не нужна ;)

      Пассаж про скала vs котлин вообще как бы намекает. Во-первых, при чем тут гугль, который двигает котлин реально — но на андроиде. А во-вторых, покажите мне аналог хотя бы спарка на котлине, вот тогда будет о чем поговорить. У нас котлин применяется, для написания тестов, для той же цели применяется например и груви. Но говорить, что кто-то из них заменит скалу — совершенно нет поводов.

      Никто не инвестирует в BigData? Ну мой опыт наблюдения за вакансиями например говорит об обратном, просто я его не обобщаю.

      >S3 как альтернатива HDFS
      А как с этим живут скажем HBase, или Cassandra? Как производительность? Какова стоимость владения? То что оно альтернатива — согласен, а вот лучше ли оно, еще надо оценивать, и желательно с циферками в руках.


  1. YuraDorn
    01.08.2019 22:21

    По моему мнению, работа и карьера в Data Science — не одно и то же. Для работы вам понадобится вышеприведенный набор навыков, но для построения успешной карьеры в Data Science самый важный навык — это умение учиться.


    Работа и карьера эксперта — не одно и то же. Чтобы быть экспертом, вам понадобиться разбираться в сфере, ее глубокое понимание, но для построения успешной карьеры эксперта самый важный навык — красиво и обтекаемо говорить банальные вещи.