Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Эти специалисты несут основную ответственность за преобразование данных в Результативные идеи с помощью самостоятельно созданных прогностических моделей и специального анализа в соответствии с требованиями компании.

Другими словами, быть Data Scientist — чрезвычайно важная работа в нынешнем веке данных. Настолько, что статья в Harvard Business Review даже назвала ее (и это побуждает стать одним из них!).«Самой сексуальной работой 21-го века»(и это побуждает стать одним из них!).

И также не повредит тому, что работа Data Scientist очень хорошо окупается при средней зарплате 1022 тыс. в год. Именно поэтому эта статья является полным руководством для того, чтобы стать Data Scientist в 2019 году. Это дорожная карта, которой вы можете следовать, если хотите узнать больше о Data Science.

Но все еще существует большая путаница между различиями в роли Data Analyst и Data Scientist, поэтому мы начнем с этой статьи и перейдем к другим темам, таким как требования к образованию и требования к навыкам, чтобы стать специалистом в этой области.

Разница между Data Analyst и Data Scientist


Очевидно, что и у Data Analyst, и у Data Scientist есть описание работы, связанное с данными. Но какие между ними есть различия? Это вопрос, который возникает у многих людей относительно различий между этими специальностями. Так что давайте проясним это сомнение здесь!

Data Analyst использует данные для решения различных проблем и получения полезных данных для компании. Это делается с помощью различных инструментов на четко определенных наборах данных, чтобы ответить на корпоративные вопросы, такие как «Почему маркетинговая кампания более эффективна в определенных регионах» или «Почему продажи продукта сократились в текущем квартале» и так далее. Для этого основными навыками, которыми обладает аналитик данных, являются Data Mining, R, SQL, статистический анализ, анализ данных и т. д. Фактически, многие Data Analysts получают дополнительные необходимые навыки и становятся Data Scientists.

С другой стороны, Data Scientist может разрабатывать новые процессы и алгоритмы для моделирования данных, создавать прогностические модели и выполнять пользовательский анализ данных в соответствии с требованиями компании. Таким образом, основное отличие заключается в том, что Data Scientist может использовать тяжелое кодирование для проектирования процессов моделирования данных, а не использовать уже существующие для получения ответов из данных, таких как Data Analyst. Для этого основными навыками, которыми обладает Data Scientist, являются Data Mining, R, SQL, Машинное обучение, Hadoop, Статистический анализ, Анализ данных, OOPS и т. д. Таким образом, причина, по которой ученым Data платят больше, чем аналитикам Data, заключается в их высокой уровни квалификации в сочетании с высоким спросом и низким предложением.

Требования к образованию, чтобы стать Data Scientist


Существует много путей достижения вашей цели, но имейте в виду, что большинство из этих путей проходят через колледж, поскольку четырехлетняя степень бакалавра является минимальным требованием.

Самый прямой путь заключается в том, что вы получаете степень бакалавра в области Data Science, поскольку она, несомненно, научит вас навыкам, необходимым для сбора, анализа и интерпретации больших объемов данных. Вы узнаете все о статистике, методах анализа, языках программирования и т. д.,, которые только помогут в вашей работе в качестве Data Scientist.

Другой обходной путь, который вы можете выбрать, — это получить любую техническую степень, которая поможет вам в роли Data Scientist. Некоторые из них — компьютерные науки, статистика, математика, экономика. После получения степени вы будете иметь навыки кодирования, обработки данных, количественного решения проблем. Которые можно применять в Data Science. Затем вы можете найти работу начального уровня или получить степень магистра и доктора наук для более специализированных знаний.

Требования к навыкам, чтобы стать Data Scientist


Для Data Scientist требуется несколько навыков, охватывающих различные области. Большинство из них упоминаются ниже:

1. Статистический анализ. Как специалист по обработке данных, ваша основная задача — собирать, анализировать и интерпретировать большие объемы данных и создавать полезные для компании идеи. Очевидно, что статистический анализ является большой частью описания работы.
Это означает, что вы должны быть знакомы хотя бы с основами статистического анализа, включая статистические тесты, распределения, линейную регрессию, теорию вероятностей, оценки максимального правдоподобия и т. д. И этого недостаточно! Немало важно иметь понятие о том, какие статистические методы являются подходящим подходом для данной проблемы данных, еще важнее понять, какие из них не являются. Кроме того, есть много аналитических инструментов, которые очень полезны в статистическом анализе для Data Scientist. Наиболее популярными из них являются SAS, Hadoop, Spark, Hive, Pig. Поэтому важно, чтобы вы хорошо их знали.

2. Навыки программирования. Навыки программирования являются необходимым инструментом в вашем арсенале. Это потому, что намного легче изучать и понимать данные, чтобы делать полезные выводы, если вы можете использовать определенные алгоритмы в соответствии со своими потребностями.

В общем, Python и R являются наиболее часто используемыми языками для этой цели. Python используется из-за его способности к статистическому анализу и его удобству к прочтению. Python также имеет различные пакеты для машинного обучения, визуализации данных, анализа данных и т. д. (Например, Scikit-learn), которые делают его подходящим для науки о данных. R также позволяет очень легко решить практически любую проблему в Data Science с помощью таких пакетов, как e1071, rpart и многих других.

3. Машинное обучение. Если вы каким-либо образом связаны с технологической отраслью, скорее всего, вы слышали о машинном обучении. Это в основном позволяет машинам изучать задачи из опыта, не программируя их специально. Это делается путем обучения машин с использованием различных моделей машинного обучения с использованием данных и различных алгоритмов.

Таким образом, вы должны быть знакомы с алгоритмами контролируемого и неконтролируемого обучения в машинном обучении, такими как Линейная регрессия, Логистическая регрессия, Кластеризация K-средних, Дерево решений, Ближайший сосед и прочее. К счастью, большинство алгоритмов машинного обучения могут быть реализованы с использованием R или Библиотеки Python (упомянутые выше), Поэтому вам не нужно быть экспертом по ним. В чем вы нуждаетесь, это в умении понять, какой алгоритм требуется, основываясь на типе данных, которые у вас есть, и на задаче, которую вы пытаетесь автоматизировать.

4. Управление данными и обработка данных. Данные играют большую роль в жизни Data Scientist. Таким образом, вы должны быть опытными в управлении данными, которое включает извлечение, преобразование и загрузку данных. Это означает, что вам нужно извлечь данные из различных источников, затем преобразовать их в необходимый формат для анализа и, наконец, загрузить их в хранилище данных. Для обработки этих данных существуют различные платформы, такие как Hadoop, Spark.

Теперь, когда вы завершили процесс управления данными, вы также должны быть знакомы с обработкой данных. Обработка данных — это в основном означает, что данные в хранилище должны быть очищены и унифицированы согласованным образом, прежде чем их можно будет проанализировать для получения каких-либо действенных данных.

5. Интуиция данных. Не стоит недооценивать силу интуиции данных. Фактически, это основной нетехнический навык, который отличает Data Scientist от Data Analyst. Интуиция данных в основном включает в себя поиск шаблонов в данных там, где их нет. Это почти то же самое, что найти иголку в стоге сена, которая является реальным потенциалом в огромной неисследованной куче данных.

Интуиция данных — это не тот навык, которому можно так просто научиться. Скорее это происходит из опыта и продолжающейся практики. А это, в свою очередь, делает вас гораздо более эффективным и ценным в своей роли Data Scientist.

6. Навыки общения.Вы должны хорошо владеть навыками общения, чтобы стать экспертом в области Data Scientist. Это потому, что, хоть вы и понимаете данные лучше, чем кто-либо другой, вам необходимо преобразовать полученные данные в количественную оценку, чтобы нетехническая команда смогла принять решение.

Это также может включать data storytelling! Таким образом, вы должны иметь возможность представлять свои данные в формате повествования с конкретными результатами и значениями, чтобы другие люди могли понять, что вы говорите. Это связано с тем, что в конечном итоге анализ данных становится менее важным, чем практические выводы, которые можно получить из данных, что, в свою очередь, приведет к росту бизнеса.

Комментарии (12)


  1. Guitariz
    28.11.2019 09:10

    Нестареющая картинка, что сказать
    image


    1. Griboks
      28.11.2019 11:01

      Жизненно) Только теперь использую готовые модели оптимизации моделей и их коэффициентов.


  1. QtRoS
    28.11.2019 11:36

    Слово "sexiest" в обороте про работу не стоит переводить буквально.


    1. A114n
      28.11.2019 11:43

      «Притягательный» может?


  1. A114n
    28.11.2019 11:42

    1) Статистический анализ. Да, я это в институте и изучал.
    2) Навыки программирования. Знаю и Питон и R.
    3) Алгоритмы типа регрессии и кластеризации. Да, я это тоже в институте изучал.
    4) Управление и обработка данных. Да я десять лет этим занимаюсь.

    Выходит, мне не хватает интуиции / навыков общения — или тут список неполный, и дело в чём-то ещё.


    1. roryorangepants
      28.11.2019 13:30

      Выходит, мне не хватает интуиции / навыков общения — или тут список неполный, и дело в чём-то ещё.

      Полагаю, что не хватает знаний и опыта в ML, потому что «я это в институте и изучал» в реалиях образования в СНГ звучит как «знаю пачку древних алгоритмов, которые никто особо не использует».


      1. A114n
        28.11.2019 14:10

        Извините, а за последние 200 лет что-то изменилось в методике расчёта простой линейной регрессии, например? Или за последние лет 10 кластеризацию по k-средним уже считают не так, как раньше, а я всё пропустил?

        Как вы верно подметили, «не хватает опыта в ML» означает «не выполнен формальный критерий документально подтверждённого трудоустройства в компании, которая официально занимается ML».

        Вот если бы я в такой компании годик позаменял null на N\A, это бы было хорошим подтверждением того, что я знаю все современные алгоритмы.


        1. roryorangepants
          28.11.2019 15:28

          Извините, а за последние 200 лет что-то изменилось в методике расчёта простой линейной регрессии, например? Или за последние лет 10 кластеризацию по k-средним уже считают не так, как раньше, а я всё пропустил?

          Вы выбрали два алгоритма из того множества алгоритмов, изучаемых в наших ВУЗах, которые реально используются, браво.
          Но есть ещё десяток таких, которые за пределы этого ВУЗа не выходят. А ещё есть два десятка таких, которые вы в ВУЗе не учили, а на самом деле они нужны.

          Грубо говоря, в университете вам пять лет назад дали HOG+SVM для детекции объектов, но если вы попадете на computer vision проект, вы их никогда не увидите. Вместо этого вы увидите Faster R-CNN / SSD, про которые у вас в университете, возможно, и по сей день не слышали.

          Как вы верно подметили, «не хватает опыта в ML» означает «не выполнен формальный критерий документально подтверждённого трудоустройства в компании, которая официально занимается ML».

          Нет, я такого не говорил. Мне кажется, вы искажаете смысл моих слов.
          «Не хватает опыта» — это буквально «не хватает реального боевого опыта, потому что ваш опыт как девелопера / дата инженера не покрывает и половины тех задач, с которыми вы столкнетесь».


          1. A114n
            28.11.2019 17:12

            Грубо говоря, в университете вам пять лет назад дали HOG+SVM для детекции объектов, но если вы попадете на computer vision проект, вы их никогда не увидите. Вместо этого вы увидите Faster R-CNN / SSD, про которые у вас в университете, возможно, и по сей день не слышали.

            А ещё может случиться так, что вы будете работать в ML, но при этом ни разу не столкнётесь с задачей компьютерного зрения.

            Но мы ушли далеко от начала разговора, а начался он с того, что перечисленное в статье в общем-то не так важно. Я говорю что важно формальное трудоустройство, вы говорите что важен реальный боевой опыт — но в любом случае не тот список, который нам предлагают.


            1. roryorangepants
              28.11.2019 17:16

              А ещё может случиться так, что вы будете работать в ML, но при этом ни разу не столкнётесь с задачей компьютерного зрения.

              Это просто пример. То же самое работает в 90% областей.

              Но мы ушли далеко от начала разговора, а начался он с того, что перечисленное в статье в общем-то не так важно. Я говорю что важно формальное трудоустройство, вы говорите что важен реальный боевой опыт — но в любом случае не тот список, который нам предлагают.

              И да, и нет. Пункты #1-4 в том списке важны. Пункт #5 важен в любой сфере вообще.
              Другое дело, что помимо этих пунктов есть и ещё важные (в частности опыт).


        1. Spiritschaser
          28.11.2019 22:37

          Или за последние лет 10 кластеризацию по k-средним уже считают не так, как раньше

          Я пока не саентист, а только аналист (и пришёл из матмоделей в экономике), но, простите, не самый универсальный метод кластеризации на прикладных задачах, например. Ну и т.д.


          1. A114n
            29.11.2019 11:47

            Это была, простите, отсылка к содержимому статьи.