Сфера IT переживает ребрендинг: инженеры превращаются в архитекторов, а глубокое обучение может посоревноваться в популярности с котиками. Пришло время data-гикам превратиться в data-ученых.

Кто такие «ученые по данным» и чем они действительно занимаются — расскажет Григорий Бакунов на нашей карьерной встрече «Чем живет Data Scientist».





Спорим, что у вас есть коллеги или знакомые, которые гордо называют себя Data Scientist’ами? Не принимайте близко к сердцу, но большинство из них вообще не имеют отношения к Data Science. Называть себя ученым — значит действительно заниматься наукой, практиковать научные методы. Вы выдвигаете гипотезу, подкрепляете ее результатами экспериментов и после её доказательства / опровержения идете дальше или проводите новые итерации.



Наука о данных — это прикладная наука. И задача любого прикладного ученого — создавать модели, методы, алгоритмы, которые представляют практическую ценность.
Эти вещи очень важны, так как они могут предсказывать будущие результаты из относительно небольших входных данных. В некоторых случаях ваши модели — не что иное, как черные ящики: вы не можете объяснить, откуда взялось прогноз, но вы уже доказали точность этих данных.

Таким образом, ради того, чтобы сохранить чистоту понятия «Data Science», приводим несколько утверждений, которые помогут вам понять, что вы никакой не Data Scientist:

— У вас богатая экспертиза в сфере бизнес аналитики. Вы потратили много времени на прогнозирование прошлого, выполняя анализ временных рядов исторических данных. Это не наука о данных — вы редко проводите эксперименты, ваша способность прогнозировать обманчива.

— Опыт программирования в Hadoop, R, Python, Octave, Mathematica и Matlib — инструментах Data Scientist’а. Умение пользоваться инструментами еще не дает вам научного влияния.

— Ученая степень в области математики, статистики, эконометрики не дает вам права называть себя ученым по данным. Надеемся, что вы научились применять описательные и прогностические методы и при этом сохранили понимание базовой теории. Но наука о данных — это прикладная дисциплина, фокусирующаяся на конкретной предметной области данных, так что скорее всего, вы не получите достаточно реального опыта, добиваясь степени бакалавра.

— Пропаганда роли больших, средних, маленьких, да любых данных как будущего интеллектуального предпринимательства выглядит уместно в вашем резюме, может стать способом завести разговор с гиком или развлечь друзей на вечеринке. Ученым вы от этого не становитесь.

— Восьминедельный курс на Cousera или посещение научного лагеря для Data Scientist’ов делают из вас такого же ученого, как из меня вчерашний урок гольфа делает профессионального спортсмена. Теория «век живи — век учись» и жажда постоянного самосовершенствования — это просто самообман.

— Предметный эксперт и властитель Excel, вы создаете невероятные диаграммы, графики и сумасшедшие таблицы. Опять же, эти незаменимые навыки не делают из вас ученого.

— Вы недавно приобрели Data Science платформу от SAS, IBM или Microsoft и без должного опыта после прочтения инструкции, просмотра 10 вводных видео и прохождения пятидневного курса уверовали, что готовы создавать прогнозирующие / объяснительные модели предметных данных, просто перемещая виджеты алгоритмов на холст и нажимая кнопку «learn». Вы совсем не Data Scientist, а просто опасный субъект.

Комментарии (2)


  1. ServPonomarev
    05.08.2015 10:55

    Именно за перечисленные в посте навыки платят тем, кто в резюме называет себя DS. А кто платит, тот и заказывает музыку. Глупо же вы будете смотреться, объясняя на собеседовании, кто на самом деле ТруЪ скиентист. Возьмут-то того, кто над такими вопросами даже не заморачивается.


  1. skipjack
    08.08.2015 07:05

    А почему делается упор на термине data scientist?
    Что, data analyst (аналитик по данным) не актуально?
    Согласен, называть себя ученым, не имея соответствующего опыта (научно-исследовательской деятельности, публикации в журналах и т.п.) неправильно, но можно спуститься и на ступеньку ниже. В чем проблема? Или такой ниши на рынке труда нет?

    И здесь есть некоторая путаница, как мне кажется: человек может указать в своих навыках и интересах data science, но при этом не позиционировать себя как ученого, а только как аналитика. Разница в том, что он не разрабатывает качественно новые алгоритмы, а лишь применяет существующие (или их комбинации).

    Теория «век живи — век учись» и жажда постоянного самосовершенствования — это просто самообман.
    — по-моему, не очень удачная мысль автора. Если он хотел сказать, что курсы Coursera достаточно поверхностные — это одно. А то, что самообразование ведет к самообману — это несколько странное утверждение!