Меня зовут Женя Толстов, я тимлид ML-отдела в группе компаний ФСК и наставник на курсе «Специалист по Data Science» в Практикуме. О специфике работы в девелопменте и своих рабочих задачах я уже рассказал в статье «Чем на самом деле занимается дата-сайентист».
Сегодня поделюсь своим мнением о перспективах профессии. Это статья для джунов, студентов и для тех, кто только выбирает направление в IT. Рассказываю, какие возможности для развития в дата-сайенс есть сейчас и какие появятся в ближайшем будущем, а ещё подсвечиваю неочевидные для новичков особенности работы дата-сайентиста.
Тонкости профессии: чем дата-аналитик отличается от дата-сайентиста
Не раз слышал этот вопрос от новичков, поэтому предлагаю разобраться на берегу. Дата-аналитиков и дата-сайентистов объединяет то, что они работают с данными и используют базовые инструменты типа SQL, Excel и Python. Отличия кроются в задачах, которые они решают, и в результатах работы.
Дата-аналитики анализируют исторические данные. Результат их работы — выводы, отчёты, документация. В дата-анализе есть много направлений. Например, системные аналитики могут участвовать в построении инструментов для хранения данных, бизнес-аналитики общаются с заказчиками и формируют бизнес-требования, выстраивают бизнес-процессы.
Часто аналитики решают аd-hoc задачи — это задачи, которые не входят в повседневные обязанности аналитика. Например, если в данных выявили аномалию, дата-аналитику могут срочно поручить разобраться с этой проблемой.
Аналитику не нужно разбираться в работе алгоритмов и предиктивных моделей, поэтому порог входа в профессию ниже.
Дата-сайентисты специализируются на построении моделей и прогнозировании. Основной результат их работы — это модели машинного обучения. В зависимости от задач и типов данных дата-сайентисты могут строить как линейные модели или модели на «деревьях решений» для табличных данных, так и модели нейронных сетей для работы с изображениями, видео, текстами и так далее.
Чтобы работать дата-сайентистом, специалисту нужна неплохая математическая и алгоритмическая база. Работодатели ценят кандидатов с техническим образованием, а самые сильные спецы на рынке — это, как правило, выпускники МФТИ, НИУ ВШЭ И МГУ.
Дата-сайентист — востребованная профессия?
По моим наблюдениям, востребованность профессии постоянно растет. Случаются всплески популярности. Например, такой всплеск был в 2023 году, когда появилась GPT-4. Бизнес захотел использовать ML-модели для создания чат-ботов, обработки естественного языка, и вакансий для дата-сайентистов стало больше.
В будущем спрос сохранится, но, вероятно, профессия трансформируется. Уже сейчас роли дата-сайентистов и дата-аналитиков плавно сливаются. Работодатели ищут специалистов, которые разбираются в машинном обучении и владеют стандартными аналитическими методами. Есть вакансии дата-аналитиков, где в требованиях указывают «знание ML».
Чтобы оставаться востребованными, дата-сайентистам придётся постоянно осваивать новые инструменты. Умение кодить не потеряет своей актуальности — это наша база.
Работодатели предъявляют высокие требования к знаниям и навыкам дата-сайентистов, но в качестве награды за компетентность предлагают высокие зарплаты. Если верить Хабр Карьере, средняя зарплата джуна — 112 000 рублей, мидла — 215 000, синьора — 350 000.
Каким компаниям нужны дата-сайентисты
Высокотехнологичные компании первыми внедряют инновации, а потом все остальные следуют их примеру. В сфере дата-сайенс этот процесс уже идёт: машинное обучение используют не только технологические гиганты, но и, например, строительные компании, такие как моя. Постепенно это направление станет популярным и в других сферах.
По сути, любая крупная компания может автоматизировать и использовать данные так, чтобы они приносили дополнительную прибыль. Но дата-сайенс стоит дорого, поэтому это не стандартная опция, а скорее экстра-фича. Если у компании есть деньги на эту фичу и объёмы задач такие большие, что имеет смысл их оптимизировать, тогда она привлекает дата-сайентиста.
Какие навыки стоит развивать джуну
В дата-сайенсе, как и в других областях, джунам поручают самые понятные задачи, например, выгрузить данные или улучшить существующую модель. Джуны работают под руководством мидлов или синьоров — получают ТЗ или задачи, как правило, от них. Во встречах с заказчиками обычно не участвуют, поэтому софты на начальном этапе не так важны.
Джун должен владеть стандартными хардами: знать языки программирования и уметь работать с базами данных. Основные языки — Python и SQL. Python пригодится в анализе данных и машинном обучении, а SQL — для работы с базами и извлечения нужной информации.
Чтобы разобраться в основах профессии, рекомендую Учебник по машинному обучению от ШАДа. Я до сих пор заглядываю туда, чтобы освежить знания. В учебнике собрано всё, что нужно знать о ML: от простых концепций до тонкостей машинного обучения.
Ещё одна рекомендация — сообщество Open Data Science на Хабре. Там хранится много статей о машинном обучении, которые пригодятся новичку и не только. Это сообщество по уровню полезности можно сравнить с учебником.
Как попасть в профессию: мой опыт
Я пришел в дата-сайенс из дата-анализа. Изучал бизнес-информатику в Высшей школе экономики, после обучения устроился аналитиком в консалтинговую компанию — это было в 2014 году. В роли аналитика успел поработать в стартапе, который создавал сервис бронирования отелей, в крупных телекоммуникационных и финтех-компаниях. Сейчас я тимлид, развиваю ML-отдел в девелоперской компании. Нанимаю людей, выстраиваю процессы, общаюсь с заказчиками и, конечно, пишу код.
Десять лет назад программ обучения дата-сайенсу было мало, и многие приходили в профессию из смежных областей — из разработки или аналитики. Сегодня у студентов гораздо больше возможностей: есть курсы, программы дополнительного образования и специализированные программы в вузах.
Стоит ли изучать машинное обучение в вузе — вопрос открытый. Зависит от того, каким дата-сайентистом вы планируете стать. Если хотите быть одним из лучших в стране, идите в физтех и в магистратуру ШАД. Повторюсь: специалисты с сильным техническим образованием ценятся на рынке.
Если ваша цель — быстрее войти в профессию и начать нарабатывать опыт, можно ограничиться хорошими курсами. Имейте в виду, что придётся часто использовать математику, много кодить и долго разбираться в задачах. Чтобы работать в дата-сайенсе, однозначно нужна усидчивость.