Разница между Data Scientist и подростком в спорткаре / forpes.ru

Главная
Разница между Data Scientist и подростком в спорткаре

Разница между Data Scientist и подростком в спорткаре -4

13.09.2019 05:41

SergeyMarin 5 3400 Источник

В последнее время появилось множество курсов, как академических, так и частных, которые ставят перед собой целью обучить анализу данных и готовят специалистов, способных решать бизнес-задачи с применением машинного обучения. Если посмотреть внимательно на программы этих курсов — все они примерно одинаковые, отличие только в форматах обучения (онлайн-офлайн) и в преподавателях.

Школа Данных начала делать такие курсы еще в 2015 году. Причем, начали делать по такому же сценарию. Мы пересмотрели большое кол-во программ различных академических курсов по машинному обучения, опираясь на опыт, выбрали только то, что реально нужно для решения практических задач и сделали большое кол-во Jupyter-тетрадок, в которых на пальцах старались разобрать математику и машинное обучение.

Мы старались обучить в первую очередь технологиям машинного обучения, методам обработки текстов, нейронным сетям, анализу сетевых структур, рекомендательным системам и другим областям анализа данных. И вроде отзывы учеников были хорошие, но все равно чего-то не хватало.

Учитывая, что основной деятельностью у нас все же является разработка реальных задач в рамках Студии Данных, учеников, в первую очередь, мы готовили для себя. Мы быстро поняли, что на практике знание методов анализа данных и машинного обучения — это, как говорят математики, «условие необходимое, но недостаточное». Именно поэтому мы очень быстро обновили программу наших занятий с учетом реальной потребности.

Коротко, выводы, к которым мы пришли (и на основе которых теперь строим наше обучение):

Технологии машинного обучения и нейросетей переоценены
Методы машинного обучения канибализируют культуру аналитического мышления
Для достижения экономического эффекта проектов, подразумевающих анализ данных, важнее soft-скиллы, нежели глубокие знания ML
Профессия Data Scientist'а — сильно переоценена, универсальных специалистов больше не будет

В следующих абзацах пойдет речь о всех этих проблемах.

Большинство задач в крупных компаниях, которые сейчас пытаются решать с помощью современных методов анализа данных и нейросетей — решаются уже давно. Банки — самые успешные кейсы в управлении рисков. В телекомах — это CRM/CBM, где вся бизнес-модель завязана на увеличение LTV абонентов. Аналогично работает и ритейл — есть несколько задач (прогноз РТО, управление запасами, промо-акции), которые обеспечивают core-бизнес.

Есть производственные компании, в которых основные задачи — повышение стабильности режима, сокращение потерь и предиктивное тех.обслуживание с одной стороны и управление складскими остатками и маркетинг с другой стороны.

Задачи эти не новые, решают их аналитики уже давно. Причем, аналитики, которые разбираются в предметной области. Более того, в большинстве случаев есть немалое количество вендоров, которые для отдельных задач, вроде управления ценообразованием (в случае розницы), либо APC-систем (в случае производства) — де-факто являются стандартами. Причем, как правило, алгоритмы оптимизации в том числе и машинное обучение в таких системах уже заложены.

Сделать тут что-то принципиально новое и на этом заработать — крайне сложно. Как говорится «яблоки, что упали с дерева» уже собрали. Остается искать только новые бизнес-кейсы, в которых аналитика дает экономический эффект. Такие примеры действительно есть — и их становится все больше.

Однако, найти такие примеры и увидеть там эффект от аналитики не просто. Для этого нужно уметь глубоко разобраться в предметной области конкретного процесса (описания которого, часто просто нет). Понять, какие данные вообще в принципе нужны, понять, на чем конкретно здесь делается бизнес. Понять, нужна ли тут аналитика вообще, нужны ли какие-то предсказательные алгоритмы (чаще — нет), нужно ли менять бизнес-процесс (чаще да), есть ли операционные рычаги (какой смысл предсказывать останов оборудования, если способов его избежать все равно нет?).

Так вот — в процессе реализации такого цифрового продукта возникает много вопросов, которые требуют аналитического подхода, определенной культуры работы с данными, умения ставить гипотезы, задавать себе вопросы, мыслить в терминах собственника бизнеса. Факт состоит в том, что этому не учат в Школах Анализа Данных, этому не учат на Coursera. Да, современные курсы готовят, наверное, хороших инженеров и математиков, однако — аналитиков — нет, не готовят.

Более того — знание методов машинного обучения и нейронных сетей скорее убивает культуру аналитического мышления. Большинство современных Data Scientist'ов — это как дети за спорткаром — считают себя уникальными (знают много умных слов про xgboost, нейросети и пр.), водить не умеют (а зачем, если машина сама все сделает за тебя), а едут быстро только потому что много лошадиных сил (сильное железо, хотя и тут скорее переобучились).

В результате, получается примерно следующая картина: приходят какие-то умные дорогие люди, почти не задают никаких вопросов, говоря о том, что данные и так обо всем расскажут. Забирают какие-то данные, потом приходят — говорят, что построили какую-то модель, называют точность в процентах и все. Как только начинаешь челенджить — говорят непонятными словами, давят интеллектом, но толку от них нет.

Этим и обьясняется, что сейчас среди подрядчиков по цифровой трансформации или анализу данных — доминируют в основном консалтинговые компании управленческого консалтинга (не IT). Потому что у них есть культура аналитики, культура бизнес-мышления, они всегда снимают головную боль, предлагают решения. Они не ограничиваются построением модели машинного обучения, они делают настоящую аналитику, которая помогает принять решение.

Другая тенденция, которая сейчас происходит в мире — это то, что даже если Data Scientist более менее успешный — он не может быть универсалом. Во многих компаниях изначально созданная централизованная структура, занимающаяся анализом данных стала распределенной. У центрального офиса осталась только роль обеспечения инфраструктуры, а вся продуктовая часть, реальные цифровые продукты делаются уже непосредственно в бизнес-единицах. В этой структуре, соответственно, Data Scientist (при условии, что он «правильный») становится экспертом в предметной области — на него передается функционал, который до него поддерживали до этого «старые» аналитики, которые работали до него. Ему же, в случае успеха, передают в руки и операционные рычаги.

В итоге — все больше и больше наблюдается тенденция давать успешным аналитикам операционные рычаги в руки и повышается их ответственность. Но только в одной предметной области. Мы прогнозируем (что подтверждается по рынку крупными компаниями), что не будет больше универсальных аналитиков — хайп закончился, пора отвечать за результат. Те, кто могут решать бизнес-проблемы с помощью аналитики — перейдут в продуктовую часть, а те, кто умеет обучать xgboost — уйдут обратно в академию, либо читать лекции по машинному обучению.

Именно поэтому, мы полностью пересмотрели наши курсы (в том числе потому, что многих из выпускников берем к себе в Студию Данных) и теперь:

0. Начнем с того, что на входе мы видим в каждом из студентов наших будущих сотрудников, которые будут плыть с нами в одной лодке и участвовать в крупных проектах. Поэтому, мы заинтересованы в том, чтобы студент за эти 3.5 месяца подготовился максимально качественно. Всегда можно успеть пройти очередной курс на Coursera, если будет потребность разобраться в деталях конкретного алгоритма. Однако, получить опыт реальных кейсов — куда сложнее. И именно поэтому:

1. Обучение построено по кейс-методу. Мы берем реальную задачу, сначала анализируем бизнес-модель, юнит-экономику, понимаем, какого качества, исходя из реальных цифр мы должны в этой задаче достичь. Оцениваем потенциальный экономический эффект. И только после этого начинаем разбираться с технической частью, постепенно погружаясь в аналитические методы, в машинное обучение и нейросети. И что важно — делаем это только в случае, если в этой задаче реально это нужно

2. Мы работаем с каждым студентом индивидуально. Несмотря на то, что мы стараемся набирать группу однородную, понимаем, что люди разные — у каждого свой индивидуальный план обучения и свои домашние задания. На наш взгляд — это глупость, когда пару десятков человек решают одну и ту же задачу. Это не эффективно даже с точки зрения здравого смысла. Все студенты получают ответы преподавателя в чате, студент никогда не будет брошен один на один с задачей.

Единственное, о чем мы заранее всех предупреждаем на входе — это то, что обучение будет требовать существенного времени, постоянно надо будет делать домашние задания, погружаться в детали, часто — тратить на обучение выходные.

Мы понимаем, что это не массовая история. Студия Данных успешно существует уже несколько лет в том числе потому, что в нее сложно попасть. Мы прекрасно понимаем, что в текущих реалиях проще вырастить аналитика, нежели брать после курсов с Coursera. Именно поэтому, в Школу Данных изначально приходят самые мотивированные студенты. Обычно — размер группы не превышает 15-20 человек, что позволяет сделать обучение фактически индивидуальным.

Не говоря уже о том, что мы полностью продумали всю техническую сторону — заранее заготовленные Jupyter-тетрадки, эффективная система коммуникаций для удаленных участников, онлайн-трансляции — все это помогает даже удаленным участникам общаться прямо на занятии с остальными ребятами.

Мы не учим Data Scientist'ов — мы готовим полноценных людей, которые могут решать бизнес-задачи с помощью аналитики.

Начало нового курса у нас 23 сентября. По вопросам проектов просим к нам в Студию Данных.

Комментарии (5)

superstarstas306
13.09.2019 10:13
#20618147
Технологии машинного обучения и нейросетей переоценены

Здесь появилось желание бросить читать.

Методы машинного обучения канибализируют культуру аналитического мышления

А вы в курсе, что аналитик и датасатанист (хорошие) в принципе занимаются разными вещами?

Для достижения экономического эффекта… важнее soft-скиллы

Вот здесь вообще лол. Серьезно? Пойдете на собеседование на условную «вакансию мечты» и будете там трясти своими софт скиллз?

Профессия Data Scientist'а — сильно переоценена

Classic.
1. S_A
  14.09.2019 08:55
  #20622663
  100%
  
  Статья блаблабла. Ладно себя позиционируют как выпускающих этаких практиков дата аналитики, но зачем на других наезжать? И вообще всех «остальных» уравнивать одинаково?
  
  Кто в сфере работает, а не просто изучает, знают всё это «сакральное». Да и девственно чистых дата-аналитиков в природе еще не появилось, у всех некоторое базовое предметное образование или прикладной опыт.
  
  Короче, какой-то хреновый маркетинг. Тоже по выводам пройдусь.
  1. «Технологии машинного обучения и нейросетей переоценены».
  — их вообще невозможно оценивать. Либо модель работает и дает положительный экономический эффект, либо нет. Машинное обучение — один из способов моделирования, причем самый… экономически эффективный (при наличии данных).
  2. «Методы машинного обучения канибализируют культуру аналитического мышления».
  — аналитика конечно хорошо, но аналитика с моделью лучше. Если где-то проскакивают аналитику и сразу идут к модели — просто дольше натрахаются.
  3. «Для достижения экономического эффекта… важнее soft-скиллы».
  — звездеж, непонятно откуда взявшийся.
  4. «Профессия Data Scientist'а — сильно переоценена».
  — окей, берите аналитика, математика и программиста сразу вместо одного дата-саентиста. Подождите пока все поймут-разберутся, пока договорятся, пока один поймет что сделал другой и прочие накладные. Вот прям кровавый дата-энтерпрайз или галерный конвейер. Не работают они в дата-саенсе.

feeeper
13.09.2019 10:47
#20618395
Расскажите, пожалуйста, на чём основаны ваши выводы?

Например, вы пишете

Банки — самые успешные кейсы в управлении рисков. В телекомах — это CRM/CBM, где вся бизнес-модель завязана на увеличение LTV абонентов.
Да, задачи сейчас решаются. Но, во-первых, ресурсов, которые были потрачены на решение этих задач, было потрачено неимоверное количество. Во-вторых, ни один аналитик не сможет обработать такое количество информации, которую учитывает модель машинного обучения или нейронная сеть.

Аналогично можно сказать про остальные пункты в ваших выводах.

Отчасти я согласен с вами, что сейчас существует некая проблема с тем, что каждый xgboost-аналитик/программист может называть себя Data Scientist-ом, но это иная проблема, которую решать надо по-другому. А "настоящие" Data Scientist-ы, как мне кажется, это как раз те самые аналитики но ~~"на стероидах"~~, которые умеют в Python, xgboost, DL и прочее.

Sergey-S-Kovalev
13.09.2019 11:21
#20618645
Разница между Data Scientist и подростком в спорткаре
У второго очень богатые родители?

gnomeby
17.09.2019 11:13
#20630979
Проходил удалённо курсы в этой школе 2 года назад. И сам постепенно пришёл к тем же выводам, что в статье. Тогда ещё нам о положении дел в отрасли не рассказывали.
Точно знаю, что преподаватели большую часть времени не преподают, а решают реальные задачи бизнеса, поэтому они имеют право критиковать отрасль.

Поэтому в конце удивился комментариям и заминусованной статье. Но запасся попкорном, видимо будет интересное развлекалово.

Разница между Data Scientist и подростком в спорткаре -4

Комментарии (5)

superstarstas306

S_A

feeeper

Sergey-S-Kovalev

gnomeby