В последнее время появилось множество курсов, как академических, так и частных, которые ставят перед собой целью обучить анализу данных и готовят специалистов, способных решать бизнес-задачи с применением машинного обучения. Если посмотреть внимательно на программы этих курсов — все они примерно одинаковые, отличие только в форматах обучения (онлайн-офлайн) и в преподавателях.
Школа Данных начала делать такие курсы еще в 2015 году. Причем, начали делать по такому же сценарию. Мы пересмотрели большое кол-во программ различных академических курсов по машинному обучения, опираясь на опыт, выбрали только то, что реально нужно для решения практических задач и сделали большое кол-во Jupyter-тетрадок, в которых на пальцах старались разобрать математику и машинное обучение.
Мы старались обучить в первую очередь технологиям машинного обучения, методам обработки текстов, нейронным сетям, анализу сетевых структур, рекомендательным системам и другим областям анализа данных. И вроде отзывы учеников были хорошие, но все равно чего-то не хватало.
Учитывая, что основной деятельностью у нас все же является разработка реальных задач в рамках Студии Данных, учеников, в первую очередь, мы готовили для себя. Мы быстро поняли, что на практике знание методов анализа данных и машинного обучения — это, как говорят математики, «условие необходимое, но недостаточное». Именно поэтому мы очень быстро обновили программу наших занятий с учетом реальной потребности.
Коротко, выводы, к которым мы пришли (и на основе которых теперь строим наше обучение):
- Технологии машинного обучения и нейросетей переоценены
- Методы машинного обучения канибализируют культуру аналитического мышления
- Для достижения экономического эффекта проектов, подразумевающих анализ данных, важнее soft-скиллы, нежели глубокие знания ML
- Профессия Data Scientist'а — сильно переоценена, универсальных специалистов больше не будет
В следующих абзацах пойдет речь о всех этих проблемах.
Большинство задач в крупных компаниях, которые сейчас пытаются решать с помощью современных методов анализа данных и нейросетей — решаются уже давно. Банки — самые успешные кейсы в управлении рисков. В телекомах — это CRM/CBM, где вся бизнес-модель завязана на увеличение LTV абонентов. Аналогично работает и ритейл — есть несколько задач (прогноз РТО, управление запасами, промо-акции), которые обеспечивают core-бизнес.
Есть производственные компании, в которых основные задачи — повышение стабильности режима, сокращение потерь и предиктивное тех.обслуживание с одной стороны и управление складскими остатками и маркетинг с другой стороны.
Задачи эти не новые, решают их аналитики уже давно. Причем, аналитики, которые разбираются в предметной области. Более того, в большинстве случаев есть немалое количество вендоров, которые для отдельных задач, вроде управления ценообразованием (в случае розницы), либо APC-систем (в случае производства) — де-факто являются стандартами. Причем, как правило, алгоритмы оптимизации в том числе и машинное обучение в таких системах уже заложены.
Сделать тут что-то принципиально новое и на этом заработать — крайне сложно. Как говорится «яблоки, что упали с дерева» уже собрали. Остается искать только новые бизнес-кейсы, в которых аналитика дает экономический эффект. Такие примеры действительно есть — и их становится все больше.
Однако, найти такие примеры и увидеть там эффект от аналитики не просто. Для этого нужно уметь глубоко разобраться в предметной области конкретного процесса (описания которого, часто просто нет). Понять, какие данные вообще в принципе нужны, понять, на чем конкретно здесь делается бизнес. Понять, нужна ли тут аналитика вообще, нужны ли какие-то предсказательные алгоритмы (чаще — нет), нужно ли менять бизнес-процесс (чаще да), есть ли операционные рычаги (какой смысл предсказывать останов оборудования, если способов его избежать все равно нет?).
Так вот — в процессе реализации такого цифрового продукта возникает много вопросов, которые требуют аналитического подхода, определенной культуры работы с данными, умения ставить гипотезы, задавать себе вопросы, мыслить в терминах собственника бизнеса. Факт состоит в том, что этому не учат в Школах Анализа Данных, этому не учат на Coursera. Да, современные курсы готовят, наверное, хороших инженеров и математиков, однако — аналитиков — нет, не готовят.
Более того — знание методов машинного обучения и нейронных сетей скорее убивает культуру аналитического мышления. Большинство современных Data Scientist'ов — это как дети за спорткаром — считают себя уникальными (знают много умных слов про xgboost, нейросети и пр.), водить не умеют (а зачем, если машина сама все сделает за тебя), а едут быстро только потому что много лошадиных сил (сильное железо, хотя и тут скорее переобучились).
В результате, получается примерно следующая картина: приходят какие-то умные дорогие люди, почти не задают никаких вопросов, говоря о том, что данные и так обо всем расскажут. Забирают какие-то данные, потом приходят — говорят, что построили какую-то модель, называют точность в процентах и все. Как только начинаешь челенджить — говорят непонятными словами, давят интеллектом, но толку от них нет.
Этим и обьясняется, что сейчас среди подрядчиков по цифровой трансформации или анализу данных — доминируют в основном консалтинговые компании управленческого консалтинга (не IT). Потому что у них есть культура аналитики, культура бизнес-мышления, они всегда снимают головную боль, предлагают решения. Они не ограничиваются построением модели машинного обучения, они делают настоящую аналитику, которая помогает принять решение.
Другая тенденция, которая сейчас происходит в мире — это то, что даже если Data Scientist более менее успешный — он не может быть универсалом. Во многих компаниях изначально созданная централизованная структура, занимающаяся анализом данных стала распределенной. У центрального офиса осталась только роль обеспечения инфраструктуры, а вся продуктовая часть, реальные цифровые продукты делаются уже непосредственно в бизнес-единицах. В этой структуре, соответственно, Data Scientist (при условии, что он «правильный») становится экспертом в предметной области — на него передается функционал, который до него поддерживали до этого «старые» аналитики, которые работали до него. Ему же, в случае успеха, передают в руки и операционные рычаги.
В итоге — все больше и больше наблюдается тенденция давать успешным аналитикам операционные рычаги в руки и повышается их ответственность. Но только в одной предметной области. Мы прогнозируем (что подтверждается по рынку крупными компаниями), что не будет больше универсальных аналитиков — хайп закончился, пора отвечать за результат. Те, кто могут решать бизнес-проблемы с помощью аналитики — перейдут в продуктовую часть, а те, кто умеет обучать xgboost — уйдут обратно в академию, либо читать лекции по машинному обучению.
Именно поэтому, мы полностью пересмотрели наши курсы (в том числе потому, что многих из выпускников берем к себе в Студию Данных) и теперь:
0. Начнем с того, что на входе мы видим в каждом из студентов наших будущих сотрудников, которые будут плыть с нами в одной лодке и участвовать в крупных проектах. Поэтому, мы заинтересованы в том, чтобы студент за эти 3.5 месяца подготовился максимально качественно. Всегда можно успеть пройти очередной курс на Coursera, если будет потребность разобраться в деталях конкретного алгоритма. Однако, получить опыт реальных кейсов — куда сложнее. И именно поэтому:
1. Обучение построено по кейс-методу. Мы берем реальную задачу, сначала анализируем бизнес-модель, юнит-экономику, понимаем, какого качества, исходя из реальных цифр мы должны в этой задаче достичь. Оцениваем потенциальный экономический эффект. И только после этого начинаем разбираться с технической частью, постепенно погружаясь в аналитические методы, в машинное обучение и нейросети. И что важно — делаем это только в случае, если в этой задаче реально это нужно
2. Мы работаем с каждым студентом индивидуально. Несмотря на то, что мы стараемся набирать группу однородную, понимаем, что люди разные — у каждого свой индивидуальный план обучения и свои домашние задания. На наш взгляд — это глупость, когда пару десятков человек решают одну и ту же задачу. Это не эффективно даже с точки зрения здравого смысла. Все студенты получают ответы преподавателя в чате, студент никогда не будет брошен один на один с задачей.
Единственное, о чем мы заранее всех предупреждаем на входе — это то, что обучение будет требовать существенного времени, постоянно надо будет делать домашние задания, погружаться в детали, часто — тратить на обучение выходные.
Мы понимаем, что это не массовая история. Студия Данных успешно существует уже несколько лет в том числе потому, что в нее сложно попасть. Мы прекрасно понимаем, что в текущих реалиях проще вырастить аналитика, нежели брать после курсов с Coursera. Именно поэтому, в Школу Данных изначально приходят самые мотивированные студенты. Обычно — размер группы не превышает 15-20 человек, что позволяет сделать обучение фактически индивидуальным.
Не говоря уже о том, что мы полностью продумали всю техническую сторону — заранее заготовленные Jupyter-тетрадки, эффективная система коммуникаций для удаленных участников, онлайн-трансляции — все это помогает даже удаленным участникам общаться прямо на занятии с остальными ребятами.
Мы не учим Data Scientist'ов — мы готовим полноценных людей, которые могут решать бизнес-задачи с помощью аналитики.
Начало нового курса у нас 23 сентября. По вопросам проектов просим к нам в Студию Данных.
Комментарии (5)
feeeper
13.09.2019 10:47Расскажите, пожалуйста, на чём основаны ваши выводы?
Например, вы пишете
Банки — самые успешные кейсы в управлении рисков. В телекомах — это CRM/CBM, где вся бизнес-модель завязана на увеличение LTV абонентов.
Да, задачи сейчас решаются. Но, во-первых, ресурсов, которые были потрачены на решение этих задач, было потрачено неимоверное количество. Во-вторых, ни один аналитик не сможет обработать такое количество информации, которую учитывает модель машинного обучения или нейронная сеть.
Аналогично можно сказать про остальные пункты в ваших выводах.
Отчасти я согласен с вами, что сейчас существует некая проблема с тем, что каждый xgboost-аналитик/программист может называть себя Data Scientist-ом, но это иная проблема, которую решать надо по-другому. А "настоящие" Data Scientist-ы, как мне кажется, это как раз те самые аналитики но
"на стероидах", которые умеют в Python, xgboost, DL и прочее.
Sergey-S-Kovalev
13.09.2019 11:21Разница между Data Scientist и подростком в спорткаре
У второго очень богатые родители?
gnomeby
17.09.2019 11:13Проходил удалённо курсы в этой школе 2 года назад. И сам постепенно пришёл к тем же выводам, что в статье. Тогда ещё нам о положении дел в отрасли не рассказывали.
Точно знаю, что преподаватели большую часть времени не преподают, а решают реальные задачи бизнеса, поэтому они имеют право критиковать отрасль.
Поэтому в конце удивился комментариям и заминусованной статье. Но запасся попкорном, видимо будет интересное развлекалово.
superstarstas306
Здесь появилось желание бросить читать.
А вы в курсе, что аналитик и датасатанист (хорошие) в принципе занимаются разными вещами?
Вот здесь вообще лол. Серьезно? Пойдете на собеседование на условную «вакансию мечты» и будете там трясти своими софт скиллз?
Classic.
S_A
100%
Статья блаблабла. Ладно себя позиционируют как выпускающих этаких практиков дата аналитики, но зачем на других наезжать? И вообще всех «остальных» уравнивать одинаково?
Кто в сфере работает, а не просто изучает, знают всё это «сакральное». Да и девственно чистых дата-аналитиков в природе еще не появилось, у всех некоторое базовое предметное образование или прикладной опыт.
Короче, какой-то хреновый маркетинг. Тоже по выводам пройдусь.
1. «Технологии машинного обучения и нейросетей переоценены».
— их вообще невозможно оценивать. Либо модель работает и дает положительный экономический эффект, либо нет. Машинное обучение — один из способов моделирования, причем самый… экономически эффективный (при наличии данных).
2. «Методы машинного обучения канибализируют культуру аналитического мышления».
— аналитика конечно хорошо, но аналитика с моделью лучше. Если где-то проскакивают аналитику и сразу идут к модели — просто дольше натрахаются.
3. «Для достижения экономического эффекта… важнее soft-скиллы».
— звездеж, непонятно откуда взявшийся.
4. «Профессия Data Scientist'а — сильно переоценена».
— окей, берите аналитика, математика и программиста сразу вместо одного дата-саентиста. Подождите пока все поймут-разберутся, пока договорятся, пока один поймет что сделал другой и прочие накладные. Вот прям кровавый дата-энтерпрайз или галерный конвейер. Не работают они в дата-саенсе.