С ростом популярности и востребованности науки о данных ведется много обсуждений о том, что все можно автоматизировать: сравнение моделей, визуализацию, очистку данных. К старту флагманского курса о Data Science делимся мнением Senior Data Scientist в Favor Delivery, в которой он рассуждает, почему дата-сайентиста пока нельзя заменить машиной и именно специалисты представляют главную ценность.
Человек ставит проблемы
Изучая науку о данных, люди сосредотачиваются на программировании, разработке моделей, но главенствующая причина, почему руководить процессом должен человек заключается в том, как наука о данных должна работать в бизнесе и в продукте.
Важный шаг формирования бизнеса — постановка проблемы. Автоматизация не обнаружит проблему, не определит её чётко. Она может облегчить поиск решения, но, чтобы видеть дыры, чувствовать, что исправить, нужно понимать бизнес и подходить к делу творчески.
Поэтому проблемы должен ставить человек:
Автоматизация не понимает проблем, она не знает, что человеку [на этапе развития бизнеса] не рекомендуются продукты, исходя из его истории; автоматизация упустит проблему, решение которой — система рекомендаций.
Автоматизация не расставит приоритеты, она не умеет самостоятельно оценивать труд, время, деньги, затронутые приложения и многое другое.
Автоматизация не встречается с менеджерами по продуктам и не понимает болевые точки бизнеса.
Причины необходимости автоматизации трудно придумать.
Дата-сайентист исследует данные
Автоматизированное машинное обучение (AutoML) не начнёт с постановки проблемы и не знает, какие источники данных искать; оно объединяет данные, даёт конечный набор, но не обнаружит исходные данные до их подготовки.
Сравним AutoML и человека:
AutoML нужны данные, их собирает дата-сайентист.
Дата-сайентист изучает ресурсы, источники и платформы, чтобы найти информацию и создать модель.
AutoML будет сложно отправлять электронные письма компаниям и вообще знать, что искать: информацию о трафике, о потребителях или что-то иное.
Дата-сайентист создаёт признаки
Инженерия признаков (feature engineering) автоматизируется, однако этот термин взаимозаменяют и путают с feature creation — созданием признаков. Для целей статьи будем работать с термином feature creation. Воспользоваться преимуществами AutoML можно, но, чтобы понять, какие признаки создавать, нужно понимать бизнес, продукт и потребителей.
Ключевые моменты:
Дата-сайентисты знают, что два признака можно объединить, умножить или разделить: clicks и user представляются как clicks per user.
Специалисты понимают, что признаки нужно группировать, когда это имеет смысл.
Возможно, AutoML попытается создать признак clicks per house: в него заложено, что делить признаки один на другой важно, но также AutoML может создать бессмысленный признак из-за непонимания бизнеса и отрасли.
В сравнении с признаком выше специалист в Data Science создал бы такой признак, как clicks per user grouped by zipcode, и он будет работать, а не просто лежать в модели; зная, что этот признак наиболее важен, вы создадите направленную на определённые характеристики маркетинговую кампанию.
Дата-сайентист понимает индустрию
Этот пример повторяет другие: Data Science нужен человек, который понимает бизнес:
В автоматическом режиме достаточно сложно узнать, какие типы моделей Data Science следует задействовать в зависимости от отрасли.
Отрасли сильно отличаются друг от друга: алгоритм рекомендаций в здравоохранении может оказаться не столь полезным, как внутри киносервиса.
Дата-сайентист внедряет модель в продукт или в бизнес
Примеры выше сосредоточены вокруг первых этапов проекта Data Science, но последний посвящён завершающей стадии. Предположим, у вас есть лучшая автоматизированная платформа выбора модели с потрясающей точностью… но что она будет делать? Чтобы ответить на этот вопрос, необходим специалист в Data Science.
Автоматизация может зайти очень далеко, поэтому специалист знает, куда поместить результаты — в приложение, на сайт и т. д.
Дата-сайентисты должны знать, с какой частотой обучать модель, показывать результаты или делать прогнозы — во многих случаях это обсуждается, когда изучаются данные и определяются задачи.
Специалисты понимают, как эффективнее обобщить сложные результаты для заинтересованных сторон. Даже если результаты хорошо обобщены AutoML, отвечая на вопросы клиентов, заинтересованных сторон и руководства человек, например специалист в Data Science, окажется полезнее.
Итоги
Работа в середине процесса автоматизируется, а платформы для автоматизации невероятно полезны, но именно вы нужны, чтобы начать работу и закончить её. Я считаю, что должности в области науки о данных не будут сокращаться; напротив, со временем они будут обновляться.
Если вам интересно решать проблемы бизнеса с помощью данных, хотите научиться выявлять закономерности в них и создавать модели для решения конкретных задач в крупных технологических компаниях, обратите внимание на наш флагманский курс о Data Science. Или же узнайте, как прокачаться и в других востребованных специальностях:
Data и Machine Learning
Python, веб-разработка
Мобильная разработка
Java и C#
От основ — в глубину
А также:
Комментарии (10)
aamonster
15.07.2021 22:06+3Мне кажется, дата сайнтиста, всерьёз убеждающего, что его нельзя заменить на программу, пора заменять на другого дата сайнтиста.
sergeim52b20
16.07.2021 00:23Если нетрудно, приведите пару примеров, где DS заменили программой?
aamonster
16.07.2021 01:08+2Обратите внимание – я предлагал заменять не на программу, а на другого человека. Поясню:
Грамотный д.с. и так будет использовать программы, чтобы максимально облегчить свой труд, так что он не опасается конкуренции с этой стороны.
Если д.с. начал объяснять, почему нужен именно он – вероятно, он и сам чувствует свою некомпетентность (видит, что под ним стул шатается). И это не синдром самозванца.
teology
16.07.2021 03:15-1Автоматизация не понимает проблем, она не знает, что человеку [на этапе развития бизнеса] не рекомендуются продукты, исходя из его истории; автоматизация упустит проблему, решение которой — система рекомендаций.
Автоматизация не расставит приоритеты, она не умеет самостоятельно оценивать труд, время, деньги, затронутые приложения и многое другое.
Автоматизация не встречается с менеджерами по продуктам и не понимает болевые точки бизнеса.
Это все ложь и не аргументы.
Nehc
16.07.2021 11:22+1Значительная часть DS работает именно над тем, что бы научить машины делать их работу. ;) Пока получается не везде и не всегда, но вполне вероятно, что рано или поздно они добьются своего.
DigitalBerd
16.07.2021 12:05Странные комменты в ветке.
ИМХО, даже самого лютого говнокодера невозможно эффективно полностью заменить программой - что уж говорить про дата сайнтиста.
Можно подобрать и автоматизировать какие-нибудь наиболее часто встречаемые алгоритмы - но реальные дата сайнс задачи эти алгоритмы будут решать посредственно.
Настоящий датасайнтист - это человек, который связывает реальный мир посредством накопленных данных со сложным математическим аппаратом.
Тут нужно и хорошее понимание предметной области, и хорошее знание матиматики.
Groramar
21.07.2021 17:46Где-то я это уже слышал... Много раз, ах, да...
ИИ никогда не заменит человека. Для начала пусть хотя бы обыграет его в шахматы.
Deep Blue обыграл чемпиона мира в шахматы
ИИ никогда не заменит человека. Для начала пусть хотя бы обыграет его в Go.
Alpha GO обыграл чемпиона мира в Go.
ИИ никогда не заменит дата саентиста...
EvilGenius18
Я не знаю как сделать X, следовательно X — невозможно.
Изумительная логика
sunsexsurf
Вам говорили о том, что отбор признаков (генерация) - это ни разу не просто. А уж обогащение датасета…