С ростом популярности и востребованности науки о данных ведется много обсуждений о том, что все можно автоматизировать: сравнение моделей, визуализацию, очистку данных. К старту флагманского курса о Data Science делимся мнением Senior Data Scientist в Favor Delivery, в которой он рассуждает, почему дата-сайентиста пока нельзя заменить машиной и именно специалисты представляют главную ценность.


Человек ставит проблемы

Изучая науку о данных, люди сосредотачиваются на программировании, разработке моделей, но главенствующая причина, почему руководить процессом должен человек заключается в том, как наука о данных должна работать в бизнесе и в продукте.

Важный шаг формирования бизнеса — постановка проблемы. Автоматизация не обнаружит проблему, не определит её чётко. Она может облегчить поиск решения, но, чтобы видеть дыры, чувствовать, что исправить, нужно понимать бизнес и подходить к делу творчески.

Поэтому проблемы должен ставить человек:

  • Автоматизация не понимает проблем, она не знает, что человеку [на этапе развития бизнеса] не рекомендуются продукты, исходя из его истории; автоматизация упустит проблему, решение которой — система рекомендаций. 

  • Автоматизация не расставит приоритеты, она не умеет самостоятельно оценивать труд, время, деньги, затронутые приложения и многое другое. 

  • Автоматизация не встречается с менеджерами по продуктам и не понимает болевые точки бизнеса.

Причины необходимости автоматизации трудно придумать.

Дата-сайентист исследует данные

Автоматизированное машинное обучение (AutoML) не начнёт с постановки проблемы и не знает, какие источники данных искать; оно объединяет данные, даёт конечный набор, но не обнаружит исходные данные до их подготовки.

Сравним AutoML и человека:

  • AutoML нужны данные, их собирает дата-сайентист. 

  • Дата-сайентист изучает ресурсы, источники и платформы, чтобы найти информацию и создать модель. 

  • AutoML будет сложно отправлять электронные письма компаниям и вообще знать, что искать: информацию о трафике, о потребителях или что-то иное.

Дата-сайентист создаёт признаки

Инженерия признаков (feature engineering) автоматизируется, однако этот термин взаимозаменяют и путают с feature creation — созданием признаков. Для целей статьи будем работать с термином feature creation. Воспользоваться преимуществами AutoML можно, но, чтобы понять, какие признаки создавать, нужно понимать бизнес, продукт и потребителей.

Ключевые моменты:

  • Дата-сайентисты знают, что два признака можно объединить, умножить или разделить: clicks и user представляются как clicks per user. 

  • Специалисты понимают, что признаки нужно группировать, когда это имеет смысл.

Возможно, AutoML попытается создать признак clicks per house: в него заложено, что делить признаки один на другой важно, но также AutoML может создать бессмысленный признак из-за непонимания бизнеса и отрасли.

В сравнении с признаком выше специалист в Data Science создал бы такой признак, как clicks per user grouped by zipcode, и он будет работать, а не просто лежать в модели; зная, что этот признак наиболее важен, вы создадите направленную на определённые характеристики маркетинговую кампанию.

Дата-сайентист понимает индустрию

Этот пример повторяет другие: Data Science нужен человек, который понимает бизнес:

  • В автоматическом режиме достаточно сложно узнать, какие типы моделей Data Science следует задействовать в зависимости от отрасли. 

  • Отрасли сильно отличаются друг от друга: алгоритм рекомендаций в здравоохранении может оказаться не столь полезным, как внутри киносервиса.

Дата-сайентист внедряет модель в продукт или в бизнес

Примеры выше сосредоточены вокруг первых этапов проекта Data Science, но последний посвящён завершающей стадии. Предположим, у вас есть лучшая автоматизированная платформа выбора модели с потрясающей точностью… но что она будет делать? Чтобы ответить на этот вопрос, необходим специалист в Data Science.

  • Автоматизация может зайти очень далеко, поэтому специалист знает, куда поместить результаты — в приложение, на сайт и т. д. 

  • Дата-сайентисты должны знать, с какой частотой обучать модель, показывать результаты или делать прогнозы — во многих случаях это обсуждается, когда изучаются данные и определяются задачи. 

  • Специалисты понимают, как эффективнее обобщить сложные результаты для заинтересованных сторон. Даже если результаты хорошо обобщены AutoML, отвечая на вопросы клиентов, заинтересованных сторон и руководства человек, например специалист в Data Science, окажется полезнее.

Итоги

Работа в середине процесса автоматизируется, а платформы для автоматизации невероятно полезны, но именно вы нужны, чтобы начать работу и закончить её. Я считаю, что должности в области науки о данных не будут сокращаться; напротив, со временем они будут обновляться.

Если вам интересно решать проблемы бизнеса с помощью данных, хотите научиться выявлять закономерности в них и создавать модели для решения конкретных задач в крупных технологических компаниях, обратите внимание на наш флагманский курс о Data Science. Или же узнайте, как прокачаться и в других востребованных специальностях:

Data и Machine Learning

Python, веб-разработка

Мобильная разработка

Java и C#

От основ — в глубину

А также:

Комментарии (10)


  1. EvilGenius18
    15.07.2021 21:14
    +1

    "… дата-сайентиста невозможно заменить программой"

    Я не знаю как сделать X, следовательно X — невозможно.
    Изумительная логика


    1. sunsexsurf
      15.07.2021 22:00

      Вам говорили о том, что отбор признаков (генерация) - это ни разу не просто. А уж обогащение датасета…


  1. aamonster
    15.07.2021 22:06
    +3

    Мне кажется, дата сайнтиста, всерьёз убеждающего, что его нельзя заменить на программу, пора заменять на другого дата сайнтиста.


    1. sergeim52b20
      16.07.2021 00:23

      Если нетрудно, приведите пару примеров, где DS заменили программой?


      1. aamonster
        16.07.2021 01:08
        +2

        Обратите внимание – я предлагал заменять не на программу, а на другого человека. Поясню:

        1. Грамотный д.с. и так будет использовать программы, чтобы максимально облегчить свой труд, так что он не опасается конкуренции с этой стороны.

        2. Если д.с. начал объяснять, почему нужен именно он – вероятно, он и сам чувствует свою некомпетентность (видит, что под ним стул шатается). И это не синдром самозванца.


  1. teology
    16.07.2021 03:15
    -1

    • Автоматизация не понимает проблем, она не знает, что человеку [на этапе развития бизнеса] не рекомендуются продукты, исходя из его истории; автоматизация упустит проблему, решение которой — система рекомендаций.

    • Автоматизация не расставит приоритеты, она не умеет самостоятельно оценивать труд, время, деньги, затронутые приложения и многое другое.

    • Автоматизация не встречается с менеджерами по продуктам и не понимает болевые точки бизнеса.

    Это все ложь и не аргументы.


  1. Nehc
    16.07.2021 11:22
    +1

    Значительная часть DS работает именно над тем, что бы научить машины делать их работу. ;) Пока получается не везде и не всегда, но вполне вероятно, что рано или поздно они добьются своего.


  1. DigitalBerd
    16.07.2021 12:05

    Странные комменты в ветке.

    ИМХО, даже самого лютого говнокодера невозможно эффективно полностью заменить программой - что уж говорить про дата сайнтиста.

    Можно подобрать и автоматизировать какие-нибудь наиболее часто встречаемые алгоритмы - но реальные дата сайнс задачи эти алгоритмы будут решать посредственно.

    Настоящий датасайнтист - это человек, который связывает реальный мир посредством накопленных данных со сложным математическим аппаратом.

    Тут нужно и хорошее понимание предметной области, и хорошее знание матиматики.


  1. SSSerg
    16.07.2021 14:06
    +1


  1. Groramar
    21.07.2021 17:46

    Где-то я это уже слышал... Много раз, ах, да...

    ИИ никогда не заменит человека. Для начала пусть хотя бы обыграет его в шахматы.

    Deep Blue обыграл чемпиона мира в шахматы

    ИИ никогда не заменит человека. Для начала пусть хотя бы обыграет его в Go.

    Alpha GO обыграл чемпиона мира в Go.

    ИИ никогда не заменит дата саентиста...