Сооснователь компании Gramener, занятой в Data Science, рассказывает о 8 заблуждениях в ML в форме вопросов и утверждений. По его словам, в начале карьеры эти заблуждения подобны гранатам, которые могут бросить в вас. Инструкцией по безопасности делимся к старту флагманского курса по Data Science.


Сегодня наблюдается взрыв интереса к науке о данных. Достаточно вставить теги «Powered-by-AI» — и всё, можно продавать. Но именно здесь начинаются проблемы. Коммерческие предложения в области науки о данных часто обещают Луну с неба. Клиенты поднимают ожидания на ступеньку выше и запускают свои «лунные» проекты. В конечном счёте, именно Data Scientist может доставить людей на Луну или оставить их на мели. Погрузимся в фантастический мир ожиданий от проектов в области науки о данных и выясним, какими бывают заблуждения у бизнеса.

Все модели ошибочны, но некоторые полезны (Джордж Бокс)

1. Мы хотим модель ИИ. Вы постройте её, чтобы решить именно эту проблему?

Большинство отраслевых проблем в аналитике решается разведочным анализом данных. Позвольте даже не начинать о том, почему ИИ бывает излишеством. Зачем стрелять из пушки по воробьям?

Да, продвинутая аналитика — это круто. Бизнес любит говорить, что он первым в своей отрасли внедрил новейшую технологию. А кто из поставщиков не хочет похвастаться проектом ИИ? Но необходимо научить клиентов называть случаи, действительно требующие тяжёлой артиллерии арсенала ML. Что касается остального, убедите клиентов, показывая ценность разведочного анализа данных, статистики, других проверенных методов.

Безусловно, наибольшая опасность искусственного интеллекта заключается в том, что люди слишком рано заключают, что понимают его (Элиезер Шломо Юдковский)

2. Возьмите эти данные — верните нам инсайты

Часто клиенты думают, что их ответственность заканчивается на передаче данных. Некоторые даже останавливаются на определении проблемы, но об этом мы поговорим в пункте 4! Они просят аналитиков взять данные и представить им колоду сокрушительных бизнес-проектов, в одночасье меняющих организацию.

К сожалению, придумать действенные рекомендации для бизнеса в одиночку нельзя. Процесс требует непрерывных итераций и продуктивных диалогов с бизнес-пользователями о том, что актуально и действенно для них. Планируйте время, чтобы общаться с людьми из бизнеса периодически на протяжении всего проекта.

Если вы не знаете, как задать правильный вопрос, то ничего не откроете (В. Эдвардс Деминг)

3. Постройте модель, анализ можно выбросить

Многие специалисты Data Science упускают из виду обработку данных и разведочный анализ. Поэтому они не видят риска, когда клиенты просят вычеркнуть «ненужный анализ» из критически важных операций, чтобы сэкономить драгоценное время.

Исследование и анализ данных являются обязательными предварительными этапами машинного обучения и всех других передовых методов. Не прочувствовав данные, не обнаружив выбросов и не выявив глубинных закономерностей, модели лишь стреляют в темноте. Всегда выделяйте время для анализа и делитесь с клиентами интересными результатами.

Алхимики в поисках золота открыли множество других, более ценных вещей (Артур Шопенгауэр)

4. У нас есть данные последнего месяца. Возможен прогноз на полгода?

Вот это любят все Data Scientist… Клиенты собирают несколько строк данных в электронных таблицах. И ждут, что ИИ сотворит магию «хрустального шара», заглянув в будущее. Иногда это становится странным, когда клиенты признаются, что у них нет данных, а затем искренне интересуются, может ли машинное обучение восполнить пробелы.

Качество и объём данных не подлежат обсуждению. Принцип "мусор на входе — мусор на выходе" хорошо применим к аналитике. Статистические методы помогут извлечь больше, когда у вас меньше. Например, вменение данных недостающие точки, smote (техника избыточной выборки синтетического меньшинства) для генерации данных или использование упрощённых моделей при малых объёмах. Но это требует снизить ожидания клиента в смысле итогов проекта и модели.

Производительность методов аналитики в зависимости от объёма данных. От Эндрю Ына
Производительность методов аналитики в зависимости от объёма данных. От Эндрю Ына

5. Вы можете закончить за пару недель?

В любом важном проекте результат нужен вчера, даже если старт планировали сегодня. В спешке, когда сроки проекта срываются, частая жертва — этап разработки модели. При свободном доступе к API моделей и лёгком доступе к вычислениям на GPU клиенты задаются вопросом, что тормозит работу Data Scientist.

Несмотря на достижения в Auto-ML, в процессе моделирования не обойтись без работы руками. Специалисты Data Science должны изучать статистические результаты, сравнивать модели и проверять интерпретации, часто в ходе мучительных итераций. Автоматизировать это нельзя. По крайней мере пока. Лучше всего рассказать клиентам о жизненном цикле науки о данных, показать, что можно упустить из-за пропуска этапов.

Моделирование — это отчасти искусство, отчасти эксперименты, а значит, определяемые этапами планы могут быть слишком точны.

6. Вы можете просто заменить переменную результата, чтобы модель обновилась?

После решения проблемы моделирования часто появляются новые запросы. Иногда они просят заменить переменную результата и быстро обновить результаты повторным запуском модели. Клиенты не понимают, что такие изменения не просто перемещают ворота: футбол превращается в баскетбол.

Хотя машинное обучение по природе весьма итеративно, основная задача — выбрать правильные факторы влияния для данной переменной результата и определить их взаимосвязь. Клиенты должны заранее знать о том, как это работает, и о своих рычагах влияния. Предупредите о параметрах, требующих тщательного предварительного планирования, а также о том, как всё будет выглядеть, если изменять эти параметры вне определённых этапов.

7. А можно достичь точности в 100 %?

Люди часто зацикливаются на коэффициентах ошибок. Подобно слепой погоне за оценками по тестам, клиенты хотят, чтобы точность была близка к 100 %. Это начинает тревожить, когда точность становится единственной целью, превосходящей все оставшиеся факторы. Насколько это полезно — построить высокоточную модель, которая слишком сложна, чтобы работать в проекте?

Получившая приз в миллион долларов Netflix Prize модель с самой высокой точностью так и не была запущена в эксплуатацию: её огромная сложность означала большие затраты на инженерию, а модель с более низкой точностью была принята в эксплуатацию. В бизнесе всегда балансируйте между точностью и простотой, стабильностью и интерпретируемостью. Это требует решительных компромиссов и суждений, требует впустить клиента в круг доверия.

Проектирование модели: достижение комфортного баланса и компромиссов
Проектирование модели: достижение комфортного баланса и компромиссов

8. А можно сделать вечную модель?

После напряжённой работы создания и тестирования моделей клиенты задаются вопросом, научилась ли машина всему, что ей нужно. Частый вопрос — сможет ли она и дальше принимать разумные решения и адаптироваться ко всем будущим изменениям в динамике бизнеса?

К сожалению, машины не учатся всю жизнь. Модели нужно обучать, постоянно и терпеливо. Они нуждаются в быстрой переподготовке каждые несколько недель или месяцев, подобно ученику, у которого трудности в школе. Тем более, когда меняется контекст. Именно в таком состоянии находится сегодня отрасль аналитики, хотя она быстро развивается. Поэтому пока выделяйте время и силы на терпеливое обновление и обслуживание модели.

Заключение

Почти все вышеперечисленные заблуждения подпитываются недостатком осведомлённости и неверно расставленными приоритетами в рамках проекта. В конце концов, каждый клиент и бизнес-команда работают в условиях жёстких сроков, ограниченных бюджетов и не самых лучших потоков данных. Data Scientist должны уметь сопереживать клиентам и понимать истинную причину этих разногласий. Это позволит им просветить заинтересованные стороны и привести примеры, чтобы донести свою точку зрения. Команды Data Science должны сочетать мягкое побуждение и компромиссы, принимать решения, которые не ставят результаты под угрозу.

Жизненный цикл проекта Data Science
Жизненный цикл проекта Data Science

Data Science — это не только код и данные; прежде всего наука о данных — это тонкая работа с людьми. И если вам интересна эта сфера, то можете обратить внимание на программу флагманского курса или курса по аналитике данных, где научитесь решать проблемы бизнеса; также вы можете посмотреть, как мы готовим специалистов в других направлениях:

Data Science и Machine Learning

Python, веб-разработка

Мобильная разработка

Java и C#

От основ — в глубину

А также:

Комментарии (13)


  1. Molozey
    10.09.2021 22:35
    +2

    Какая-то у Вас неправильная «зазывайка»


    1. nin-jin
      11.09.2021 07:44

      Лендинги бы заверстать нормально...
      Лендинги бы заверстать нормально...

      Они ещё и тормозят адски. Наверно нейронками анализируют мои паттерны поведения.


      1. FreeNickname
        11.09.2021 08:25
        +2

        Поехавшая (судя по всему?) вёрстка в рекламе курса по, в том числе, frontend – это, конечно, иронично :)


        1. nin-jin
          11.09.2021 08:39
          +1

          Коллекция трекеров - вообще топчик.
          Коллекция трекеров - вообще топчик.


          1. nin-jin
            11.09.2021 09:12
            +3

            1. nin-jin
              11.09.2021 09:19
              +1

              1. mSnus
                11.09.2021 23:10

                Там даже есть список курсов, без ошибок! И константы шашлык!!

                Они что там, не знают, что шашлык слишком волатилен, чтобы объявлять его константой?


            1. Mojsha Автор
              11.09.2021 12:38

              Обязательно всё поправим, спасибо


    1. Mojsha Автор
      11.09.2021 12:33

      Спасибо, передали скрин


  1. DesertFlow
    11.09.2021 09:16
    +1

    Самый большой облом от нейросетей — что поначалу кажется, будто можно дать нейросети набор данных, в котором вы точно знаете что есть решение, и она его обязательно найдет. Но на практике это не так. В этих данных, которые для нейросети чаще всего выглядят как случайные числа (ведь если было бы понятно как извлечь из них нужные для решения данные, то вы это сделали бы более простыми способами), обычно оказывается куча других псевдокорреляций, на которых градиентному спуску сойтись намного проще. Кроме того, решение должно быть дифференцируемое, то есть при небольших изменениях его параметров, результат тоже должно меняться слабо. Иначе с большой вероятностью алгоритм не сойдется.


    Но больше всего раздражают глупые ошибки обученной нейросети. Глупые с нашей точки зрения, конечно, потому что мы ориентируемся на логику. Ну как можно перепутать человека и стол, например? Но для нейросети это просто цифры, увеличиваемые и уменьшаемые по мере прохождения от входа к выходу, и отсекаемые при некотором пороге (именно это даёт нелинейность и позволяет нейросетям решать сложные задачи). В итоге при проектировании нейросети приходится рассматривать задачу как потоки информации, текущие по слоям. Где-то приходится их специально разъединять, чтобы лучше выделить, а потом объединять обратно. Где-то усиливать, добавлять внутренних детекторов или временно увеличивать ёмкость сети на этом слое. А где-то наоборот, сужать канал, вводя бутылочное горлышко bottleneck, чтобы через него могла протиснуться только нужная информация, и тем самым отфильтроваться от шума. Определять размер этого бутылочного горлышка то ещё приключение. Надо знать специфику задачи и примерный объем полезной информации для ее решния. Сделаешь шире — просочатся шумы, которые потом ложной корреляцией приведут к ошибкам. Сделаешь уже — и система просто не сможет решить задачу из-за недостатка информации.


    Я уж не говорю о случаях, когда по всей теории и со всеми триками должно работать, но оно… почему-то не работает) К счастью, и обратные примеры бывают. Когда работает лучше, чем ожидаешь. Все это довольно сильно отличается от первоначальных ожиданий и от образа нейросетей, сформированного СМИ, когда только приходишь в эту область (и да, машинное обучение это не только нейросети, старые методы, вроде деревьев решений, тоже активно используются). Причем даже если вы были знакомы с мат. аппаратом нейросетей ещё 20 лет назад, это не сильно помогает. Объемы и методы в современном машинном обучении кардинально отличаются от тех, что были тогда. Так что опытные нейросетевики и абсолютные новички, в плане необходимости обучения тому как там сейчас все устроено, оказываются практически в равном положении. Но потенциальный потенциал...! Ради него нейросетям можно простить все)


  1. iiwabor
    11.09.2021 10:05
    +4

    Мое самое большое разочарование в алгоритмах ИИ - это то, как, например, Яндекс-Дзен, проанализировав статьи, которые я смотрел, подсовывает мне такие рекомендуемые статьи, словно считает меня клиническим идиотом... Или в директ-рекламе тупо показывает мне товары, которые я раньше смотрел на Озоне, словно считает меня забывчивым склеротиком... Обидно...


    1. pankraty
      11.09.2021 22:39

      О да, и рекомендательные системы, что в музыке, что на ютьюбе, бесконечно подсовывывающие одно и то же. Блин, у вас есть вся история просмотра, дайте мне что-нибудь новенькое, но не отстоящее на 180 градцсов от плиз интересов! Нет, тебя держат в коконе, рекомендуя одних и тех же "понравившихся исполнителей" и "видео с каналов, которые вы смотрели"


    1. light_and_ray
      13.09.2021 23:25

      О да, мне всегда начинают рекомендовать какие-то товары как раз после того, как я его купил, и он мне уже точно не нужен