Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.


Всякий организм существует в океане информации, поступающей через его органы чувств. От того, насколько хорошо он умеет её собирать и обрабатывать, зависит его успех в голодных играх эволюции. Человека царём зверей сделало не прямохождение и не отстоящий большой палец — его киллер-фичей стала эффективность обработки данных.

Помимо оперативных данных («Насколько быстро на меня бежит вот этот мамонт?»), человек умеет работать с абстрактной разрозненной информацией, систематизировать её, строить модели, делать выводы. Ещё в древние времена люди научились выстраивать логические связки. Например, сопоставлять цвет ягоды и её съедобность. Те, кому это удавалось лучше, чаще выживали, оставляли больше потомства и в итоге стали предками современных дата-сайентистов. 

Сегодня мир буквально состоит из информации. На её сборе и обработке сколачиваются целые состояния. Гигантские компании всеми правдами и неправдами стремятся узнать о вас как можно больше — не потому, что им интересны ваши личные секреты, а потому, что данные — новая нефть. Мировой рынок больших данных уже достиг объёма в 121 млрд долларов в 2022 году, и это наверняка не предел.

После такого эпического вступления самое время познакомиться с нашими героями — аргонавтами информационного океана. Кто же скрывается за таинственными аббревиатурами, перечисленными в заголовке?

Аналитик данных

Среди своих собратьев аналитик данных (Data Analyst, DA) — безусловно, перворождённый. Задачи анализа данных существуют столько же, сколько сами данные. Однако эффективные методы их решения появились лишь с изобретением математической статистики.

Если математика — царица всех наук, то математическая статистика — царица Data Science. Она позволяет, имея набор данных, проверить, насколько он соответствует той или иной модели. А подобрав верную модель, можно из неё делать интересные и полезные выводы.

Забавный пример из истории — эксперимент Фишера.

О том, как заваривать чай, в Англии спорят не одно столетие. Некоторые говорят, что правильнее сперва наливать молоко, а затем сам чай. Другие утверждают обратное. Муриэль Бристоль, знакомая английского учёного Рональда Фишера, утверждала, что способна отличить чай, приготовленный способом «сначала молоко», от чая, приготовленного способом «сначала чай». Но как проверить это утверждение?

Можно принести леди две чашки чая, приготовленные разными способами, и предложить угадать, какая из них какая. Однако если даже леди угадает верно, будет ли это достаточным доказательством? Даже если выбирать случайно, есть 50% вероятность успеха. Фишер предложил следующий эксперимент: леди Бристоль предлагалось продегустировать восемь чашек, четыре из которых были приготовлены одним методом, а четыре оставшиеся — другим. Леди сумела верно определить способ приготовления для всех восьми чашек. Насколько это весомое доказательство?

Существует 70 способов выбрать четыре чашки из восьми. Таким образом, вероятность попадания методом тыка для леди Бристоль равна 1/70, или примерно 1,4%. Вероятность, что данный результат эксперимента получился случайно, называется p-value. В современной науке считается, что если p-value меньше 5%, то эксперимент достаточно убедителен. Для сравнения: если бы леди Бристоль было разрешено допустить одну ошибку, вероятность случайного успеха равнялась бы 17/70, или приблизительно 24,3%. Такой результат уже вполне можно списать на удачу.

Эксперимент Фишера — это, в сущности, первый описанный кейс A/B-тестирования. Конечно, в A/B-тестах вместо одинокой леди Бристоль широкая пользовательская аудитория, а вместо угадывания — колебания разнообразных бизнес-метрик. Но, например, если дизайнер утверждает, что новая форма кнопки улучшит конверсию страницы, именно наработки Фишера помогут обосновать (или опровергнуть) его правоту.

Основная задача классической статистики — делать выводы о генеральной совокупности на основе ограниченных выборок. Позже, в 1962 году Джон У. Тьюки в своей книге «Будущее анализа данных» выделил анализ данных в отдельную научную дисциплину с более широкими задачами. Тьюки, в частности, ввёл понятие «разведочный анализ данных». Если по-простому — в любом аналитическом проекте сперва стоит «посмотреть на данные», чтобы понять, как работать с ними дальше. Именно Тьюки ввёл в обиход диаграмму «Ящик с усами», или Boxplot. Визуализация данных и их обобщение позволяют получить ценное «интуитивное» понимание данных.

Качество данных

Прежде чем делать выводы, неплохо бы приглядеться — из чего именно. Идеальные данные бывают лишь в идеальном мире, реальные датасеты нуждаются в предварительной проверке, фильтрации, коррекции. Проверка обычно делится на две большие области:

  1. В процессе разведочного анализа выявляются аномалии, пропуски, дубли, ошибки ввода и нарушения структуры.

    Дубли — это когда в датасет некоторые записи попадают многократно, такие данные бесполезны и отфильтровываются до начала анализа.

    Ошибками ввода называют случаи, когда в поля, предназначенные для одних данных, попадают другие: это может быть следствием некорректного чтения файла или небрежностью человека-оператора.

    Частный случай ошибки ввода — пропущенные данные. Отдельные пустые поля можно заменить, например, средним значением или медианой, чтобы не терять информацию, содержащуюся в других полях записи.

    Также могут встречаться аномалии: данные, резко отличающиеся от остальных. Это могут быть как недостоверные данные, попавшие в датасет по ошибке, так и реальные кейсы, которые просто не характерны для общей картины. Детектирование аномалий — непростая и даже творческая задача: что считать аномалией и как с ней поступать, приходится решать отдельно в каждом конкретном случае.

  2. Анализ методики сбора данных на предмет систематических искажений. Такие искажения могут быть незаметны в самих данных, но существенно повлиять на выводы.

Известный пример такого искажения — «парадокс выжившего».

Во время Второй мировой войны для снижения потерь американские ВВС решили оснастить самолёты дополнительной бронёй. Поскольку для самолёта важен вес, броню планировали добавить только в наиболее уязвимых местах. 

Задача выявить такие места была поручена венгерскому математику Абрахаму Вальду из Колумбийского университета. Вальд собрал данные о попаданиях из различных типов оружия в разные части фюзеляжа и оценил вероятности критического поражения в каждом из кейсов. Однако в процессе Вальд пришёл к выводу, что оценивать эти вероятности на основе одних лишь наблюдений некорректно. Самолёты, получившие наиболее сильные повреждения, не возвращались из боя. Вальд оценил вклад такой систематической ошибки и заключил, что защищать необходимо места, куда почти не было попаданий у вернувшихся самолётов — именно потому, что они смогли вернуться. 

Отчёт

Результат работы аналитика данных — это отчёт, где в том или ином виде сформулированы некоторые выводы. Раскрыть информацию, содержащуюся в данных, помогают визуализация в виде схем и графиков. Данные могут обновляться динамически, поэтому аналитики строят интерактивные дашборды. Это специальные инструменты, которые позволяют отображать имеющиеся данные в реальном времени, и пользователь всегда имеет доступ к актуальной информации в «человекочитаемом» виде. 

Пример дашборда с данными о количестве заболеваний SARS-Covid 2 был доступен на главной странице Яндекса в разгар пандемии
Пример дашборда с данными о количестве заболеваний SARS-Covid 2 был доступен на главной странице Яндекса в разгар пандемии

Современные инструменты визуализации позволяют не только дать пользователю конечные выводы, но и рассказать историю, показать весь путь решения. Такой приём называется «сторителлинг». Хороший пример сторителлинга — вот такой интерактивный дашборд, рассказывающий историю нескольких беженцев из Италии с помощью данных.

Скиллы

Аналитик должен уметь преобразовать данные в удобный ему формат. Для этого желательно знания языков программирования. В Data Science стандартом де-факто является Python, — впрочем, другие языки тоже могут сгодиться. Кроме того, данные часто содержатся в специализированных хранилищах и для их извлечения необходимо знать соответствующий язык запросов — например, SQL в случае реляционных баз данных. Для представления результатов своей работы используют BI-инструменты, такие как Tableau или DataLens. Кроме того, не стоит забывать про мат. статистику — царицу Data Science.

Кроме хард-скиллов, ценятся аналитические способности, а также коммуникативные навыки. К последним можно отнести умение презентовать свои выводы и грамотно объяснять сложные технические концепции людям без соответствующего бэкграунда. Если аналитик сделал важное открытие, но не смог его объяснить или убедить в его важности, толку от него мало. И конечно же, важно внимание к деталям и умение думать outside the box. Всегда помните о парадоксе выжившего!

Дата-сайентист

Дата-сайентист занимается исследованием данных средствами машинного обучения. Есть обширный класс задач, которые нецелесообразно поручать аналитику-человеку. Например, когда слишком много входных параметров. Или когда закономерность в данных слишком неочевидна, чтобы сходу сформулировать гипотезу (чем с математической точки зрения изображение котика отличается от изображения пёсика?). Или когда нужно уметь быстро приспосабливаться к изменению условий задачи (аналитик полгода строил модель, определяющую пёсиков по набору пикселей, а от него требуют научиться распознавать лягушек, желательно — вчера).

Компьютер глупее человека в плане эвристических способностей, однако он быстрее и способен оперировать бо́льшим объёмом данных. Можно научить компьютер формулировать и перебирать гипотезы определённого класса, надеясь, что одна из них подойдёт к данным достаточно точно. Такой перебор (хорошо оптимизированный и математически обоснованный) и называется машинным обучением.

В качестве примера рассмотрим самые распространённые задачи машинного обучения — регрессию и классификацию.

Регрессия

Задача нахождения взаимосвязи между целевой переменной и сопутствующими факторами называется регрессией. Этот термин в 1886 году ввёл английский исследователь Фрэнсис Гальтон. Гальтон изучал зависимость роста детей от роста родителей. Он выяснил, что дети высоких отцов в среднем ниже их, хотя и выше детей, родители которых не такие рослые. Этот статистический феномен Гальтон назвал «регрессия к среднему» (от латинского regressio — «обратное движение»). В дальнейшем термин «регрессия» стал использоваться и для других подобных задач — даже в случае, если никакого «обратного движения» в них не происходит.

Иллюстрация Фрэнсиса Гальтона 1886 года, демонстрирующая корреляцию между ростом взрослых детей и их родителей. Наблюдение заключается в том, что рост взрослых детей обычно отклоняется от среднего роста меньше, чем у их родителей
Иллюстрация Фрэнсиса Гальтона 1886 года, демонстрирующая корреляцию между ростом взрослых детей и их родителей. Наблюдение заключается в том, что рост взрослых детей обычно отклоняется от среднего роста меньше, чем у их родителей

Гальтоновская регрессия к среднему — не столько биологический, сколько статистический феномен. Чтобы проиллюстрировать это, можно провести следующий мысленный эксперимент

Мысленный эксперимент

Предположим, есть большое количество студентов с одинаковым уровнем знаний. Дадим им пройти тест. Положим, их средняя оценка — 50 баллов. Мы хотим проверить инновационную (и абсолютно бесполезную) методику обучения. Для этого возьмём подгруппу студентов, которые набрали менее 30 баллов в этом тесте, и будем их обучать по «инновационной» методике, а затем проведём ещё один тест. В подгруппе испытуемых средний балл по второму тесту окажется примерно 50 баллов, поскольку знания у всех студентов одинаковые, и бесполезная методика этого факта не меняет. Так как изначальный средний результат в этой подгруппе был ниже 50, возникает большой соблазн заключить, что новая методика обучения эффективна, хотя в действительности мы просто наблюдаем регрессию к среднему. Оценки студентов из выбранной подгруппы оказались экстремально низкими в конкретно взятый момент, однако при дальнейших испытаниях они возвращаются к своему мат. ожиданию.

Регрессия к среднему: величина возвращается к мат. ожиданию (константе)
Регрессия к среднему: величина возвращается к мат. ожиданию (константе)

Однако вернёмся к математической задаче регрессии. В общем виде это попытка приблизить интересующую нас величину некоторой функцией от входных данных. Важный частный случай, часто встречающийся в машинном обучении, — линейная регрессия, когда искомая функция линейная. Иначе говоря, если мы предполагаем зависимость от факторов x и y, то ищем функцию вида ax + by + c, где a, b, c — неизвестные коэффициенты, которые необходимо подобрать так, чтобы функция лучше всего приближала прогнозируемую величину.

Линейные регрессии применялись ещё Лежандром и Гауссом в начале XIX века. И Гаусс, и Лежандр использовали метод линейной регрессии для понимания орбит комет на основе неточных измерений их предыдущих местоположений. 

Один из первых датасетов, использовавшийся для построении линейной регрессии
Один из первых датасетов, использовавшийся для построении линейной регрессии

В машинном обучении линейная регрессия — один из базовых методов прогнозирования. Существуют специальные методики, позволяющие оптимизировать подбор коэффициентов вместо того, чтобы тупо перебирать все возможные комбинации или пытаться вычислить оптимальные параметры аналитически. Более продвинутые машинные модели (в том числе нейросети) используют комбинации линейных и нелинейных функций, которые позволяют приблизить более сложные закономерности, но методика там та же.

Классификация

Ещё одной распространённой задачей машинного обучения является классификация — распределение объектов по конечному числу заранее заданных классов. Классификацию тоже можно рассматривать как предсказание величины, но не непрерывной, как в случае регрессии, а дискретной, принимающей одно из N значений. 

Одна из старейших задач этой категории — классификация ирисов. Датасет для неё был составлен нашим старым знакомым Рональдом Фишером (помните эксперимент с чаем?). В датасете содержится 150 записей о цветках трёх типов: ирис щетинистый, ирис виргинский и ирис разноцветный. Также присутствуют факторы: длина и ширина наружной и внутренней доли околоцветника. Датасет до сих пор является каноничным для испытания методов классификации и по умолчанию присутствует во многих статистических пакетах. Например, он есть в scikit-learn.

На основе этих факторов предлагается построить алгоритм классификации цветков. Фишер решил задачу при помощи линейного дискриминантного анализа — аналога линейной регрессии в применении к задаче классификации. Суть его заключается в подборе такой линейной функции от факторов, чтобы её линии уровня наиболее чётко разделяли категории. Скажем, если значение функции лежит в диапазоне от 0 до 1, то цветок классифицируется как ирис щетинистый, если от 1 до 2 — виргинский, более 2 — разноцветный.

Линейный дискриминантный анализ также применяется в машинном обучении, однако есть и более сложные методы. Например, дата-сайентисты умеют автоматически строить деревья решений, представляющие собой набор правил, при каких значениях факторов к какому классу стоит отнести конкретный пример. Впрочем, отдельные деревья зачастую обладают недостаточной предсказательной силой, поэтому сейчас в основном используются ансамбли деревьев и бустинги — комплексные модели, состоящие из множества небольших слабых моделей. На основании отдельных прогнозов этих моделей формируется итоговый прогноз, который получается более точным, чем у каждого дерева самого по себе.

Ещё один популярный метод решения задач машинного обучения — нейронные сети. Их применение началось ещё в 1948 году, когда американские ученые Уоррен Мак-Каллок и Уолтер Питтс предложили понятия «искусственный нейрон» и «искусственная нейронная сеть». Уже в 1960 году Фрэнк Розенблатт разработал нейронную сеть Марк-1, которая могла распознавать некоторые буквы латинского алфавита. Можно сказать, Розенблатт решал задачу классификации изображений. На фотографии ниже показано, как был устроен ввод данных. Напечатанный символ освещался мощными лампами, а изображение фокусировалось на массив из 20x20 фотоэлементов, образуя изображение из 400 пикселей. У перцептрона был всего один скрытый слой, фотоэлементы подключались к нему случайным образом. Так удалось продемонстрировать возможность перцептрона обучаться без необходимости предварительной точной настройки. Настройка весов слоя была реализована с помощью регулируемого вращающегося резистора, также называемого потенциометром. Он приводился в движение электрическим двигателем, что позволяло автоматически настраивать значение веса с помощью алгоритма обучения.

Фрэнк Розенблатт и его перцептрон, способный распознавать буквы латинского алфавита
Фрэнк Розенблатт и его перцептрон, способный распознавать буквы латинского алфавита

В последние годы нейронные сети приобрели огромную популярность. Они научились распознавать изображения, писать тексты, рисовать картинки по запросу. На данный момент нейронные сети — наиболее мощный инструмент машинного обучения с точки зрения усвоения сложных зависимостей. Они способны аппроксимировать сколь угодно сложную взаимосвязь между входными данными и целевой переменной, но для этого требуется очень большая обучающая выборка. Для примера: модель GPT-3, на основе которой работает ChatGPT, обучалась на 570 гигабайтах текстов и имеет 175 миллиардов параметров.

AutoML и MLOps

Айтишники настолько любят искать лёгкие пути, что даже ищут лёгкие пути искать лёгкие пути. Существуют фреймворки (например, autogluon и h2o), позволяющие автоматизировать многие задачи, которые обычно решает дата-сайентист. С их помощью можно автоматически настроить предварительную обработку данных, определение типа задачи, обучение разных моделей, отбор лучшей из них и валидацию решения. Методология, в которой автоматизируются вышеупомянутые процессы, получила предсказуемое название — «автоматическое машинное обучение», или AutoML

Зачастую от дата-сайентиста требуется не просто однократно обучить модель, а постоянно поддерживать её актуальность (если факторы, на которых она обучалась, постоянно меняются). Таким образом, его работа начинает смещаться в сторону выстраивания ML-процесса, а не просто обучения моделей и интерпретации результатов. От дата-сайентиста часто требуется наладить процесс получения данных из разных источников, настроить пайплайн обучения модели и ее развёртывания, а также автоматического контроля качества её прогнозов и, при необходимости, автоматического запуска переобучения. Эта сфера деятельности получила название MLOps. MLOps подразумевает не просто работу с данными, а выстраивание процесса и его интеграцию с другими процессами в компании.

Скиллы

В целом для дата-сайентиста важны все навыки, которыми должен обладать аналитик данных, но есть и дополнительные требования. Очевидно, что дата-сайентисту необходимо знание методов машинного обучения. Также приветствуется знание облачных технологий, так как обучение моделей — ресурсоемкий процесс, и он часто проходит на внешних кластерах. Кроме того, объем данных, с которым приходится иметь дело дата-сайентистам, часто больше, чем у аналитиков. Работа с большими данными требует знания соответствующих инструментов. 

Для дата-сайентиста важно умение быстро осваивать новые технологии и инструменты. Machine Learning — одна из наиболее динамично развивающихся областей анализа данных, и даже опытным специалистам приходится постоянно учиться. Отдельно стоит упомянуть умение работать в команде. Дата-сайентист имеет дело со сложным процессом, который влияет на множество других процессов и ресурсов в компании, поэтому умение работать сообща с коллегами чрезвычайно важно.

Системный аналитик

Понятие «системный анализ» впервые ввела в употребление американская корпорация RAND в 1948 году. Впрочем, тогда у него было несколько иное значение, а именно — анализ деятельности организации с точки зрения принципов кибернетики. С появлением компаний, занимающихся коммерческой разработкой ПО, под системным аналитиком стал пониматься человек, ответственный за разработку требований к ПО и участвующий в планировании его архитектуры.

В наши дни потребность в системном анализе неуклонно растёт. По мере увеличения сложности программных продуктов всё сложнее заменить системных аналитиков смежными ролями. Системный аналитик выполняет роль связующего звена между бизнесом и разработчиками ПО. Именно он отвечает за то, чтобы продукт выполнял все поставленные перед ним задачи, и составляет технические требования.

Может показаться, что роль системного аналитика похожа на роль менеджера проектов, но это не так. В задачи системного аналитика не входит сопровождение проекта в ходе его выполнения, а менеджер проектов, в свою очередь, принимает технические требования как данность и не занимается их анализом.

Технические требования

Составление технических требований — очень важная обязанность, для выполнения которой требуются высокий уровень технической подкованности и способность говорить с разработчиками на одном языке. Кроме того, системный аналитик должен ориентироваться в предметной области, уметь разглядеть потенциальные проблемные места и отразить их в требованиях.

Отличный пример того, что происходит, когда системный аналитик не доделал свою работу — запуск автоматического расчёта индекса Ванкуверской фондовой биржи.

Индекс Ванкуверской фондовой биржи был установлен в январе 1982 года на уровне 1000. Однако трейдеры стали замечать, что индекс ведёт себя странно. Например, в феврале следующего года, когда цены и объёмы были на максимуме, значения индекса всё равно не преодолели исходную отметку в 1000 пунктов. Как выяснилось позже, это было вызвано неправильным округлением. Индекс рассчитывался с точностью до пяти знаков после запятой, а хранился с точностью до трёх знаков. Однако вместо округления последние два знака просто выбрасывались. Индекс пересчитывался 2800 раз в день, и всякий раз последние две значащих цифры терялись, а ошибка накапливалась. Как следствие: индекс снижался на 1–2 пункта в день. В результате (почти через два года) биржа признала ошибку. Ей пришлось даже нанять консультантов для пересчёта индекса за прошедшие 22 месяца. После выходных 25–28 ноября 1983 года индекс открылся со значения 1098,892 при закрытии в пятницу на уровне 524,811.

Отбрасывание лишних знаков могло бы вполне корректно работать в каком-то другом программном продукте. Однако специфика предметной области требовала округления. Если бы это было заложено в требования на этапе анализа, конфуза можно было бы избежать.

Анализ бизнес-требований

Вот ещё забавный пример. В Швейцарии существуют требования к поездам, в соответствии с которыми они не могут иметь суммарно 256 колёсных осей. Это вызвано тем, что в своё время был допущен недочёт в технических требованиях к датчикам перемещения поездов по пути их следования. 

Дело в том, что датчики считают количество осей у прошедшего поезда. При этом для хранения полученного числа в памяти прибора отведён всего один байт памяти. Одного байта достаточно, чтобы сохранить число от 0 до 255. Это привело к неожиданным последствиям: если поезд имеет ровно 256 осей, то после того как датчик зафиксирует 255 (а это число в двоичном представлении имеет вид восьми единиц), ячейка обнулится после фиксации последней оси. То есть поезд пройдёт незамеченным. При этом иметь 257 осей не запрещено, т. к. в таком случае датчик зафиксирует одну ось, что может быть интерпретировано как 257, ведь поездов с одной осью не существует. 

Этот пример показывает, насколько важна коммуникация системного аналитика с заказчиком. Если бы аналитик догадался поинтересоваться, насколько длинными бывают поезда, курьёзного требования вполне можно было бы избежать.

Скиллы

Среди хард-скиллов можно выделить навыки моделирования процессов и данных. Важно знать виды и уровни моделей данных, а также процессов. Кроме того, необходимо знание основ тестирования и системной интеграции.

Софт-скиллы, необходимые системному аналитику, включают в себя аналитическое и критическое мышление. Иначе не получится эффективно выявлять слабые места в реализации проекта. Важно умение работать с кросс-функциональными командами — системный аналитик, взаимодействуя как с бизнесом, так и с техническими специалистами, по сути работает в очень разношёрстной команде. Также ценятся умение презентовать свои решения и навыки решения комплексных задач.

Бизнес-аналитик

Напоследок поговорим о бизнес-аналитике. Как нетрудно догадаться из названия, его основная задача — обеспечение эффективности функционирования бизнеса. Он подробно изучает бизнес-процессы и убеждается в том, что всё работает оптимальным образом, либо вносит предложения по изменению существующих систем.

Изменение процессов

Одну из наиболее впечатляющих data-driven-систем управления внедрила у себя компания Ford. Всё началось в 2000-х годах с приходом нового генерального директора Алана Малалли, который и стал внедрять такой подход. Исторически на совещаниях каждый старался похвастаться успехами, скрывая неудачи. С приходом Малалли все решения стали приниматься на основе чётких метрик и объективных данных. Со временем для принятия всех решений стали собирать максимум данных из всех возможных источников. Например, данные, полученные от мониторинга социальных сетей, позволили обнаружить неудобное для других участников дорожного движения расположение поворотников и исправить этот недочёт в новых моделях. Для решения, какие модели и в каких комплектациях поставлять дилерам в разных районах разных городов, используются данные об экономической ситуации на местах и прогнозируется спрос.

В наши дни вместо того, чтобы держать собственного бизнес-аналитика, фирмы часто прибегают к услугам консалтинговых компаний. Бизнес-аналитики этих компаний анализируют процессы и дают рекомендации по их оптимизации.

Разработка и внедрение новых решений

Иногда бизнес-аналитик прибегает к оптимизации процесса посредством внедрения новых технологий и разработки специализированных технических решений. Например, в начале 2010-х годов компания McDonald’s существенно изменила один из своих основных процессов: сборку заказов. Изначально сотрудники кухни занимались производством различных бургеров и закусок практически независимо от содержания заказов, а затем складывали готовые блюда в специальные духовые шкафы для хранения. Кассир собирал заказы из того, что было в наличии. Анализ показал, что это приводит к повышению объёмов списаний, большему времени ожидания заказа клиентом, а также к меньшему уровню удовлетворённости, так как заказ нельзя кастомизировать. В итоге решили изменить весь процесс. 

Сейчас заказы собираются по конвейерной системе: кухня готовит только те бургеры, на которые поступил заказ, а каждый сотрудник выполняет свою чётко определённую функцию в этом процессе. Это стало возможно благодаря внедрению IT-системы управления таким конвейером. Каждый сотрудник кухни получает инструкции, какие ингредиенты и куда он должен положить. Инструкции для сотрудников формируются автоматически, исходя из сделанных заказов. 

Новый подход позволил не только уменьшить списания, но и ускорить обслуживание клиентов. Новая IT-система управления стала плодом работы целой команды специалистов, в том числе бизнес-аналитиков.

Скиллы

Для описания решений бизнес-аналитик должен владеть нотациями описания бизнес-процессов, что необходимо для донесения и формализации решений по изменению этих процессов. Также бизнес-аналитику часто приходится работать с большими объёмами данных — например, в Excel. Если объёмы превышают те, с которыми можно там комфортно работать, используется SQL. В случаях, когда проект связан с внедрением новых IT-решений, приходится работать с инструментами прототипирования интерфейсов. Также для бизнес-аналитика важно владение инструментами для управления проектами.

Среди софт-скиллов можно выделить коммуникабельность и интервьюирование, так как бизнес-аналитику приходится много общаться с людьми из самых разных сфер для погружения в бизнес. Важно умение работать в команде и склонность к решению комплексных задач.

Заключение

В статье мы рассмотрели роли аналитика данных, дата-сайентиста, системного и бизнес-аналитиков. Роли аналитика данных и дата-сайентиста чем-то похожи друг на друга, поскольку имеют общие истоки. Тем не менее сейчас они значительно разошлись. 

Аналитик данных работает с датасетами и занимается скорее описательным анализом. Помогает визуализировать информацию, содержащуюся в данных, и делать выводы, на основе которых будут приняты решения. Дата-сайентист же больше работает с методами Machine Learning и использует данные для обучения программных моделей.

Роли бизнес- и системного аналитиков, в свою очередь, тоже близки. Они оба глубоко погружены в особенности бизнеса. Бизнес-аналитик занимается тем, что выявляет точки роста и узкие места в бизнес-процессах, предлагая решения. Системный аналитик, в свою очередь, понимая бизнес-суть предлагаемого решения, обеспечивает его корректную реализацию. В каком-то смысле он принимает от бизнес-аналитика эстафетную палочку.

Спасибо, что дочитали! Надеемся, было интересно. Будем рады пообщаться в комментариях, а если хотите получить более глубокое представление об одной из представленных специальностей, предлагаем ознакомиться с соответствующей программой курсов Яндекс Практикума

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.


Всякий организм существует в океане информации, поступающей через его органы чувств. От того, насколько хорошо он умеет её собирать и обрабатывать, зависит его успех в голодных играх эволюции. Человека царём зверей сделало не прямохождение и не отстоящий большой палец — его киллер-фичей стала эффективность обработки данных.

Помимо оперативных данных («Насколько быстро на меня бежит вот этот мамонт?»), человек умеет работать с абстрактной разрозненной информацией, систематизировать её, строить модели, делать выводы. Ещё в древние времена люди научились выстраивать логические связки. Например, сопоставлять цвет ягоды и её съедобность. Те, кому это удавалось лучше, чаще выживали, оставляли больше потомства и в итоге стали предками современных дата-сайентистов. 

Сегодня мир буквально состоит из информации. На её сборе и обработке сколачиваются целые состояния. Гигантские компании всеми правдами и неправдами стремятся узнать о вас как можно больше — не потому, что им интересны ваши личные секреты, а потому, что данные — новая нефть. Мировой рынок больших данных уже достиг объёма в 121 млрд долларов в 2022 году, и это наверняка не предел.

После такого эпического вступления самое время познакомиться с нашими героями — аргонавтами информационного океана. Кто же скрывается за таинственными аббревиатурами, перечисленными в заголовке?

Аналитик данных

Среди своих собратьев аналитик данных (Data Analyst, DA) — безусловно, перворождённый. Задачи анализа данных существуют столько же, сколько сами данные. Однако эффективные методы их решения появились лишь с изобретением математической статистики.

Если математика — царица всех наук, то математическая статистика — царица Data Science. Она позволяет, имея набор данных, проверить, насколько он соответствует той или иной модели. А подобрав верную модель, можно из неё делать интересные и полезные выводы.

Забавный пример из истории — эксперимент Фишера.

О том, как заваривать чай, в Англии спорят не одно столетие. Некоторые говорят, что правильнее сперва наливать молоко, а затем сам чай. Другие утверждают обратное. Муриэль Бристоль, знакомая английского учёного Рональда Фишера, утверждала, что способна отличить чай, приготовленный способом «сначала молоко», от чая, приготовленного способом «сначала чай». Но как проверить это утверждение?

Можно принести леди две чашки чая, приготовленные разными способами, и предложить угадать, какая из них какая. Однако если даже леди угадает верно, будет ли это достаточным доказательством? Даже если выбирать случайно, есть 50% вероятность успеха. Фишер предложил следующий эксперимент: леди Бристоль предлагалось продегустировать восемь чашек, четыре из которых были приготовлены одним методом, а четыре оставшиеся — другим. Леди сумела верно определить способ приготовления для всех восьми чашек. Насколько это весомое доказательство?

Существует 70 способов выбрать четыре чашки из восьми. Таким образом, вероятность попадания методом тыка для леди Бристоль равна 1/70, или примерно 1,4%. Вероятность, что данный результат эксперимента получился случайно, называется p-value. В современной науке считается, что если p-value меньше 5%, то эксперимент достаточно убедителен. Для сравнения: если бы леди Бристоль было разрешено допустить одну ошибку, вероятность случайного успеха равнялась бы 17/70, или приблизительно 24,3%. Такой результат уже вполне можно списать на удачу.

Эксперимент Фишера — это, в сущности, первый описанный кейс A/B-тестирования. Конечно, в A/B-тестах вместо одинокой леди Бристоль широкая пользовательская аудитория, а вместо угадывания — колебания разнообразных бизнес-метрик. Но, например, если дизайнер утверждает, что новая форма кнопки улучшит конверсию страницы, именно наработки Фишера помогут обосновать (или опровергнуть) его правоту.

Основная задача классической статистики — делать выводы о генеральной совокупности на основе ограниченных выборок. Позже, в 1962 году Джон У. Тьюки в своей книге «Будущее анализа данных» выделил анализ данных в отдельную научную дисциплину с более широкими задачами. Тьюки, в частности, ввёл понятие «разведочный анализ данных». Если по-простому — в любом аналитическом проекте сперва стоит «посмотреть на данные», чтобы понять, как работать с ними дальше. Именно Тьюки ввёл в обиход диаграмму «Ящик с усами», или Boxplot. Визуализация данных и их обобщение позволяют получить ценное «интуитивное» понимание данных.

Качество данных

Прежде чем делать выводы, неплохо бы приглядеться — из чего именно. Идеальные данные бывают лишь в идеальном мире, реальные датасеты нуждаются в предварительной проверке, фильтрации, коррекции. Проверка обычно делится на две большие области:

  1. В процессе разведочного анализа выявляются аномалии, пропуски, дубли, ошибки ввода и нарушения структуры.

    Дубли — это когда в датасет некоторые записи попадают многократно, такие данные бесполезны и отфильтровываются до начала анализа.

    Ошибками ввода называют случаи, когда в поля, предназначенные для одних данных, попадают другие: это может быть следствием некорректного чтения файла или небрежностью человека-оператора.

    Частный случай ошибки ввода — пропущенные данные. Отдельные пустые поля можно заменить, например, средним значением или медианой, чтобы не терять информацию, содержащуюся в других полях записи.

    Также могут встречаться аномалии: данные, резко отличающиеся от остальных. Это могут быть как недостоверные данные, попавшие в датасет по ошибке, так и реальные кейсы, которые просто не характерны для общей картины. Детектирование аномалий — непростая и даже творческая задача: что считать аномалией и как с ней поступать, приходится решать отдельно в каждом конкретном случае.

  2. Анализ методики сбора данных на предмет систематических искажений. Такие искажения могут быть незаметны в самих данных, но существенно повлиять на выводы.

Известный пример такого искажения — «парадокс выжившего».

Во время Второй мировой войны для снижения потерь американские ВВС решили оснастить самолёты дополнительной бронёй. Поскольку для самолёта важен вес, броню планировали добавить только в наиболее уязвимых местах. 

Задача выявить такие места была поручена венгерскому математику Абрахаму Вальду из Колумбийского университета. Вальд собрал данные о попаданиях из различных типов оружия в разные части фюзеляжа и оценил вероятности критического поражения в каждом из кейсов. Однако в процессе Вальд пришёл к выводу, что оценивать эти вероятности на основе одних лишь наблюдений некорректно. Самолёты, получившие наиболее сильные повреждения, не возвращались из боя. Вальд оценил вклад такой систематической ошибки и заключил, что защищать необходимо места, куда почти не было попаданий у вернувшихся самолётов — именно потому, что они смогли вернуться. 

Отчёт

Результат работы аналитика данных — это отчёт, где в том или ином виде сформулированы некоторые выводы. Раскрыть информацию, содержащуюся в данных, помогают визуализация в виде схем и графиков. Данные могут обновляться динамически, поэтому аналитики строят интерактивные дашборды. Это специальные инструменты, которые позволяют отображать имеющиеся данные в реальном времени, и пользователь всегда имеет доступ к актуальной информации в «человекочитаемом» виде. 

Пример дашборда с данными о количестве заболеваний SARS-Covid 2 был доступен на главной странице Яндекса в разгар пандемии
Пример дашборда с данными о количестве заболеваний SARS-Covid 2 был доступен на главной странице Яндекса в разгар пандемии

Современные инструменты визуализации позволяют не только дать пользователю конечные выводы, но и рассказать историю, показать весь путь решения. Такой приём называется «сторителлинг». Хороший пример сторителлинга — вот такой интерактивный дашборд, рассказывающий историю нескольких беженцев из Италии с помощью данных.

Скиллы

Аналитик должен уметь преобразовать данные в удобный ему формат. Для этого желательно знания языков программирования. В Data Science стандартом де-факто является Python, — впрочем, другие языки тоже могут сгодиться. Кроме того, данные часто содержатся в специализированных хранилищах и для их извлечения необходимо знать соответствующий язык запросов — например, SQL в случае реляционных баз данных. Для представления результатов своей работы используют BI-инструменты, такие как Tableau или DataLens. Кроме того, не стоит забывать про мат. статистику — царицу Data Science.

Кроме хард-скиллов, ценятся аналитические способности, а также коммуникативные навыки. К последним можно отнести умение презентовать свои выводы и грамотно объяснять сложные технические концепции людям без соответствующего бэкграунда. Если аналитик сделал важное открытие, но не смог его объяснить или убедить в его важности, толку от него мало. И конечно же, важно внимание к деталям и умение думать outside the box. Всегда помните о парадоксе выжившего!

Дата-сайентист

Дата-сайентист занимается исследованием данных средствами машинного обучения. Есть обширный класс задач, которые нецелесообразно поручать аналитику-человеку. Например, когда слишком много входных параметров. Или когда закономерность в данных слишком неочевидна, чтобы сходу сформулировать гипотезу (чем с математической точки зрения изображение котика отличается от изображения пёсика?). Или когда нужно уметь быстро приспосабливаться к изменению условий задачи (аналитик полгода строил модель, определяющую пёсиков по набору пикселей, а от него требуют научиться распознавать лягушек, желательно — вчера).

Компьютер глупее человека в плане эвристических способностей, однако он быстрее и способен оперировать бо́льшим объёмом данных. Можно научить компьютер формулировать и перебирать гипотезы определённого класса, надеясь, что одна из них подойдёт к данным достаточно точно. Такой перебор (хорошо оптимизированный и математически обоснованный) и называется машинным обучением.

В качестве примера рассмотрим самые распространённые задачи машинного обучения — регрессию и классификацию.

Регрессия

Задача нахождения взаимосвязи между целевой переменной и сопутствующими факторами называется регрессией. Этот термин в 1886 году ввёл английский исследователь Фрэнсис Гальтон. Гальтон изучал зависимость роста детей от роста родителей. Он выяснил, что дети высоких отцов в среднем ниже их, хотя и выше детей, родители которых не такие рослые. Этот статистический феномен Гальтон назвал «регрессия к среднему» (от латинского regressio — «обратное движение»). В дальнейшем термин «регрессия» стал использоваться и для других подобных задач — даже в случае, если никакого «обратного движения» в них не происходит.

Иллюстрация Фрэнсиса Гальтона 1886 года, демонстрирующая корреляцию между ростом взрослых детей и их родителей. Наблюдение заключается в том, что рост взрослых детей обычно отклоняется от среднего роста меньше, чем у их родителей
Иллюстрация Фрэнсиса Гальтона 1886 года, демонстрирующая корреляцию между ростом взрослых детей и их родителей. Наблюдение заключается в том, что рост взрослых детей обычно отклоняется от среднего роста меньше, чем у их родителей

Гальтоновская регрессия к среднему — не столько биологический, сколько статистический феномен. Чтобы проиллюстрировать это, можно провести следующий мысленный эксперимент

Мысленный эксперимент

Предположим, есть большое количество студентов с одинаковым уровнем знаний. Дадим им пройти тест. Положим, их средняя оценка — 50 баллов. Мы хотим проверить инновационную (и абсолютно бесполезную) методику обучения. Для этого возьмём подгруппу студентов, которые набрали менее 30 баллов в этом тесте, и будем их обучать по «инновационной» методике, а затем проведём ещё один тест. В подгруппе испытуемых средний балл по второму тесту окажется примерно 50 баллов, поскольку знания у всех студентов одинаковые, и бесполезная методика этого факта не меняет. Так как изначальный средний результат в этой подгруппе был ниже 50, возникает большой соблазн заключить, что новая методика обучения эффективна, хотя в действительности мы просто наблюдаем регрессию к среднему. Оценки студентов из выбранной подгруппы оказались экстремально низкими в конкретно взятый момент, однако при дальнейших испытаниях они возвращаются к своему мат. ожиданию.

Регрессия к среднему: величина возвращается к мат. ожиданию (константе)
Регрессия к среднему: величина возвращается к мат. ожиданию (константе)

Однако вернёмся к математической задаче регрессии. В общем виде это попытка приблизить интересующую нас величину некоторой функцией от входных данных. Важный частный случай, часто встречающийся в машинном обучении, — линейная регрессия, когда искомая функция линейная. Иначе говоря, если мы предполагаем зависимость от факторов x и y, то ищем функцию вида ax + by + c, где a, b, c — неизвестные коэффициенты, которые необходимо подобрать так, чтобы функция лучше всего приближала прогнозируемую величину.

Линейные регрессии применялись ещё Лежандром и Гауссом в начале XIX века. И Гаусс, и Лежандр использовали метод линейной регрессии для понимания орбит комет на основе неточных измерений их предыдущих местоположений. 

Один из первых датасетов, использовавшийся для построении линейной регрессии
Один из первых датасетов, использовавшийся для построении линейной регрессии

В машинном обучении линейная регрессия — один из базовых методов прогнозирования. Существуют специальные методики, позволяющие оптимизировать подбор коэффициентов вместо того, чтобы тупо перебирать все возможные комбинации или пытаться вычислить оптимальные параметры аналитически. Более продвинутые машинные модели (в том числе нейросети) используют комбинации линейных и нелинейных функций, которые позволяют приблизить более сложные закономерности, но методика там та же.

Классификация

Ещё одной распространённой задачей машинного обучения является классификация — распределение объектов по конечному числу заранее заданных классов. Классификацию тоже можно рассматривать как предсказание величины, но не непрерывной, как в случае регрессии, а дискретной, принимающей одно из N значений. 

Одна из старейших задач этой категории — классификация ирисов. Датасет для неё был составлен нашим старым знакомым Рональдом Фишером (помните эксперимент с чаем?). В датасете содержится 150 записей о цветках трёх типов: ирис щетинистый, ирис виргинский и ирис разноцветный. Также присутствуют факторы: длина и ширина наружной и внутренней доли околоцветника. Датасет до сих пор является каноничным для испытания методов классификации и по умолчанию присутствует во многих статистических пакетах. Например, он есть в scikit-learn.

На основе этих факторов предлагается построить алгоритм классификации цветков. Фишер решил задачу при помощи линейного дискриминантного анализа — аналога линейной регрессии в применении к задаче классификации. Суть его заключается в подборе такой линейной функции от факторов, чтобы её линии уровня наиболее чётко разделяли категории. Скажем, если значение функции лежит в диапазоне от 0 до 1, то цветок классифицируется как ирис щетинистый, если от 1 до 2 — виргинский, более 2 — разноцветный.

Линейный дискриминантный анализ также применяется в машинном обучении, однако есть и более сложные методы. Например, дата-сайентисты умеют автоматически строить деревья решений, представляющие собой набор правил, при каких значениях факторов к какому классу стоит отнести конкретный пример. Впрочем, отдельные деревья зачастую обладают недостаточной предсказательной силой, поэтому сейчас в основном используются ансамбли деревьев и бустинги — комплексные модели, состоящие из множества небольших слабых моделей. На основании отдельных прогнозов этих моделей формируется итоговый прогноз, который получается более точным, чем у каждого дерева самого по себе.

Ещё один популярный метод решения задач машинного обучения — нейронные сети. Их применение началось ещё в 1948 году, когда американские ученые Уоррен Мак-Каллок и Уолтер Питтс предложили понятия «искусственный нейрон» и «искусственная нейронная сеть». Уже в 1960 году Фрэнк Розенблатт разработал нейронную сеть Марк-1, которая могла распознавать некоторые буквы латинского алфавита. Можно сказать, Розенблатт решал задачу классификации изображений. На фотографии ниже показано, как был устроен ввод данных. Напечатанный символ освещался мощными лампами, а изображение фокусировалось на массив из 20x20 фотоэлементов, образуя изображение из 400 пикселей. У перцептрона был всего один скрытый слой, фотоэлементы подключались к нему случайным образом. Так удалось продемонстрировать возможность перцептрона обучаться без необходимости предварительной точной настройки. Настройка весов слоя была реализована с помощью регулируемого вращающегося резистора, также называемого потенциометром. Он приводился в движение электрическим двигателем, что позволяло автоматически настраивать значение веса с помощью алгоритма обучения.

Фрэнк Розенблатт и его перцептрон, способный распознавать буквы латинского алфавита
Фрэнк Розенблатт и его перцептрон, способный распознавать буквы латинского алфавита

В последние годы нейронные сети приобрели огромную популярность. Они научились распознавать изображения, писать тексты, рисовать картинки по запросу. На данный момент нейронные сети — наиболее мощный инструмент машинного обучения с точки зрения усвоения сложных зависимостей. Они способны аппроксимировать сколь угодно сложную взаимосвязь между входными данными и целевой переменной, но для этого требуется очень большая обучающая выборка. Для примера: модель GPT-3, на основе которой работает ChatGPT, обучалась на 570 гигабайтах текстов и имеет 175 миллиардов параметров.

AutoML и MLOps

Айтишники настолько любят искать лёгкие пути, что даже ищут лёгкие пути искать лёгкие пути. Существуют фреймворки (например, autogluon и h2o), позволяющие автоматизировать многие задачи, которые обычно решает дата-сайентист. С их помощью можно автоматически настроить предварительную обработку данных, определение типа задачи, обучение разных моделей, отбор лучшей из них и валидацию решения. Методология, в которой автоматизируются вышеупомянутые процессы, получила предсказуемое название — «автоматическое машинное обучение», или AutoML

Зачастую от дата-сайентиста требуется не просто однократно обучить модель, а постоянно поддерживать её актуальность (если факторы, на которых она обучалась, постоянно меняются). Таким образом, его работа начинает смещаться в сторону выстраивания ML-процесса, а не просто обучения моделей и интерпретации результатов. От дата-сайентиста часто требуется наладить процесс получения данных из разных источников, настроить пайплайн обучения модели и ее развёртывания, а также автоматического контроля качества её прогнозов и, при необходимости, автоматического запуска переобучения. Эта сфера деятельности получила название MLOps. MLOps подразумевает не просто работу с данными, а выстраивание процесса и его интеграцию с другими процессами в компании.

Скиллы

В целом для дата-сайентиста важны все навыки, которыми должен обладать аналитик данных, но есть и дополнительные требования. Очевидно, что дата-сайентисту необходимо знание методов машинного обучения. Также приветствуется знание облачных технологий, так как обучение моделей — ресурсоемкий процесс, и он часто проходит на внешних кластерах. Кроме того, объем данных, с которым приходится иметь дело дата-сайентистам, часто больше, чем у аналитиков. Работа с большими данными требует знания соответствующих инструментов. 

Для дата-сайентиста важно умение быстро осваивать новые технологии и инструменты. Machine Learning — одна из наиболее динамично развивающихся областей анализа данных, и даже опытным специалистам приходится постоянно учиться. Отдельно стоит упомянуть умение работать в команде. Дата-сайентист имеет дело со сложным процессом, который влияет на множество других процессов и ресурсов в компании, поэтому умение работать сообща с коллегами чрезвычайно важно.

Системный аналитик

Понятие «системный анализ» впервые ввела в употребление американская корпорация RAND в 1948 году. Впрочем, тогда у него было несколько иное значение, а именно — анализ деятельности организации с точки зрения принципов кибернетики. С появлением компаний, занимающихся коммерческой разработкой ПО, под системным аналитиком стал пониматься человек, ответственный за разработку требований к ПО и участвующий в планировании его архитектуры.

В наши дни потребность в системном анализе неуклонно растёт. По мере увеличения сложности программных продуктов всё сложнее заменить системных аналитиков смежными ролями. Системный аналитик выполняет роль связующего звена между бизнесом и разработчиками ПО. Именно он отвечает за то, чтобы продукт выполнял все поставленные перед ним задачи, и составляет технические требования.

Может показаться, что роль системного аналитика похожа на роль менеджера проектов, но это не так. В задачи системного аналитика не входит сопровождение проекта в ходе его выполнения, а менеджер проектов, в свою очередь, принимает технические требования как данность и не занимается их анализом.

Технические требования

Составление технических требований — очень важная обязанность, для выполнения которой требуются высокий уровень технической подкованности и способность говорить с разработчиками на одном языке. Кроме того, системный аналитик должен ориентироваться в предметной области, уметь разглядеть потенциальные проблемные места и отразить их в требованиях.

Отличный пример того, что происходит, когда системный аналитик не доделал свою работу — запуск автоматического расчёта индекса Ванкуверской фондовой биржи.

Индекс Ванкуверской фондовой биржи был установлен в январе 1982 года на уровне 1000. Однако трейдеры стали замечать, что индекс ведёт себя странно. Например, в феврале следующего года, когда цены и объёмы были на максимуме, значения индекса всё равно не преодолели исходную отметку в 1000 пунктов. Как выяснилось позже, это было вызвано неправильным округлением. Индекс рассчитывался с точностью до пяти знаков после запятой, а хранился с точностью до трёх знаков. Однако вместо округления последние два знака просто выбрасывались. Индекс пересчитывался 2800 раз в день, и всякий раз последние две значащих цифры терялись, а ошибка накапливалась. Как следствие: индекс снижался на 1–2 пункта в день. В результате (почти через два года) биржа признала ошибку. Ей пришлось даже нанять консультантов для пересчёта индекса за прошедшие 22 месяца. После выходных 25–28 ноября 1983 года индекс открылся со значения 1098,892 при закрытии в пятницу на уровне 524,811.

Отбрасывание лишних знаков могло бы вполне корректно работать в каком-то другом программном продукте. Однако специфика предметной области требовала округления. Если бы это было заложено в требования на этапе анализа, конфуза можно было бы избежать.

Анализ бизнес-требований

Вот ещё забавный пример. В Швейцарии существуют требования к поездам, в соответствии с которыми они не могут иметь суммарно 256 колёсных осей. Это вызвано тем, что в своё время был допущен недочёт в технических требованиях к датчикам перемещения поездов по пути их следования. 

Дело в том, что датчики считают количество осей у прошедшего поезда. При этом для хранения полученного числа в памяти прибора отведён всего один байт памяти. Одного байта достаточно, чтобы сохранить число от 0 до 255. Это привело к неожиданным последствиям: если поезд имеет ровно 256 осей, то после того как датчик зафиксирует 255 (а это число в двоичном представлении имеет вид восьми единиц), ячейка обнулится после фиксации последней оси. То есть поезд пройдёт незамеченным. При этом иметь 257 осей не запрещено, т. к. в таком случае датчик зафиксирует одну ось, что может быть интерпретировано как 257, ведь поездов с одной осью не существует. 

Этот пример показывает, насколько важна коммуникация системного аналитика с заказчиком. Если бы аналитик догадался поинтересоваться, насколько длинными бывают поезда, курьёзного требования вполне можно было бы избежать.

Скиллы

Среди хард-скиллов можно выделить навыки моделирования процессов и данных. Важно знать виды и уровни моделей данных, а также процессов. Кроме того, необходимо знание основ тестирования и системной интеграции.

Софт-скиллы, необходимые системному аналитику, включают в себя аналитическое и критическое мышление. Иначе не получится эффективно выявлять слабые места в реализации проекта. Важно умение работать с кросс-функциональными командами — системный аналитик, взаимодействуя как с бизнесом, так и с техническими специалистами, по сути работает в очень разношёрстной команде. Также ценятся умение презентовать свои решения и навыки решения комплексных задач.

Бизнес-аналитик

Напоследок поговорим о бизнес-аналитике. Как нетрудно догадаться из названия, его основная задача — обеспечение эффективности функционирования бизнеса. Он подробно изучает бизнес-процессы и убеждается в том, что всё работает оптимальным образом, либо вносит предложения по изменению существующих систем.

Изменение процессов

Одну из наиболее впечатляющих data-driven-систем управления внедрила у себя компания Ford. Всё началось в 2000-х годах с приходом нового генерального директора Алана Малалли, который и стал внедрять такой подход. Исторически на совещаниях каждый старался похвастаться успехами, скрывая неудачи. С приходом Малалли все решения стали приниматься на основе чётких метрик и объективных данных. Со временем для принятия всех решений стали собирать максимум данных из всех возможных источников. Например, данные, полученные от мониторинга социальных сетей, позволили обнаружить неудобное для других участников дорожного движения расположение поворотников и исправить этот недочёт в новых моделях. Для решения, какие модели и в каких комплектациях поставлять дилерам в разных районах разных городов, используются данные об экономической ситуации на местах и прогнозируется спрос.

В наши дни вместо того, чтобы держать собственного бизнес-аналитика, фирмы часто прибегают к услугам консалтинговых компаний. Бизнес-аналитики этих компаний анализируют процессы и дают рекомендации по их оптимизации.

Разработка и внедрение новых решений

Иногда бизнес-аналитик прибегает к оптимизации процесса посредством внедрения новых технологий и разработки специализированных технических решений. Например, в начале 2010-х годов компания McDonald’s существенно изменила один из своих основных процессов: сборку заказов. Изначально сотрудники кухни занимались производством различных бургеров и закусок практически независимо от содержания заказов, а затем складывали готовые блюда в специальные духовые шкафы для хранения. Кассир собирал заказы из того, что было в наличии. Анализ показал, что это приводит к повышению объёмов списаний, большему времени ожидания заказа клиентом, а также к меньшему уровню удовлетворённости, так как заказ нельзя кастомизировать. В итоге решили изменить весь процесс. 

Сейчас заказы собираются по конвейерной системе: кухня готовит только те бургеры, на которые поступил заказ, а каждый сотрудник выполняет свою чётко определённую функцию в этом процессе. Это стало возможно благодаря внедрению IT-системы управления таким конвейером. Каждый сотрудник кухни получает инструкции, какие ингредиенты и куда он должен положить. Инструкции для сотрудников формируются автоматически, исходя из сделанных заказов. 

Новый подход позволил не только уменьшить списания, но и ускорить обслуживание клиентов. Новая IT-система управления стала плодом работы целой команды специалистов, в том числе бизнес-аналитиков.

Скиллы

Для описания решений бизнес-аналитик должен владеть нотациями описания бизнес-процессов, что необходимо для донесения и формализации решений по изменению этих процессов. Также бизнес-аналитику часто приходится работать с большими объёмами данных — например, в Excel. Если объёмы превышают те, с которыми можно там комфортно работать, используется SQL. В случаях, когда проект связан с внедрением новых IT-решений, приходится работать с инструментами прототипирования интерфейсов. Также для бизнес-аналитика важно владение инструментами для управления проектами.

Среди софт-скиллов можно выделить коммуникабельность и интервьюирование, так как бизнес-аналитику приходится много общаться с людьми из самых разных сфер для погружения в бизнес. Важно умение работать в команде и склонность к решению комплексных задач.

Заключение

В статье мы рассмотрели роли аналитика данных, дата-сайентиста, системного и бизнес-аналитиков. Роли аналитика данных и дата-сайентиста чем-то похожи друг на друга, поскольку имеют общие истоки. Тем не менее сейчас они значительно разошлись. 

Аналитик данных работает с датасетами и занимается скорее описательным анализом. Помогает визуализировать информацию, содержащуюся в данных, и делать выводы, на основе которых будут приняты решения. Дата-сайентист же больше работает с методами Machine Learning и использует данные для обучения программных моделей.

Роли бизнес- и системного аналитиков, в свою очередь, тоже близки. Они оба глубоко погружены в особенности бизнеса. Бизнес-аналитик занимается тем, что выявляет точки роста и узкие места в бизнес-процессах, предлагая решения. Системный аналитик, в свою очередь, понимая бизнес-суть предлагаемого решения, обеспечивает его корректную реализацию. В каком-то смысле он принимает от бизнес-аналитика эстафетную палочку.

Спасибо, что дочитали! Надеемся, было интересно. Будем рады пообщаться в комментариях, а если хотите получить более глубокое представление об одной из представленных специальностей, предлагаем ознакомиться с соответствующей программой курсов Яндекс Практикума

Комментарии (6)


  1. zilla_habr
    00.00.0000 00:00

    Хороший текст! Можно было еще Product Analyst упомянуть, его тоже начинают выделять в отдельную категорию. Вакансии по задачам отличаются своей продуктовой спецификой от DA.


  1. Shempy
    00.00.0000 00:00

    Наконец-то в Яндексе разобрались в видах аналитиков! А то надоело, что ваши рекрутёры постоянно зовут системных аналитиков на позиции DA/DS…

    Но если серьёзно, за статью спасибо, можно будет давать линк вместо долгого объяснения всем задающимся вопросами :)


  1. AndreiThunderer
    00.00.0000 00:00

    Весьма познавательно)


  1. tempart
    00.00.0000 00:00

    Бизнес-аналитик

    Напоследок поговорим о бизнес-аналитике.

    Не мною замечено, но я присоединяюсь к этой точке зрения, что бизнес-анализ и бизнес-аналитика - разные проф. области. Тут лучше сказано: https://blog.systems.education/systems-analytics-bullshit-ac6d3f580c15


  1. VadimDanilov
    00.00.0000 00:00

    Отличная статья! Спасибо! Думаю, что для полной картины можно добавить только DE (Data Engineer) тот кто строит объекты данных для использования в процессах работы DA, DS, BA и SA.


  1. V_at_L
    00.00.0000 00:00

    Откуда есть пошла аналитика

    Вернулся к заголовку в конце чтения и заметил, что на вопрос "Откуда есть пошла?" статья не отвечает ;-) Спасибо за отличный материал!

    И еще...

    Дата-сайентист занимается исследованием данных средствами машинного обучения.

    А как же остальные средства? Например, вероятностные модели? Или они тоже привязаны к ML?