В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

image

Почему все молятся на биг дату


Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

image

Преимущества больших данных:

  • С ними интересно работать.
  • Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
  • Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
  • Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.

Наука о данных


Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

Примеры применения науки о данных:

  • Тактическая оптимизация — улучшение маркетинговых кампаний, бизнес-процессов.
  • Прогнозируемая аналитика — прогноз спросов и событий.
  • Рекомендательные системы — Amazon, Netflix.
  • Системы автоматического принятия решений — например распознавание лиц или даже беспилотники.
  • Социальные исследования — обработка анкет или данных, полученных любым другим способом.

Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.

image

Аналитика


Аналитика — это наука об анализе, применении анализа данных для принятия решений.

Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.

В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.

Анализ данных


Анализ данных — это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.

Машинное обучение


Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:

  • Модели, которые могут прогнозировать поведение пользователя.
  • Классификационные модели, которые могут узнать и отфильтровать спам.
  • Рекомендательные системы — изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
  • Нейронные сети — не только распознают образы, но и сами могут их создавать.

Исследователи применяют техники машинного обучения, чтобы автоматизировать решение некоторых задач. Эти системы очень нужны для работы с некоторыми очень сложными проектами. Например, чтобы узнать в какой стране живут самые счастливые люди, ученые определяли улыбки на фотографиях, загруженных в Instagram.

image

Отбор данных


Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.

Дата майнинг — это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.

Конспект


  1. Чем больше данных, тем сложнее их анализ.
  2. Наука о данных — это знания о выводимых данных, отбор, подготовка и анализ.
  3. Машинное обучение применяется для сбора и анализа массивов данных.
  4. Дата майнинг — это процесс очистки больших данных и подготовки их к последующему анализу.

Комментарии (8)


  1. ganqqwerty
    04.08.2015 14:27
    +4

    Дата-майнинг — это не про очистку данных. Про очистку — это data cleansing, data wrangling, до определенной степени data curation.


    1. Maslochka
      05.08.2015 11:57
      -1

      а очистку делают data cleaners?))


  1. Anghei
    04.08.2015 15:10
    +2

    Дается хорошая вводная, но боюсь что не будет продолжения…


  1. knagaev
    04.08.2015 15:48
    +4

    Очень неоднозначная статья.
    Особенно если принять во внимание содержание первого абзаца как цель.
    Очень много фактологических некорректностей.

    Про то, что дэйта майнинг — это не очистка данных, написали в первом же комментарии.
    И так далее.
    Например, про машинное обучение совсем не то написано.
    Его не применяют для сбора и оно не для получения представлений из массива (за редким исключением).
    Та же самая регрессия — где там представление? Там ищутся переменные отклика, которых не будет в исходном массиве.

    Сыровата статья…


  1. kypexin
    05.08.2015 09:32

    Присоединяюсь к недоумению комментаторов выше. С какой целью даны эти, мягко говоря, не совсем верные дефиниции известным вещам? Ведь уже давно есть общепринятые определения дата майнинга как процесса извлечения знаний из данных (Пятецкий-Шапиро), машинного обучения как класса алгоритмов, обучающихся предсказывать неизвестные данные на основе известных, и т.д. Статья только вносит ненужную путаницу в понятные вещи ;(


  1. potan
    05.08.2015 12:43

    «Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты.»
    Выкинуть 90% — и работать будет легко! ;-)
    Чем меньше данных, тем сложнее с ними работать. Та математика, что работает с маленькими данными тем более будет работать с большими, при наличии вычислительных ресурсов (а это вопрос только денег).
    Сложность и интересность больших данных в том, что они позволяют наблюдать очень тонкие эффекты, которые нельзя наблюдать на маленьких выборках и для которых соответственно нужны товые методы.


  1. ser0t0nin
    05.08.2015 17:25
    -1

    Интересно, на кого рассчитана эта статья? Просто набор ссылок на эти термины в википедии был бы информативнее, как мне кажется. Или главная цель поста — раздуть спор?


  1. forewar
    06.08.2015 13:40

    Судя по данной и другим статьям из этого блога, у них просто есть кто-то, кто любит рисовать картинки.