История анализа данных начинается примерно с 70-х годов прошлого века, когда Американский математик и ученый Джон Тьюки  опубликовал свою книгу “Exploratory Data Analysis” или “Разведочный Анализ Данных”. В книге Тьюки пишет, что необходимо исследовать и анализировать данные для подтверждения или опровержения выдвигаемых гипотез.

Давай подумаем, что же такое “Данные” и зачем их вообще нужно анализировать.

Данные - это представление фактов или сведений о чем-либо в виде, который может понять и интерпретировать человек, а также передать эти факты/сведения другим. 

Примеров данных в нашей жизни можно привести очень много: записи банковских транзакций, записи с различных датчиков или видеокамер, технические записи приборов на производствах и предприятиях о режиме работы, онлайн-опросы, журнал посещения тренировок или учебных классов,  записки в блокноте, двоичный код из 0 и Также к данным можно относить медиа-контент в виде музыки или видео.

В следующем разделе мы разберём какие типы данных существуют. 

Мы поняли, что множество предметов воспроизводят очень много данных вокруг нас. 

  • Что дальше делать с этими данными?

  •  Анализировать!

  • Зачем анализировать данные? 

  • Чтобы получить информацию и знания из этих данных!

Действительно, сами по себе данные не приносят особо никакой пользы человеку. Настоящую пользу могут принести проанализированные данные, либо знания о данных. 

Помимо данных принято выделять еще несколько понятий: “Информация” и “Знания”

Информация - это набор обработанных данных, который имеет определенное значение. Информация должна быть релевантна (необходима человеку), должна иметь определенную цель и контекст. Исходя из информации человек может принимать решения. 

Знания - обработанная информация, которая используется или использовалась для принятия решений. 

Иными словами: знания получены из информации, а информация получена из данных

Приведу пример из жизни:

Петя Петров собирается на свидание и хочет забронировать столик в ресторане. Он решает найти часы работы ресторана, т.к. столик хочет забронировать на вечернее время (в 20:00). Петя нашёл в интернете сайт ресторана с картинкой расписания работы, на которой написано, что ресторан открыт каждый день с 10 до 22:00. Петя через сайт бронирует столик на вторник на 20:00.

Через 15 минут Пете звонит управляющий ресторана и говорит, что режим работы ресторана недавно поменялся и ресторан работает по будням до 20:00 и нужно перенести бронирование. На сайте осталось устаревшее расписание.

Разочарованный Петя решает перенести долгожданное свидание до субботы на вечернее время, ведь его девушка сказала, что в будни не может встретиться с ним раньше 20:00. 

Что же в этой истории является данными, информацией и знаниями?

Данные - картинка с расписание работы ресторана с сайта (на ней есть данные о рабочих часах, но эти данные оказались историческими и неактуальными на текущий момент)

Информация - звонок управляющего ресторана и разговор об обновленном расписании работы (Управляющий дал релевантную и актуальную информацию, в нужном контексте для Пети) 

Знания - решение Пети перенести свидание и бронирование столика на субботу (Петя получил информацию от управляющего и на основе этой информации принял решение перенести свидание, при этом думая об удобстве девушки)

Данные собираются и накапливаются везде - в больших корпорациях, предприятиях, магазинах, торговых центрах, на улицах городов …

Так кто же может обрабатывать эти данные, чтобы получать из них необходимую и ценную информацию и знания для принятия правильных решений? 

Правильно, Аналитик Данных!

Аналитик данных - специалист, который работает с данными, собирает, обрабатывает, изучает и интерпретирует. Благодаря его работе, компании  и другие организации могут принимать решения в их деятельности. Иными словами, процесс принятия решений, основанных на анализе и интерпретации данных называется data-driven подход.

Подписывайтесь на мои социальные сети, там выгладываю еше много всего полезного:

Telegram

Instagram

Комментарии (2)


  1. peterpro
    21.03.2022 17:52
    +1

    Полковник Фридрих Краус фон Циллергут (Циллергут- название деревушки в Зальцбурге, которую предки полковника пропили еще в восемнадцатом столетии) был редкостный болван. Рассказывая о самых обыденных вещах, он всегда спрашивал, все ли его хорошо поняли, хотя дело шло о примитивнейших понятиях, например: "Вот это, господа, окно. Да вы знаете, что такое окно?" Или: "Дорога, по обеим сторонам которой тянутся канавы, называется шоссе. Да-с, господа. Знаете ли вы, что такое канава? Канава - это выкопанное значительным числом рабочих углубление. Да-с. Копают канавы при помощи кирок. Известно ли вам, что такое кирка?"

    Он страдал манией все объяснять и делал это с воодушевлением, с каким изобретатель рассказывает о своем изобретении.

    "Книга, господа, это множество нарезанных в четвертку листов бумаги разного формата, напечатанных и собранных вместе, переплетенных и склеенных клейстером. Да-с. Знаете ли вы, господа, что такое клейстер? Клейстер - это клей".


  1. BM_MacGregor
    22.03.2022 16:00

    История анализа данных начинается не "примерно с 70-х годов прошлого века", а с 1962 года, когда вышла книга Джона Тьюки ’’Будущее анализа данных", в которой он предложил новую научную дисциплину под названием "анализ данных".