История анализа данных начинается примерно с 70-х годов прошлого века, когда Американский математик и ученый Джон Тьюки опубликовал свою книгу “Exploratory Data Analysis” или “Разведочный Анализ Данных”. В книге Тьюки пишет, что необходимо исследовать и анализировать данные для подтверждения или опровержения выдвигаемых гипотез.
Давай подумаем, что же такое “Данные” и зачем их вообще нужно анализировать.
Данные - это представление фактов или сведений о чем-либо в виде, который может понять и интерпретировать человек, а также передать эти факты/сведения другим.
Примеров данных в нашей жизни можно привести очень много: записи банковских транзакций, записи с различных датчиков или видеокамер, технические записи приборов на производствах и предприятиях о режиме работы, онлайн-опросы, журнал посещения тренировок или учебных классов, записки в блокноте, двоичный код из 0 и Также к данным можно относить медиа-контент в виде музыки или видео.
В следующем разделе мы разберём какие типы данных существуют.
Мы поняли, что множество предметов воспроизводят очень много данных вокруг нас.
Что дальше делать с этими данными?
Анализировать!
Зачем анализировать данные?
Чтобы получить информацию и знания из этих данных!
Действительно, сами по себе данные не приносят особо никакой пользы человеку. Настоящую пользу могут принести проанализированные данные, либо знания о данных.
Помимо данных принято выделять еще несколько понятий: “Информация” и “Знания”
Информация - это набор обработанных данных, который имеет определенное значение. Информация должна быть релевантна (необходима человеку), должна иметь определенную цель и контекст. Исходя из информации человек может принимать решения.
Знания - обработанная информация, которая используется или использовалась для принятия решений.
Иными словами: знания получены из информации, а информация получена из данных
Приведу пример из жизни:
Петя Петров собирается на свидание и хочет забронировать столик в ресторане. Он решает найти часы работы ресторана, т.к. столик хочет забронировать на вечернее время (в 20:00). Петя нашёл в интернете сайт ресторана с картинкой расписания работы, на которой написано, что ресторан открыт каждый день с 10 до 22:00. Петя через сайт бронирует столик на вторник на 20:00.
Через 15 минут Пете звонит управляющий ресторана и говорит, что режим работы ресторана недавно поменялся и ресторан работает по будням до 20:00 и нужно перенести бронирование. На сайте осталось устаревшее расписание.
Разочарованный Петя решает перенести долгожданное свидание до субботы на вечернее время, ведь его девушка сказала, что в будни не может встретиться с ним раньше 20:00.
Что же в этой истории является данными, информацией и знаниями?
Данные - картинка с расписание работы ресторана с сайта (на ней есть данные о рабочих часах, но эти данные оказались историческими и неактуальными на текущий момент)
Информация - звонок управляющего ресторана и разговор об обновленном расписании работы (Управляющий дал релевантную и актуальную информацию, в нужном контексте для Пети)
Знания - решение Пети перенести свидание и бронирование столика на субботу (Петя получил информацию от управляющего и на основе этой информации принял решение перенести свидание, при этом думая об удобстве девушки)
Данные собираются и накапливаются везде - в больших корпорациях, предприятиях, магазинах, торговых центрах, на улицах городов …
Так кто же может обрабатывать эти данные, чтобы получать из них необходимую и ценную информацию и знания для принятия правильных решений?
Правильно, Аналитик Данных!
Аналитик данных - специалист, который работает с данными, собирает, обрабатывает, изучает и интерпретирует. Благодаря его работе, компании и другие организации могут принимать решения в их деятельности. Иными словами, процесс принятия решений, основанных на анализе и интерпретации данных называется data-driven подход.
Подписывайтесь на мои социальные сети, там выгладываю еше много всего полезного:
Комментарии (2)
BM_MacGregor
22.03.2022 16:00История анализа данных начинается не "примерно с 70-х годов прошлого века", а с 1962 года, когда вышла книга Джона Тьюки ’’Будущее анализа данных", в которой он предложил новую научную дисциплину под названием "анализ данных".
peterpro
Полковник Фридрих Краус фон Циллергут (Циллергут- название деревушки в Зальцбурге, которую предки полковника пропили еще в восемнадцатом столетии) был редкостный болван. Рассказывая о самых обыденных вещах, он всегда спрашивал, все ли его хорошо поняли, хотя дело шло о примитивнейших понятиях, например: "Вот это, господа, окно. Да вы знаете, что такое окно?" Или: "Дорога, по обеим сторонам которой тянутся канавы, называется шоссе. Да-с, господа. Знаете ли вы, что такое канава? Канава - это выкопанное значительным числом рабочих углубление. Да-с. Копают канавы при помощи кирок. Известно ли вам, что такое кирка?"
Он страдал манией все объяснять и делал это с воодушевлением, с каким изобретатель рассказывает о своем изобретении.
"Книга, господа, это множество нарезанных в четвертку листов бумаги разного формата, напечатанных и собранных вместе, переплетенных и склеенных клейстером. Да-с. Знаете ли вы, господа, что такое клейстер? Клейстер - это клей".