Почему все стали так помешаны на больших данных и что значат все эти слова?
Почему все молятся на биг дату
Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.
Преимущества больших данных:
- С ними интересно работать.
- Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
- Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
- Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.
Наука о данных
Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.
Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.
Примеры применения науки о данных:
- Тактическая оптимизация — улучшение маркетинговых кампаний, бизнес-процессов.
- Прогнозируемая аналитика — прогноз спросов и событий.
- Рекомендательные системы — Amazon, Netflix.
- Системы автоматического принятия решений — например распознавание лиц или даже беспилотники.
- Социальные исследования — обработка анкет или данных, полученных любым другим способом.
Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.
Аналитика
Аналитика — это наука об анализе, применении анализа данных для принятия решений.
Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.
В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.
Анализ данных
Анализ данных — это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.
Машинное обучение
Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.
При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.
Примеры алгоритмов:
- Модели, которые могут прогнозировать поведение пользователя.
- Классификационные модели, которые могут узнать и отфильтровать спам.
- Рекомендательные системы — изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
- Нейронные сети — не только распознают образы, но и сами могут их создавать.
Исследователи применяют техники машинного обучения, чтобы автоматизировать решение некоторых задач. Эти системы очень нужны для работы с некоторыми очень сложными проектами. Например, чтобы узнать в какой стране живут самые счастливые люди, ученые определяли улыбки на фотографиях, загруженных в Instagram.
Отбор данных
Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.
Дата майнинг — это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.
Конспект
- Чем больше данных, тем сложнее их анализ.
- Наука о данных — это знания о выводимых данных, отбор, подготовка и анализ.
- Машинное обучение применяется для сбора и анализа массивов данных.
- Дата майнинг — это процесс очистки больших данных и подготовки их к последующему анализу.
Комментарии (8)
knagaev
04.08.2015 15:48+4Очень неоднозначная статья.
Особенно если принять во внимание содержание первого абзаца как цель.
Очень много фактологических некорректностей.
Про то, что дэйта майнинг — это не очистка данных, написали в первом же комментарии.
И так далее.
Например, про машинное обучение совсем не то написано.
Его не применяют для сбора и оно не для получения представлений из массива (за редким исключением).
Та же самая регрессия — где там представление? Там ищутся переменные отклика, которых не будет в исходном массиве.
Сыровата статья…
kypexin
05.08.2015 09:32Присоединяюсь к недоумению комментаторов выше. С какой целью даны эти, мягко говоря, не совсем верные дефиниции известным вещам? Ведь уже давно есть общепринятые определения дата майнинга как процесса извлечения знаний из данных (Пятецкий-Шапиро), машинного обучения как класса алгоритмов, обучающихся предсказывать неизвестные данные на основе известных, и т.д. Статья только вносит ненужную путаницу в понятные вещи ;(
potan
05.08.2015 12:43«Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты.»
Выкинуть 90% — и работать будет легко! ;-)
Чем меньше данных, тем сложнее с ними работать. Та математика, что работает с маленькими данными тем более будет работать с большими, при наличии вычислительных ресурсов (а это вопрос только денег).
Сложность и интересность больших данных в том, что они позволяют наблюдать очень тонкие эффекты, которые нельзя наблюдать на маленьких выборках и для которых соответственно нужны товые методы.
ser0t0nin
05.08.2015 17:25-1Интересно, на кого рассчитана эта статья? Просто набор ссылок на эти термины в википедии был бы информативнее, как мне кажется. Или главная цель поста — раздуть спор?
forewar
06.08.2015 13:40Судя по данной и другим статьям из этого блога, у них просто есть кто-то, кто любит рисовать картинки.
ganqqwerty
Дата-майнинг — это не про очистку данных. Про очистку — это data cleansing, data wrangling, до определенной степени data curation.
Maslochka
а очистку делают data cleaners?))