Революция, связанная с анализом больших данных, порождает не только замечательные достижения, но и определенные трудности, в том числе методологического характера. Рассмотрим некоторые из них детальнее.

Говоря об анализе больших данных [1], часто не осознается, что за этой вывеской скрывается несколько совершенно различных по своей природе задач. Здесь мы затронем лишь некоторые. Во-первых, это задачи типа полной, а не частичной расшифровки генома каждого конкретного человека. Понятно, что решение таких задач порождают революции в соответствующих областях.

Например, тотальные расшифровки геномов — в медицине. Может быть, ход этих революций не столь быстрый, как надеялся Стив Джобс, но, тем не менее, революции эти неизбежны. Другой тип задач, где обработка выборок заменяется знаменитой формулой BIG DATA (N=ВСЕ), связан с обработкой всех имеющихся однотипных данных, например, с целью прогнозирования.

Здесь революционность получаемых результатов, хотя в какой-то мере и сохраняется, но несколько блекнет. Например, если вместо выборочных опросов института Гэллапа накануне выборов американского президента, провести тотальный опрос всех избирателей США, то точность прогноза повысится, но, наверняка незначительно. Третий тип задач представляет особый интерес. Это тотальный анализ слабоструктурированных данных. Простейшим вариантом такой слабой структурированности может служить фрагментарная структурированность. Проиллюстрируем фрагментарную структурированность на примере данных, содержащих результаты психологического исследования по некоторой конкретной тематике на основе всех разнотипных анкетирований по ней, содержащихся во всемирной сети. Возникающая здесь проблема извлечения знаний носит фундаментальный характер и потому необходимо остановиться на ней особо.

Как известно, современная наука, первоначально западная, а теперь уже и мировая, возникла на базе осознания новых интеллигибельных сущностей — таблиц типа «объект-признак» [2]. Анализ слабоструктурированных данных, с целью извлечения знаний, непосредственно несводим к анализу такого рода таблиц. Однако, с учетом того, что в обозримом будущем не предвидится создания новой фундаментальной науки, единственным выходом из положения является тот или другой способ сведения таких не табличных данных к табличному виду. Это, конечно, в определенной степени осознается теоретиками BIG DATA и находит выражение в их ключевом тезисе «чем больше данных, тем меньше их точность». Таким образом, BIG DATA рисует громадную панораму, но видеть эту панораму удается лишь как бы через запотевшее стекло. Иначе говоря, имеет место некий информационный аналог соотношения неопределенности Гейзенберга. Оптимистические утверждения специалистов, что революция больших данных заменит установление причинности простым подсчетом корреляций, неверны вдвойне.

Во-первых, наука, собственно говоря, никогда и не ставила перед собой задачу ответить на вопрос «почему», то есть о причинности, довольствуясь, на основе «законов природы» констатацией «если так, то так», то есть, по существу, корреляциями.

Во-вторых, корреляции, оцененные даже по всем данным, сколь колоссальным не было бы N, могут слабо отражать реальную связь, из-за неизбежно слабой точности данных. При этом возникают две проблемы. Первая – минимизировать потери в точности при агрегировании слабоструктурированных данных и вторая – повысить эффективность извлечения знаний из этих неточных данных.

Начнем с первой проблемы. Ввиду самой природы таблиц «объект-признак», в первую очередь необходимо осуществить определенную рубрикацию данных, причем каждая рубрика будет соотнесена с определенным «объектом». Содержание этих рубрик может иметь различный объем и характер, но каждой из них должно быть присуще некоторое качество, позволяющее относить данные именно к этому «объекту». Часто оказывается, что помимо этой первичной рубрикации и первичных объектов, необходимо вводить вторичные внутренние рубрикации и соответственно вторичные объекты. Чтобы не осложнять здесь изложение, опустим часто возникающую необходимость синтеза на основе нескольких вторичных объектов, объектов-конструкций. Проиллюстрируем сказанное на упоминавшемся примере психологического исследования. В первичные рубрики здесь попадут данные отдельных исследований – анкетирований, в качестве вторичных объектов выступят отдельные заполненные анкеты. Перейдем теперь к вопросу о признаках. По нашему мнению здесь многое определяется спецификой области, к которой относятся данные и стоящей перед исследователем задачей. Так, например, в нашем психологическом исследовании обычно необходимо построение неких интегральных признаков первичных объектов, некое усреднение которых по всем этим объектам или неким их кластерам и оказывается искомым «знанием».

Что касается второй проблемы, то хотя большие N и являются фактором облегчающим принятие надежных решений, но неточность данных во многих задачах, растущая темпами на много опережающими N указывает на необходимость разработки алгоритмов принятия решений более мощных, чем это может предложить DATA MINING на сегодняшний день.

По нашему мнению именно этот третий тип задач, связанный со слабоструктурированными большими данными, только и следовало бы по существу называть BIG DATA, так как именно тут возникает необходимость создания качественно нового в обработке данных, а не простого использования возрастающей мощности вычислительных машин.

ЛИТЕРАТУРА

1. Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим, Издательство «Манн, Иванов и Фербер», 2013.
2. Мишель Фуко. Слова и вещи. Археология гуманитарных наук, М.:«Прогресс», 1977.>

Комментарии (6)


  1. yusman
    30.03.2016 09:40
    +3

    Без обид, но ваша статья — какая-то «вода», прикрытая «Бихдатой».


  1. Sartor
    30.03.2016 12:17

    Все эти разговоры от того, что на самом деле никто точно не знает что такое Big Data. Относитесь к этому как к бренду. Для науки каких революций не произошло с появлением этого "бренда" — наоборот всё плавно и эволюционно улучшается, хотя темп реально растёт.


    1. BalinTomsk
      30.03.2016 19:19

      ---никто точно не знает что такое Big Data

      изначально предназначалось для баз, размеры которых не могут держать реляционные базы. Но сейчас даже реляционные легко хранят петабайты, поэтому термин давно утерял свое значение.


      1. MrEsp
        04.04.2016 09:14

        В отрасли занимаются Big Data в любом случае, без формального определения. И в целом успешно. Неважно, сколько петабайт хранит база. Если в эту базу новых данных не поступает — мы получаем один setting, в рамках которого живем, если же туда в день приходит по 200 ГБ — совсем другой сеттинг. Занимаемся ли мы анализом собранных данных, строим ли мы витрины данных, есть ли у нас необходимость в близкой к real time обработке — условия могут быть самые разные.


  1. tsafin
    30.03.2016 15:58

    Узнал для себя новое слово "интеллигибельный".


  1. SergeIndex
    05.04.2016 10:46

    "единственным выходом из положения является тот или другой способ сведения таких не табличных данных к табличному виду"

    • крайне спорный тезис. Табличный вид — очень серьезное упрощение тех мысленных структур, в которых мыслит аналитик, и имеет непреодолимые органические недостатки. Хотя, конечно, далеко не для всех задач эти недостатки существенны.

    Все проблемы со структурами данных возникают из-за того, что эти структуры строятся не на основе концептуальной модели предметной области (концептуальное моделирование — развитая дисциплина с отличным инструментарием), а "как лошадь пойдет". Точнее — как программист увидит. Потом люди удивляются, почему не удается соединить данные из одной странной таблицы с другой.
    Вопрос объема выборки не имеет никакого значения, если неправильно построена модель, на основе которой делается расчет. А построить модель таким образом, чтобы она давала практически пригодные результаты в широком диапазоне условий, можно только начав процесс создания расчетной модели с концептуального моделирования.