В 2013 году IBS, которые тогда, кажется, создавали Дивизион данных, попросили меня сделать такой брейндамп (исключительно на базе опыта взаимодействия с корпоративными нефтегазовыми заказчиками) по поводу проблемной области Больших Данных, да и Данных вообще. Вот я наткнулся на него спустя 7 лет и показалось забавно. Некоторые вещи очевидны. Некоторые не совсем верны оказались, но… 7 лет прошло.

Писал по-английски и вот подумал перевести на русский. Вдруг что-то актуально и сейчас? (Переведу буллеты, а таблички оставлю английскими от лени. Зеленое – хорошо, красное – опасно, голубое — мечта).

Минимальные комментарии из «сегодня» оформлю италиком, чтобы было понятно и отличимо.

Итак, ДАННЫЕ! Нам данные…

Дивизион Данных – это Дивизион Крови, потому что данные можно сравнить, например, с кровью, бегущей по венам и артериям бизнес организма. Однако хотя кровь одна – организмы разные и потому продуктизация очень затруднена, но она же и представляет собой возможность для развития.

Есть люди, которым данные прямо в глаза бросаются – это Мы.
И есть люди, которые данных увы в упор не видят. Это, опять же увы, наши Заказчики!



Итак, бизнес постулаты…

  1. Продаем бизнесу, а не ИТ (да простят меня все айтишники сразу) ибо решаем мировые проблемы, ну и денег побольше.
  2. Все бизнес проблемы сконцентрированы вокруг тематических отраслевых вертикалей и потребуют адекватной специализации.
  3. Попытки доказать ценность «данных» или, что еще сложнее ценность «управления данными» бизнесу – это вечные страдания и боль. По сути, это как прийти к человеку, который себя неплохо чувствует и сказать: “Чувак, мы тебе сейчас кровь полечим, и, чувак, это дорого!»
  4. Моя прямо «влажная мечта» это в рамках SaaS модели продавать «извлечение данных» и «аналитику» малому и среднему бизнесу, которые залезли в 123 облачных сервиса с прикольными интерфейсами: project management, helpdesk, accounting, CRM, payroll, time reporting, marketing, … you name it, и закопались в данных. Youcalc и Successfactors (нет уже таких наверное) это хорошо!
  5. Ищите людей, которые любят возиться “crunch” с данными. Они редкие и странные (как гадатели на кофейной гуще), но ключевые для бизнеса. Поэт, например, может очень неплохо разбираться в корреляции.
  6. Инженеры нужны! Нужны, чтобы превратить проблемы, которые Cruncher’ы вытащили из данных в решения. И успех, или неуспех решения целиком зависит от них.
  7. Развитие opensource проектов представляет собой огромную ценность и дает возможность «собирать» сложные решения практически «с нуля».
  8. Но… нельзя забывать, что Hadoop – это библиотека, и Lucene – тоже библиотека, а расстояние между библиотекой и промышленным продуктом значительно!
  9. Выстроенные решения придется существенно адаптировать, потому модульность и интегрируемость – ключевые моменты.
  10. Аджайл (прости Господи) — ключевая техника во взаимодействии с заказчиком и проверке гипотез, которых будет много.
  11. Аутсорсить всякий кодинг и UI особенно можно и нужно. Всю бизнес аналитику и спецификации бэкэнда нужно оставлять внутри и рассматривать как ключевую компетенцию.
  12. Люди, принимающие решение от бизнеса, должны быть постоянно «информированы» о необходимости правильной работы с данными и постоянного поиска новых способов их анализа. Комбинация технических и бизнес компетенций наших сотрудников помогут поднять статус всей организации в целом.
  13. Интернет – есть бесконечный источник вдохновения (это тогда еще котиков не так много было) в отношении подходов к корпоративному управлению данными несмотря на то, что задачи и масштаб существенно различаются.




Технологические постулаты…

  1. Существует огромный потенциал развития в упрощении того, как данные показываются людям. Можно назвать это словом «айфонизация».
  2. Несмотря на то, что BI вендоры утверждают, что они прямо приносят аналитику конечным пользователям, (и они конечно движутся в этом направлении) – прорыва все еще не произошло. Люди просто плохо понимают многомерные данные.
  3. Пользовательский интерфейс, представляющий более или менее сложные слабо структурированные данные в фасетизированном виде – представляет так же бесконечное количество проблем. Вывод: чем более площе (flatter) – тем лучше.
  4. Платформа, выстроенная на базе автоматического извлечения данных из источников (которые не всегда предназначены для такого извлечения) находится в существенной зависимости от источников, устойчивости коннекторов, и инфраструктуры. В неспособности обеспечить результат всегда обвинят платформу (гонца). Доверие – капитал такого рода платформ. Капитал, который тяжело заработать и которого легко лишиться.
  5. С точки зрения бизнеса нет никакой разницы между анализом Больших Данных и Просто Данных. Часто за простыми как 2х2 числами лежат возможности на миллионы долларов. Хороший пример – данные об окончании срока службы элементов инфраструктуры на Норвежском шельфе. Когда все даты будущих кап. ремонтов всего оборудования положили на одну ось и выяснили, что через N лет грядет прям шельфовый Армагеддон — один очень состоятельный человек встал с кресла и поспешно раскланявшись вышел из комнаты со словами: «Извините, у меня мало времени, мне надо готовить флот…»
  6. Excel, а по сути ясное и четкое табличное представление данных обладает огромной силой и большим будущим. Верю в красивые таблицы (и до сих пор)и все тут!
  7. Главный бантик всей этой «аналитики» — это автоматизация принятия решений. Там самые жирные возможности, но и самые высокие риски, потому и возможности жирные, потому и риски, потому и возможности, потому ириски… :) Управление бурением скважин, например…
  8. Если «интегрируемость» — это ключевая фича, то данные де-факто должны быть представлены в виде сервиса. REST рулит, но нельзя забывать об оптимизации производительности, которую часто сейчас приносят в жертву интегрируемости, ибо вычислительная мощность продолжает расти.
  9. Мастер данные – это то, что нужно локализовать, извлекать, стандартизовать, прежде чем адресовать какие-то бизнес вопросы. Мастер данные — маленькие, а проблемы с ними — большие! Как говорят братья семантики – 50% всех мировых проблем оттого, что люди называют одни и те же вещи разными именами, а другие 50% от того, что они называют разные вещи одним именем.
  10. Любая инкапсуляция на уровне хранения ограничивает открытость решения и ведет к SILO-фикации. Хорошо если вы большой вендор, в противном случае – так себе. (Здесь речь идет, конечно, не о блочном уровне и не об AWS S3, которому уже 6 лет тогда было, а о файлах).
  11. Реляционное моделирование данных нам больше не друг. RDF и key-value – круто! Мы видели магические преобразования реляционных баз с моделями в 2000 таблиц в 15 таблиц, и никто из пользователей ничего не потерял.
  12. Интернет работает потому, что есть URL как единый способ адресации. Важность URL или вернее URI для информационных ресурсов предприятия сложно переоценить.
  13. Text mining и NLP популярны. В Интернете. Но и в корпоративном секторе можно достичь огромных успехов извлекая структурированные данные из неструктурированных корпоративных данных.
  14. Синергия между структурированными данными и информацией, извлеченной из неструктурированных данных, т.е. файлов – аналитический Клондайк.
  15. Извлекая данные – не забываем о правах и копирайтах.
  16. Компания, занимающаяся извлечением данных, должна сформировать департамент хакеров, в хорошем смысле этого слова. Вдохновлено тяжелой борьбой с системами защиты Желтых Страниц от поисковых ботов.
  17. До того, как работать с данными – их необходимо «увидеть» во всей полноте. Это сложно объяснить. Мне на ум приходят табличные формы. Кому-то графические представления, но ведь любой график — это уже интерпретация. Так или иначе… «увидеть»!
  18. Повторяясь в вопросе «доверия» пользователей фронтэнду. Доверие к коннекторам/процессам порождения данных, доверие к данным, доверие к принимаемым решениям.