Я Павел Свиридонов, гуманитарий, который вместо известной сети быстрого питания попал в IT-компанию. У меня нет технического образования, и я всё ещё не до конца понимаю, как работает интернет. Но как выяснилось, не только я хлопаю ресницами и пытаюсь улететь с совещаний, где речь заходит про…
Впрочем, вот краткая предыстория. Однажды мой приятель — проджект в одной компании и бывший учитель английского, пожаловался: «На созвонах, где речь про бигдату заходит, я ничего не понимаю!» И это прям эхом отозвалось в моей душе: увы, но у меня с пониманием больших данных дела обстояли не лучше. Да что там: признаюсь, когда наши дата-инженеры начинали говорить, мне казалось, что беседа вдруг перешла на эльфийский.
Обидно!
И вот, отчасти чтобы помочь другим гуманитариям, отчасти чтобы разобраться в теме самому, я задумал маленькую контентную революцию: составить Словарь больших данных! Но такой, чтобы собранные в нём основные термины по бигдате, объяснялись просто, на бытовых примерах, понятных любому человеку, независимо от образования и профессии.
На что стоит обратить внимание для погружение в тему больших данных? Какие термины предстоит изучить? И насколько глубоко нужно копнуть, чтобы понять, как работают платформы по обработке и анализу бигдаты?
Об этом и о том, в каких муках рождался обозначенный выше Словарь, и написана эта статья.
Вниз по кроличьей норе
После того, как я с коллегами составил список основных и самых важных терминов, пришло время наполнять Словарь контентом. Я не рассчитывал, конечно, что работа над этим материалом будет легкой прогулкой, но после прочтения первого же абзаца в Википедии почувствовал себя героем известного мема. ????????
Структурированные и неструктурированные данные, формула 3V, горизонтально масштабируемые программные инструменты — новая информация погрузила меня в бесконечную матрицу, где за большим массивом знаний шел следующий…
Словом, оказалось, что нужно было начать с понимания того, что вообще такое «большие данные». До этого казалось, что это некий “эфир”, незримая субстанция, витающая в воздухе и наполненная знаниями. На деле они обладали определенными признаками, а их описание было похоже на формулировку физического закона. Например, они характеризуются скоростью обновления, объёмом, достоверностью, тем, что эти данные можно визуализировать, или изменчивостью, т.е возможностью менять своё значение в зависимости от контекста.
Но… это были ещё цветочки; ягодки появились, когда дело дошло до терминов, которые описывают работу платформы Big data. Так в мою жизнь вошли знания о реляционных базах данных, наборах данных как способе хранить информацию и SQL — языке программирования, с помощью которого можно управлять данными в таких базах.
Всё чудесатее и чудесатее
Три дня я изучал все доступные достоверные источники. От новых знаний мозг мой опух, но список терминов наполнился-таки определениями. Пришла пора проверить мои наработки с экспертом. Им выступил наш руководитель отдела систем обработки данных Иван Хозяинов.
Первое, что я сказал ему, было:
— Ваня, мой мозг уже напоминает плавленный сырок. Я ничего не понимаю! Вот, казалось бы, данные — они и есть данные. Но оказывается, у них есть ещё и скорость, и достоверность, и ещё какие-то признаки. И вообще, почему «большие данные»? Что, есть и маленькие???
Ответ Ивана меня окончательно… удивил:
— Вообще, да, данные бывают маленькими. Когда они поступают небольшими объемами и очень редко, и это какая-то скудная информация, которую никак нельзя применить. Например, показатель температуры, который приходит к нам раз в год и состоит из пары замеров, и даже непонятно, где эти измерения были сделаны.
Мы пришли к выводу, что проще всего объяснить суть больших данных на примере круговорота воды в природе.
Например, объём. Вода может собраться и в лужу, и в океан. Так же и данные — из источника их может поступать очень много, а может и совсем по чуть-чуть. Воду в природе можно увидеть в разных состояниях: в виде пара или льда. Данные тоже бывают в разных состояниях — их нужно распаковать, расшифровать или собрать, чтобы работать с ними. Они, как и вода, могут течь с разной интенсивностью — быстро и бурно, как горная река, или тоненькой струйкой, словно ручей. Чтобы добыть пользу из данных, их необходимо обработать специальными инструментами — почти как с водой, которую нужно прокипятить и отфильтровать, чтобы пить, или закинуть в неё сети или удочку, чтобы поймать рыбу.
Не бойся Бармаглота, сын!
С Иваном мы прошли весь список терминов, который к тому моменту состоял из пары десятков позиций, и добавили примеры. Но Словарь должен был получить ещё одобрение главного по пиару в ITSumma — Глеба Русина. И тут вышла заминка — примерно как в том меме про «Всё фигня, переделывай». Старший товарищ сказал, что мы сильно перемудрили: определения были сложными, а примеры ничего толком не объясняли. Большая часть Словаря попросту не выполняла свою функцию и была непонятной.
И я пошёл переделывать.
Убирал заумные определения, а примеры постарался привести бытовые.
Вот как мы описали ETL/ELT-процессы с помощью того, что происходит в обычном магазине у дома.
Если бы такие процессы проходили в супермаркете “Надопакет”, они выглядели бы так. Извлечение данных — extract — буква E в ETL, аналогично тому, когда грузчик достает товары из кузова грузовика и несет их на склад. При этом в магазин поступили самые разные продукты — от газет и журналов до яиц и молока.
Все товары, как и данные, проходят обработку и преобразование. Это буква T (transform) в ETL. В случае супермаркета завскладом проверяет срок годности, состояние упаковки и заносит их в систему товарооборота. Данные же оценивают на качество, т.е. соответствие определенным критериям, отмечают, что это за данные, и для чего они могут понадобиться.
После этого товары попадают на соответствующие полки в торговом зале. Как бы “загружаются” в магазин. Что соответствует букве L — load, загрузка/запись данных в хранилище для дальнейшего использования.
Это лишь один удачный пример, который нам удалось придумать. Возможно, он не самый точный, но зато понятно описывает сложные процессы, происходящие на платформе по обработке и анализу данных.
И ещё пара моих любимых примеров из Словаря.
Что такое потоковая и пакетная обработка данных, мы объясняем через грязную посуду:
Если вы целый день копите грязную посуду в раковине, складываете туда тарелки, кружки и кастрюли и моете только вечером — это пакетная обработка посуды.
А если вы моете посуду сразу, как поели — это потоковая обработка посуды.
Кое-что про брокер сообщений на платформе по анализу и обработке данных:
Представьте себе логиста, который принимает грузы и направляет их туда, куда нужно. Он беглым взглядом распознает, что за посылка перед ним, сверяется со списками адресов, пишет на ней пункт назначения и отправляет груз. Примерно такую же функцию выполняет на платформе брокер сообщений.
К чему это всё?
К тому, что большие данные и всё, что с ними связано, — это не так уж и страшно. Да, на первый взгляд кажется, что это дремучий лес, в котором живут одни лишь датасатанисты (извините, коллеги). Но стоит погрузиться в тему, и становится понятно — big data везде и во всем. В каком-то смысле она — это весь мир, что нас окружает, всё, что мы видим и ощущаем.
Забавно, что после работы над Словарем я вижу данные везде. Так и хочется всё оцифровать, посмотреть на результат, покопаться в нем и вытащить оттуда каких-нибудь полезных инсайтов…
Конечно, для меня как гуманитария и прирожденного зазывалы на свободную кассу, это был некий челлендж. И тут больше спасибо коллегам за то, что нам удалось с помощью креативной жилки превратить научные определения в понятные термины. Надеюсь, наш Словарь и для вас будет полезен!
Комментарии (4)
AndreyYu
23.06.2022 11:37Описывайте термины на примере посадки картошки :) Это точно легко заходит
Как пример https://habr.com/ru/post/453006/
Nbx
23.06.2022 17:25Описывайте термины на примере посадки картошки
Надо только помнить, что уже выросло поколение которое никогда картошку не сажало, так что для них надо сначала выпустить словарик по посадке картошки, а потом, уже на его основе идём дальше.
LovedTeticoma
23.06.2022 11:40Ахах, не знаю почему тут нет комментов, но я закончил колледж на техника по информационным системам, сейчас работаю единственным специалистом по IT, но про бигдаты только читал на форумах, статья классная, пиши ещё)
niufcha
Красивая верстка. Правда, непонятно, почему расшифрованы все аббревиатуры кроме OLAP/OLTP.