Автоматизация аналитики Jira средствами Apache NiFi / forpes.ru

Главная
Автоматизация аналитики Jira средствами Apache NiFi

Автоматизация аналитики Jira средствами Apache NiFi +11

11.11.2020 20:55

m-pilipenko 12 1200 Источник

Приветствую, господа. Я Маша, мне 23, и я уже полгода изучаю и внедряю на практике Apache NiFi.

Должна отметить, что спустя месяц после знакомства с этой технологией — я начала употреблять антидепрессанты. Был ли NiFi триггером или последней каплей достоверно неизвестно, как и его причастность к данному факту. Но, раз уж, я взялась изложить все, что ждет потенциального новичка на этом пути — я должна быть максимально откровеннной.

В тот час, когда технически Apache NiFi — мощное связующее звено между различными сервисами (осуществляет обмен данными между ними, по пути позволяя их обогащать и модифицировать), смотрю я на него с точки зрения аналитика. А все потому, что NiFi весьма удобный инструмент для ETL. В часности, в команде мы ориентируемся на построение им SaaS архитектуры.

Опыт автоматизации одного из своих рабочих процессов, а именно формирование и рассылка еженедельной отчетности по Jira Software, я и хочу раскрыть в данной статье. К слову, методику аналитики таск-треккера, которая наглядно отвечает на вопрос — а чем же занимаются сотрудники — я также опишу и опубликую в ближайшее время.

Несмотря на посвящение данной статьи новичкам, считаю правильным и полезным если более опытные архитекторы (гуру, так скажем) отрецензируют ее в кромментариях или поделятся своими кейсами использования NiFi в различных сферах деятельности. Много ребят, включая меня, скажет вам спасибо.

Концепция Apache NiFi — кратко

Apache NiFi — opensource продукт для автоматизации и управления потоками данных между системами. Приступая к нему важно сразу осознать две вещи.

Первое — это зона Low Code. Что я имею ввиду? Предполагается, что все манипуляции с данными с момента их попадания в NiFi вплоть до извлечения можно выполнить его стандартными инструментами (процессорами). Для особых случаев существует процессор для запуска скриптов из bash-а.

Это говорит о том, что сделать что-то в NiFi неправильно — довольно сложно (но мне удалось! — об этом второй пункт). Сложно потому, что любой процессор будет прямо таки пинать тебя — А куда отправлять ошибки? А что с ними делать? А сколько ждать? А тут ты выделил мне маловато места! А ты докумментацию точно внимательно читал? и т.д.

Второе (ключевое) — это концепция потокового программирования, и только. Тут, я лично, не сразу врубилась (прошу, не судите). Имея опыт функционального программирования на R, я неосознанно формировала функции и в NiFi. В конечном счете — переделывай — сказали мне коллеги, когда увидели мои тщетные попытки эти «функции» подружить.

Думаю, хватит на сегодня теории, лучше узнаем все из практики. Давайте сформулируем подобие ТЗ для недельной аналитики Jira.

Достать из жиры ворклог и историю изменений за неделю.
Вывести базовую статистику за этот период и дать ответ на вопрос: чем же занималась команда?
Отправить отчет боссу и коллегам.

Дабы принести миру больше пользы, я не остановилась на недельном периоде и разрабатывала процесс с возможностью выгрузки гораздо большего объема данных.

Давайте же разбираться.

Первые шаги. Забор данных из API

В Apache NiFi нету такого понятия как отдельный проект. У нас есть только общее рабочее пространство и возможность формирования в нем групп процессов. Этого вполне достаточно.

Находим в панели инструментов Process Group и создаем группу Jira_report.

Идем в группу и начинаем строить поток (workflow). Большинство процессоров из которых его можно собрать требуют Upstream Connection. Простыми словами это триггер, по которому процессор будет срабатывать. Потому логично, что и весь поток будет начинаться с обычного триггера — в NiFi это процессор GenerateFlowFile.

Что он делает. Создает потоковый файл, который состоит из набора атрибутов и контента. Атрибуты — это строковые пары ключ / значение, которые ассоциируются с контентом.

Контент — обычный файл, набор байтов. Представьте что контент это аттач к FlowFile.

Делаем Add Processor >GenerateFlowFile. В настройках, в первую очередь, настоятельно рекомендую задать имя процессора (это хороший тон) — вкладка Settings. Еще момент: по умолчанию GenerateFlowFile генерит потоковые файлы непрерывно. Вряд ли это вам когда-нибуть понадобится. Сразу увеличиваем Run Schedule, к примеру до 60 sec — вкладка Scheduling.

Также на вкладке Properties укажем дату начала отчетного периода — атрибут report_from со значением в формате — yyyy/mm/dd.

Согласно документации Jira API, у нас есть ограничение на выгрузку issues — не больше 1000. Потому, чтобы получить все таски, мы должны будем сформировать JQL запрос, в котором указываются параметры пагинации: startAt и maxResults.

Зададим их атрибутами с помощью процессора UpdateAttribute. Заодно прикрутим и дату генерации отчета. Она понадобится нам позже.

Вы наверняка обратили внимание на атрибут actual_date. Его значение задано с помощью Expression Language. Ловите крутую шпаргалку по нему.

Все, можем формировать JQL к жире — укажем параметры пагинации и нужные поля. В последующем он будет телом HTTP запроса, следовательно, отправим его в контент. Для этого используем процессор ReplaceText и укажем его Replacement Value примерно таким:

{"startAt": ${startAt}, "maxResults": ${maxResults}, "jql": "updated >= '2020/11/02'", "fields":["summary", "project", "issuetype", "timespent", "priority", "created", "resolutiondate",  "status", "customfield_10100", "aggregatetimespent", "timeoriginalestimate", "description", "assignee", "parent", "components"]}

Обратите внимание как прописываются ссылки на атрибуты.

Поздравляю, мы готовы делать HTTP запрос. Тут впору будет процессор InvokeHTTP. Кстати он может по всякому… Я имею ввиду методы GET, POST, PUT, PATCH, DELETE, HEAD, OPTIONS. Модифицируем его свойства следующим образом:

HTTP Method у нас POST.

Remote URL нашей жиры включает IP, порт и приставочку /rest/api/2/search?jql=.

Basic Authentication Username и Basic Authentication Password — это креды к жире.

Меняем Content-Type на application/json b ставим true в Send Message Body, что значит переслать JSON, который прийдет из предыдущего процессора в теле запроса.

APPLY.

Ответом апишки будет JSON файл, который попадет в контент. В нем нам интересны две вещи: поле total cодержащее общее количество тасок в системе и массив issues, в котором уже лежит часть из них. Распарсим же ответочку и познакомимся с процессором EvaluateJsonPath.

В случае, когда JsonPath указывает на один обьект, результат парсинга будет записан в атрибут флоу файла. Тут пример — поле total и следующий скрин.

В случае же, когда JsonPath указывает на массив обьектов, в результате парсинга флоу файл будет разбит на множество с контентом соответствующим каждому обьекту. Тут пример — поле issue. Ставим еще один EvaluateJsonPath и прописываем: Property — issue, Value — $.issue.

Теперь наш поток будет состоять теперь не из одного файла, а из множества. В контенте каждого из них будет находиться JSON с инфо об одной конкретной таске.

Идем дальше. Помните, мы указали maxResults равным 100? После предыдущего шага у нас будет сто первых тасок. Получим же больше и реализуем пагинацию.

Для этого увеличим номер стартовой таски на maxResults. Снова заюзаем UpdateAttribute: укажем атрибут startAt и пропишем ему новое значение ${startAt:plus(${maxResults})}.

Ну и без проверки на достижение максимума тасок не обойдемся — процессор RouteOnAttribute. Настройки следующие:

И зациклим. Итого, цикл будет работать, пока номер стартовой таски меньше чем общее к-во тасок. На выходе из него — поток тасок. Вот как процесс выглядит сейчас:

Да, друзья, знаю — вы подустали читать мои каменты к каждому квадратику. Вам хочется понять сам принцип. Ничего не имею против.

Данный раздел, должен облегчить абсолютному новичку этап вхождения в NiFi. Дальше же, имея на руках, щедро подаренный мною шаблон — вникнуть в детали не составит труда.

Галопом по Европам. Выгрузка ворклога и др.

Ну, что, ускоримся. Как говорится, найдите отличия:

Для более легкого восприятия, процесс выгрузки ворклога и истории изменений я вынесла в отдельную группу. Вот и она:

Чтобы обойти ограничения при автоматической выгрузке ворклога из Jira, целесообразно обращаться к каждой таске отдельно. Потому нам нужны их ключи. Первый столбец как раз и преобразует поток тасок в поток ключей. Далее обращаемся к апишке и сохраняем ответ.

Нам удобно будет оформить worklog и changelog по всем таскам в виде отдельных документов. Поэтому, воспользуемся процессором MergeContent и склеим им содержимое всех флоу файлов.

Также в шаблоне вы заметите группу для выгрузки данных по эпикам. Эпик в Jira — это обычная таска, к которой привязывается множество других. Данная группа будет полезна в случае когда добывается лишь часть задач, чтобы не потерять информацию об эпиках некоторых из них.

Заключительный этап. Генерация отчета и отправка по Email

Окей. Тасочки все выгрузились и отправились двумя путями: в группу для выгрузки ворклога и к скрипту для генерации отчета. К последнему у нас STDIN один, поэтому нам необходимо собрать все задачи в одну кучу. Сделаем это в MergeContent, но перед этим чуть подправим контент, чтобы итоговый json получился корректным.

Перед квадратиком генерации скрипта (ExecuteStreamCommand) присутствует интересный процессор Wait. Он ожидает сигнала от процессора Notify, который находиться в группе выгрузки ворклога, о том что там уже все готово и можно идти дальше. Дальше запускаем скрипт из bash-a — ExecuteStreamCommand. Ии отправляем отчетик с помощью PutEmail всей команде.

Подробно о скрипте, а также об опыте реализации аналитики Jira Software в нашей компании я поведаю в отдельной статье, которая уже на днях будет готова.

Кратко скажу, что разработанная нами отчетность дает стратегическое представление о том чем занимается подразделение или команда. А это бесценно для любого босса, согласитесь.

Послесловие

Зачем изнурять себя если можно сразу сделать все это скриптом, — спросите вы. Да, согласна, но частично.

Apache NiFi не упрощает процесс разработки, он упрощает процесс эксплуатации. Мы можем в любой момент остановить любой поток, внести правку и запустить заново.

Кроме того, NiFi дает нам взгляд сверху на процессы, которыми живет компания. В соседней группе у меня будет другой скрипт. В еще одной будет процесс моего коллеги. Улавливаете, да? Архитектура на ладони. Как подшучивает наш босс — мы внедряем Apache NiFi, чтобы потом вас всех уволить, а я один нажимал на кнопки. Но это шутка.

Ну а в данном примере, плюшки в виде задачи расписания для генерации отчетности и рассылка писем — также весьма и весьма приятны.

Признаюсь, планировала еще поизливать вам душу и рассказать о граблях на которые я наступила в процессе изучения технологии — их ого сколько. Но тут и так уже лонгрид. Если тема интересна, прошу, дайте знать. А пока, друзья, спасибо и жду вас в комментариях.

Полезные ссылки

Гениальная статья, которая прямо на пальчиках и по буковкам освещает что такое Apache NiFi.

Краткое руководство на русском языке.

Крутая шпаргалка по Expression Language.

Англоязычное комьюнити Apache NiFi — открыто к вопросам.

Русскоязычное сообщество Apache NiFi в Telegram — живее всех живых, заходите.

Комментарии (12)

crazylh
12.11.2020 02:00
#22293998
+1
Маша, статья супер. Еще бы картинки кликабельные, чтобы можно было потоки рассмотреть.
1. m-pilipenko Автор
  12.11.2020 08:00
  #22294368
  Благодарю :) Пофиксила!

gonchik
12.11.2020 07:46
#22294342
Спасибо за статью!
Подскажите, я правильно понял, что именно визуализация самого алгоритма подкупила использование?
Или именно встроенность существующих функционала как отправка и крон?
1. m-pilipenko Автор
  12.11.2020 08:09
  #22294382
  Да, подкупила визуализация процесса. Это, можно считать, его бэкенд. А все мои аналитичиские штучки делаются уже отдельно скриптом )
  1. gonchik
    12.11.2020 08:27
    #22294414
    А можно побольше про аналитические штучки:)
    
    m-pilipenko Автор
    12.11.2020 08:34
    #22294430
    Конечно!) только им нужна отдельная статья, на днях выпущу :)

sshikov
12.11.2020 07:48
#22294350
Мы можем в любой момент остановить любой поток, внести правку и запустить заново.

То есть, мы по факту выпустили релиз кода, но при этом нигде это не отразилось? И возможно никто никогда не узнает, что поток изменили? И не узнает, что изменили? И почему? И даже jira на это изменение не заведет никто, и уж тем более — эта задачка в jira в коде не отразится (потому что в Git изменение тоже не положили)? Я правильно понимаю, что вы работаете с кодом без его версионирования?

Архитектура на ладони.

Да-да. Пока влезает в один экран — кажется что так оно и есть. Потом — в один лист А0 в напечатанном виде. Потом это впечатление вообще пропадает. Проходили, причем много раз. UML, BPM — им просто нет числа, таким языкам и нотациям. Вам кажется, что вы видите свои процессы в виде картинки — а потом выясняется, что для реального понимания, как они работают, нужно посмотреть какое-то свойство у квадратика или стрелочки. И вот на этом все «понимание» архитектуры обычно и заканчивается.
1. m-pilipenko Автор
  12.11.2020 08:22
  #22294402
  То есть, мы по факту выпустили релиз кода, но при этом нигде это не отразилось?
  
  Не совсем. Как я и говорила в статье, NiFi не про разработку, а про архитектуру. В последней часто происходят изменения. Меняются ip, версии сервисов, которые мы дергаем и т.д. Такие правки обычное дело, но менять из-за них каждый раз код, согласитесь, напрягает. Лучше вынести в NiFi.
  
  Вам кажется, что вы видите свои процессы в виде картинки — а потом выясняется, что для реального понимания, как они работают, нужно посмотреть какое-то свойство у квадратика или стрелочки.
  
  Для этого существует документирование. Внятные названия процессоров и каменты маст хев. Также разбивка на группы процессов поможет не потеряться.
  1. sshikov
    12.11.2020 13:34
    #22295608
    >Не совсем. Как я и говорила в статье, NiFi не про разработку, а про архитектуру.
    Не, ну смотрите — вы можете это назвать как угодно, но если там есть IP или url коннекта — это код. Или как это нынче модно — инфраструктура as code. Как ни называй, но если вы это меняете вот так вот без версионирования — это может рано или поздно выстрелить. Потому что вчера кто-то там поменял, и ушел в отпуск, забыв документировать. А если бы оно проходило через git, как это следует делать — то там были бы и версии, и ссылка на jira (а с чего собственно вы меняете ip на проме сервисе, по какому такому поводу — где задача-то?), и все остальное. А дальше pull request, согласование, в общем — полноценный процесс взрослой зрелой разработки.
    
    Скажем, в нашей большой распределенной команде за такое изменение конфигов прома могут дать по шапке — и будут правы.
    
    Что в общем не отменяет возможности того, что в вашем проекте в силу его специфики, размеров, размеров команды и ее квалификации такое вполне может работать. До поры до времени…

gonchik
12.11.2020 08:29
#22294420
Маша, подскажите а как вы выбирали эту тулзу?
Пробовали рассмотреть Talend? Тоже неплохая тулза для etl и визуализирует процесс .
1. m-pilipenko Автор
  12.11.2020 08:44
  #22294442
  Мы выбирали с упором на мощность и удобства работы с биг дата. У нас NiFi используют и девопсы и админы и я со своей аналитикой )
  1. sshikov
    12.11.2020 18:19
    #22297088
    А что в вашем понимании есть bigdata? Дело в том, что у нас NiFi тоже есть, для определенных задач, и я бы сказал, что по сравнению скажем со Spark он не масштабируется никак. Ну т.е. вы можете конечно наращивать размеры кластера, но когда рядом стоит хадуп кластер из 100 узлов, и Spark масштабируется динамически от 1 ядра до всех 100 узлов, а рядом NiFi — и его размер фиксирован, и вот так просто не растет, если сегодня вдруг лишний терабайт прибежал — то это грустно.
    
    И на хадуп его никто не разворачивает, потому что у него же планировщик задач свой, и как он будет жить с ярн — непонятно. Насколько я знаю, на ярне он работать не умеет.

Автоматизация аналитики Jira средствами Apache NiFi +11

Концепция Apache NiFi — кратко

Первые шаги. Забор данных из API

Галопом по Европам. Выгрузка ворклога и др.

Заключительный этап. Генерация отчета и отправка по Email

Послесловие

Полезные ссылки

Комментарии (12)

crazylh

m-pilipenko Автор

gonchik

m-pilipenko Автор

gonchik

m-pilipenko Автор

sshikov

m-pilipenko Автор

sshikov

gonchik

m-pilipenko Автор

sshikov