Сбор, анализ и использование больших данных из технологической инфраструктуры – одно из важных развивающихся направлений работы Mars IS. В сегодняшней публикации мы расскажем о проекте по использованию платформы SPLUNK для мониторинга и анализа операционной деятельности IT-инфраструктуры и приложений.
Каждый IT-специалист понимает, что такие области деятельности как большие данные и машинное обучение имеют огромный потенциал. В Mars IS по этим темам было много различных наработок, но глобальное видение и движение к понятной цели появились лишь после того, как мы выбрали несколько стратегических технологий.
Одной из них стала платформа для операционного анализа SPLUNK. Это основной программный продукт одноименной американской компании, который позволяет собирать, анализировать и использовать машинные данные из технологической инфраструктуры, систем безопасности и бизнес-приложений.
Эти данные обладают огромным скрытым потенциалом. Использование результатов машинного анализа такой информации помогает повысить производительность, прибыльность, конкурентоспособность и безопасность компании.
Надо сказать, что Mars IS не является новичком в использовании SPLUNK. Мы много лет использовали эту платформу, но, как и большинство других компаний, только для мониторинга нарушений системы безопасности. И за это время она очень хорошо себя зарекомендовала.
Вывод SPLUNK за пределы области безопасности содержал в себе определенный риск, поскольку на сегодняшний день в мире не так много компаний используют ее для чего-то большего. Но мы видели потенциал системы, были готовы развиваться и улучшать сам продукт.
Файлы приложений с записями событий (логи) – это миллионы строчек кода, который в ручную не то что проанализировать, а даже просмотреть невозможно. А платформа SPLUNK делает это автоматически. Система находит нужное звено кода и сообщает о наличии проблемы или ее скором появлении.
В итоге было принято решение использовать SPLUNK для мониторинга и анализа операционной деятельности IT-инфраструктуры и приложений. Нам стало понятно, что пришло время автоматизации большинства процессов и машинного анализа, и машинного обучения.
Во внедрении платформы принимают участие специалисты из разных областей, но «костяк» команды состоит из четырех человек.
Бизнес-аналитик хорошо понимает, какие данные выдают различные системы и с чем эту информацию можно «скрестить», чтобы получить более глубокий анализ.
Специалист по SPLUNK занимается настройкой системы, чтобы она была удобной для пользователей и максимально производительной. Он также заводит в систему новые источники данных.
Архитектор следит за интеграцией с другими системами и правильностью процесса взаимодействия команд поддержки.
Архитектор решений доступности систем – это специалист, который на базе SPLUNK создает единый мониторинговый инструмент, который позволяет увидеть и устранить проблему еще до ее появления.
Многие коллеги по своей инициативе помогали нам советами, технологиями, бизнес-кейсами. В ближайшей перспективе на своем рабочем месте они не получат от этого никаких выгод, но оказалось, что люди видят картину автоматизации в целом и хотят помочь в скорейшем развитии этого направления. В процессе внедрения мы ещё раз убедились, что Mars IS – это место, где людям интересно, они работают в команде и с увлечением делают одно дело.
Первым делом была развернута сеть «агентов». SPLUNK как большой паук связывает в единую сеть сотни компьютеров, получая от них данные на уровне «железа», программного обеспечения, и, в некоторых случаях, приложений.
Теперь, когда гигабайты данных разного уровня и детализации стали стекаться в единое SPLUNK-облако, специалисты Mars IS могут анализировать ошибки на серверах и программах в течение нескольких минут. Время поиска проблемы уменьшилось в разы.
Как и любой IT-инструмент, SPLUNK требует определенной квалификации, чтобы научиться делать «свои» запросы. Поэтому мы создаем дашборды и отчеты для команд, которые пока не готовы приступить к изучению программы, но уже хотят видеть свои данные и принимать на их основе решения.
Чтобы находить повторяющиеся проблемы, мы применяем стандартные математические модели, позволяющие выявлять зависимости. Например, мы хотим проверить, не будет ли у нас сегодня проблемы с окончанием джобы (планового задания) в программе. Для этого надо, чтобы SPLUNK посчитал стандартное время на сегодня именно для этой джобы. Мы не можем задать ограничения вручную, поскольку это потребует огромных ресурсов для поддержания актуальности модели.
Система же смотрит на историческое стандартное время загрузки и настраивает ограничения автоматически. Она может видеть и исключать из расчета пиковые значения, которые, скорее всего, являлись проблемой. Именно так, постепенно обучая SPLUNK-модель, мы учимся не только понимать и видеть собственные данные, но и предсказывать проблему до ее появления.
Чтобы проблема не «повисала» в воздухе, мы провели интеграцию систем SPLUNK и ServiceNow, что позволило превращать знание о приближающейся проблеме в инцидент в системе ITIL ITSM. Затем он либо будет решен автоматически, без привлечения людей, либо система перенаправит его специалисту соответствующего профиля.
Сейчас идет основная работа по внесению в систему как можно большего количества логов от разных подразделений и расчет отдачи от автоматизации того или иного сценария.
Несмотря на трудности, проект набирает обороты, растет его команда. Через некоторое время мы сможем поделиться красивыми примерами наших внедрений, которые сэкономили нам немало средств.
Все больше людей хотят не просто искать в системе свои логи, но и создавать сложные запросы, проводить анализ. Это значит, что уровень технической экспертизы будет расти и дальше.
Не за горами тот день, когда нам не нужно будет заниматься простыми сценариями, которые можно точно описать машинным языком. За нас это будет делать система. Сотрудники же будут создавать сложные аналитические модели, которые будут обрабатываться машинами по мере их развития.
На фото: lagutolg limat
Когда видишь, что Mars IS идет в ногу со временем, это очень вдохновляет! Недавно мы посетили SPLUNK-конференцию в Вашингтоне, где поделились своими целями и решениями с другими командами, внедряющими эту систему.
Наши планы очень амбициозны. Конечно, сложностей впереди будет немало, поскольку мы фактически являемся пионерами в этом деле. Но для нашей команды это не просто работа, а потрясающая цель. И мы хотим ее достичь, создавая новое и развиваясь при этом сами.
Будущее закладывается сегодня
Каждый IT-специалист понимает, что такие области деятельности как большие данные и машинное обучение имеют огромный потенциал. В Mars IS по этим темам было много различных наработок, но глобальное видение и движение к понятной цели появились лишь после того, как мы выбрали несколько стратегических технологий.
Одной из них стала платформа для операционного анализа SPLUNK. Это основной программный продукт одноименной американской компании, который позволяет собирать, анализировать и использовать машинные данные из технологической инфраструктуры, систем безопасности и бизнес-приложений.
Эти данные обладают огромным скрытым потенциалом. Использование результатов машинного анализа такой информации помогает повысить производительность, прибыльность, конкурентоспособность и безопасность компании.
Надо сказать, что Mars IS не является новичком в использовании SPLUNK. Мы много лет использовали эту платформу, но, как и большинство других компаний, только для мониторинга нарушений системы безопасности. И за это время она очень хорошо себя зарекомендовала.
Расширяем горизонты
Вывод SPLUNK за пределы области безопасности содержал в себе определенный риск, поскольку на сегодняшний день в мире не так много компаний используют ее для чего-то большего. Но мы видели потенциал системы, были готовы развиваться и улучшать сам продукт.
Файлы приложений с записями событий (логи) – это миллионы строчек кода, который в ручную не то что проанализировать, а даже просмотреть невозможно. А платформа SPLUNK делает это автоматически. Система находит нужное звено кода и сообщает о наличии проблемы или ее скором появлении.
В итоге было принято решение использовать SPLUNK для мониторинга и анализа операционной деятельности IT-инфраструктуры и приложений. Нам стало понятно, что пришло время автоматизации большинства процессов и машинного анализа, и машинного обучения.
Ход внедрения
Во внедрении платформы принимают участие специалисты из разных областей, но «костяк» команды состоит из четырех человек.
Бизнес-аналитик хорошо понимает, какие данные выдают различные системы и с чем эту информацию можно «скрестить», чтобы получить более глубокий анализ.
Специалист по SPLUNK занимается настройкой системы, чтобы она была удобной для пользователей и максимально производительной. Он также заводит в систему новые источники данных.
Архитектор следит за интеграцией с другими системами и правильностью процесса взаимодействия команд поддержки.
Архитектор решений доступности систем – это специалист, который на базе SPLUNK создает единый мониторинговый инструмент, который позволяет увидеть и устранить проблему еще до ее появления.
Многие коллеги по своей инициативе помогали нам советами, технологиями, бизнес-кейсами. В ближайшей перспективе на своем рабочем месте они не получат от этого никаких выгод, но оказалось, что люди видят картину автоматизации в целом и хотят помочь в скорейшем развитии этого направления. В процессе внедрения мы ещё раз убедились, что Mars IS – это место, где людям интересно, они работают в команде и с увлечением делают одно дело.
Первым делом была развернута сеть «агентов». SPLUNK как большой паук связывает в единую сеть сотни компьютеров, получая от них данные на уровне «железа», программного обеспечения, и, в некоторых случаях, приложений.
Теперь, когда гигабайты данных разного уровня и детализации стали стекаться в единое SPLUNK-облако, специалисты Mars IS могут анализировать ошибки на серверах и программах в течение нескольких минут. Время поиска проблемы уменьшилось в разы.
Система учится сама, мы учимся вместе с ней
Как и любой IT-инструмент, SPLUNK требует определенной квалификации, чтобы научиться делать «свои» запросы. Поэтому мы создаем дашборды и отчеты для команд, которые пока не готовы приступить к изучению программы, но уже хотят видеть свои данные и принимать на их основе решения.
Чтобы находить повторяющиеся проблемы, мы применяем стандартные математические модели, позволяющие выявлять зависимости. Например, мы хотим проверить, не будет ли у нас сегодня проблемы с окончанием джобы (планового задания) в программе. Для этого надо, чтобы SPLUNK посчитал стандартное время на сегодня именно для этой джобы. Мы не можем задать ограничения вручную, поскольку это потребует огромных ресурсов для поддержания актуальности модели.
Система же смотрит на историческое стандартное время загрузки и настраивает ограничения автоматически. Она может видеть и исключать из расчета пиковые значения, которые, скорее всего, являлись проблемой. Именно так, постепенно обучая SPLUNK-модель, мы учимся не только понимать и видеть собственные данные, но и предсказывать проблему до ее появления.
Чтобы проблема не «повисала» в воздухе, мы провели интеграцию систем SPLUNK и ServiceNow, что позволило превращать знание о приближающейся проблеме в инцидент в системе ITIL ITSM. Затем он либо будет решен автоматически, без привлечения людей, либо система перенаправит его специалисту соответствующего профиля.
Потрясающая цель вдохновляет
Сейчас идет основная работа по внесению в систему как можно большего количества логов от разных подразделений и расчет отдачи от автоматизации того или иного сценария.
Несмотря на трудности, проект набирает обороты, растет его команда. Через некоторое время мы сможем поделиться красивыми примерами наших внедрений, которые сэкономили нам немало средств.
Все больше людей хотят не просто искать в системе свои логи, но и создавать сложные запросы, проводить анализ. Это значит, что уровень технической экспертизы будет расти и дальше.
Не за горами тот день, когда нам не нужно будет заниматься простыми сценариями, которые можно точно описать машинным языком. За нас это будет делать система. Сотрудники же будут создавать сложные аналитические модели, которые будут обрабатываться машинами по мере их развития.
На фото: lagutolg limat
Когда видишь, что Mars IS идет в ногу со временем, это очень вдохновляет! Недавно мы посетили SPLUNK-конференцию в Вашингтоне, где поделились своими целями и решениями с другими командами, внедряющими эту систему.
Наши планы очень амбициозны. Конечно, сложностей впереди будет немало, поскольку мы фактически являемся пионерами в этом деле. Но для нашей команды это не просто работа, а потрясающая цель. И мы хотим ее достичь, создавая новое и развиваясь при этом сами.