По мере развития генеративного ИИ, вендоры в сфере  ИТ-мониторинга работают над созданием инструментария AI CoPilot. Название тула пошло от представления, что управление ИТ-инфраструктурой подобно пилотированию самолетов. В случае инцидента пилоты пользуются «Руководством по летной эксплуатации» (РЛЭ) и «Аварийной картой» для быстрого решения проблемы, стремясь сохранить контроль над ситуацией. AI Copilot (второй пилот, 2/П в терминах авиации) помогает сотруднику ITOps (в роли КВС) быстро проанализировать данные мониторинга, найти в базе данных описание похожего инцидента, предложить путь решения проблемы и затем автоматически запротоколировать событие в журнале инцидентов (Postmortem).

***

Способности ИИ к быстрой обработке огромных массивов информации рождают множество интересных инструментов, и один из них —  IT Monitoring AI CoPilot. Считается, что AI CoPilot по управлению инцидентами может сделать многое для повышения надежности и доступности ИТ-инфраструктуры. В этой статье постараемся объективно и без рекламных лозунгов ответить на такие вопросы:

  • Как AI Copilot может помочь в достижении KPI управления инцидентами?

  • Как ‘этот инструмент помогает достичь бизнес-целей?

  • Могут ли сотрудники ITOps на 100% доверять рекомендациям AI Copilot в условиях жесткого временного прессинга?

AI CoPilot — это интеллектуальный помощник для ITOps и ITSM, который использует генеративный ИИ для помощи в устранении инцидентов, работая в реальном времени. Он анализирует поступающие данные мониторинга, помогает инженерам понять суть проблемы и дает рекомендации по её решению. AI CoPilot работает на основе запросов на естественном языке и переводит сложные технические данные в понятную форму. 

AI CoPilot интегрируется в комплексные системы мониторинга, такие как PagerDuty, Monq или Bigpanda, а также в чаты и другие приложения для совместной работы.

Как AI Copilot может помочь в достижении KPI управления инцидентами?

AI CoPilot для управления инцидентами помогает специалистам из отделов ITOps и ITSM-командам улучшать показатели своих KPI, таких как повышение производительности сотрудников, снижение времени простоя инфраструктуры и в оптимизации затрат на устранение инцидентов. Тул использует языковую модель для анализа специализированной базы данных (она поставляется вендором) и общего массива данных в самой генеративной нейросети.

Инструментарий помощника собирает данные из разных доступных источников, таких как события в системе мониторинга, CMDB, записи об изменениях инфраструктуры и истории инцидентов. Это позволяет фильтровать несущественные данные, выделять важные факты и предоставлять ответы на вопросы инженера на естественном языке в реальном времени.

Вот примерный список «обязанностей» AI CoPilot:

  • Помощь в назначении приоритета инциденту, 

  • Автоматическая публикация сообщений об инциденте в служебном чате,

  • Выдача справки об аналогичных или схожих в прошлом инцидентах и принятых решениях по их устранению,

  • Предоставление рекомендаций по устранению текущего инцидента,

  • Составление обязательных документов по инцидентам, таких как отчеты Postmortem.

Обобщая сказанное, потенциал применения AI CoPilot в ITOps довольно обширен и прежде всего ориентирован на быструю подсказку путей разрешения инцидента сотрудникам техподдержки, рассылку сообщений в чатах, автоматизацию заполнения сопроводительной документации и другие рутинные действия.

Немного о терминах:

  • CMDB (Configuration Management Database) в системе мониторинга — это база данных, которая хранит информацию о конфигурационных единицах (КЕ) ИТ-инфраструктуры. КЕ могут включать серверы, приложения, сетевое оборудование, виртуальные машины.

  • ITOps (IT Operations) — это управление и поддержка ИТ-инфраструктуры, включая серверы, сети, СХД и другие компоненты.

  • ITSM (IT Service Management) — подход к управлению ИТ-услугами, ориентированный на предоставление и улучшение сервисов. ITSM охватывает управление инцидентами, изменениями, проблемами и услугами.

Теперь про слабые места AI CoPilot

Почему мы упомянули «Книгу вредных советов» в заголовке поста? Дело в том, что у AI CoPilot на основе генеративного ИИ и больших языковых моделей (large language model, LLM) есть два критических ограничения: это доступность сервиса CoPilot в момент инцидента и галлюцинации ИИ:

  1. Инцидент ИТ-инфраструктуры может вызвать недоступность базовых компонентов самого AI CoPilot: пропал интернет-доступ к базовому сервису ИИ (ChatGPT, Сбер GigaChat  и др.) или упал сервер с приложением или СУБД AI CoPilot. Т.е., работа AI CoPilot, если на него полагаться всерьез, потребует создания отдельной отказоустойчивой инфраструктуры для этого сервиса и наличия локальной базы данных с описанием инцидентов и рекомендаций по их устранению.

  2. Галлюцинации LLM-моделей — еще один критический источник ошибок у AI CoPilot. Здесь мы приходим к тому факту, что генеративные модели ИИ не обладают настоящим интеллектом — это статистические системы, которые предсказывают слова, изображения, речь или другие данные. Имея в запасе огромное количество образцов данных, обычно взятых из общедоступной сети, языковые модели ИИ выдают наиболее вероятностные результаты на основе шаблонов, включая контекст данных.

Создание отказоустойчивой инфраструктуры для AI CoPilot — это сам по себе затратный процесс. Здесь потребуется наличие резервированных серверов и СХД, наличие дублированных каналов связи к интернету и локальной «базы данных инцидентов» для надежной работы этого ИИ-помощника при сбоях в общей ИТ-инфраструктуре компании. 

Для среднего и малого бизнеса (СМБ) подобные расходы могут быть избыточными, особенно в сравнении с наймом дополнительных сотрудников в отдел ITOps. Остается вариант использования AI CoPilot на ресурсах существующей инфраструктуры СМБ или в виде облачного приложения. Последний даже предпочтительней, так как дата-центры облачных провайдеров имеют высокую степень доступности. 

Для крупного бизнеса, наоборот, преимущества автоматизации в выявлении инцидентов и быстрого устранения проблем с помощью AI CoPilot в варианте on-premises могут компенсировать затраты на выделенную инфраструктуру для этого сервиса. Быстрое восстановление работы ИТ-систем снижает убытки, вызванные простоем, и повышает общую эффективность бизнеса компании.

В качестве «лирического отступления» — сравнение роли AI CoPilot в ИТ-мониторинге и в авиации. AI Copilot в ИТ-мониторинге ориентирован на устранение сбоев: его задача — предсказывать возможные проблемы и предлагать решения. Это значительно сложнее, потому как в ИТ тысячи параметров, множество из которых не отслеживаются. Т.о., это делает AI в мониторинге похожим на прогнозирование «черных лебедей» — неожиданных событий, которые невозможно предсказать, как описывал Талеб в «Антихрупкости». В авиации, напротив, AI Copilot помогает поддерживать процесс полета, следя за параметрами и давая рекомендации на основе мануала РЛЭ. Например, экспериментальная разработка  “Air-Guardian” в MIT (Массачусетский технологический институт),настроена для конкретной модели самолета и работает без доступа к интернету. И еще она носит рекомендательный характер, поэтому в ближайшем будущем второй пилот по-прежнему будет занимать правое кресло в кабине.

Что касается галлюцинаций ИИ, то на 100% их исключить пока нельзя, но можно минимизировать до незначимого уровня за счет наличия специализированной БД. Тут вывод в том, что качество работы AI CoPilot напрямую зависит от полноты локальной базы данных и такой инструментарий от одного вендора будет отличаться от аналогичного тула от другого поставщика именно полнотой БД по инцидентам/решениям. Вполне реально спроектировать БД инцидентов так, чтобы она имела высокую точность в виде высококачественной базы знаний вопросов и ответов, и связав эту базу знаний с LLM, чтобы предоставлять максимально точные ответы с помощью процесса, аналогичного поиску.

А вот так ChatGPT представил пример галлюцинации CoPilot:
Если сервер вдруг упал,
И CoPilot замолчал,
Просто выключи и жди,
Через сутки оживёт, приходи и погляди!
?

Кейс прототипа Monq AI CoPilot с ИТ-школой “AIExpert School”

Начнем с того, что этот кейс — сторонняя экспериментальная работа слушателей AI Expert School (Школы ИИ), причем это не новички, а профессиональная аудитория менеджеров и дата-сайентистов . Мы рассказываем об этом кейсе как о примере быстрой интеграции нашей системы мониторинга с генеративным ИИ, используя наш No-code редактор Автоматон.

Подобный кейс может реализовать любой желающий, записавшись на ранний доступ к новому бесплатному облачному продукту Monq Oncall, в составе которого есть готовые интеграции с различными GPT-решениями. Мы еще будем подробно рассказывать о Monq OnCall в блоге на Хабре.

Если вы студент или преподаватель, у нас для вас предложение: Monq активно сотрудничает с российскими вузами и готов предоставить бесплатные лицензии и облачные пространства для учебных целей. Мы стремимся привлечь внимание университетов к теме мониторинга ИТ-инфраструктуры, чтобы она звучала в образовательном процессе и могла стать частью ваших курсов или проектов. Свяжитесь с нами, чтобы получить образовательную лицензию Monq. Мы поддержим вас на каждом этапе внедрения — напишите нам на почту askformonq@monqlab.com или через форму обратной связи на сайте, и начнем вместе развивать ваши ИТ-компетенции в сфере мониторинга.

Итак, цель учебного проекта состояла в том, чтобы слушатели AI Expert School изучили предложенный компанией Monq датасет из нескольких сотен инцидентов и обучили языковую модель на основе Sber GigaChat, которая будет способна анализировать новые инциденты, классифицировать их и предлагать рекомендации по их устранению на основе предыдущего опыта.

Скрин презентации к кейсу построения AI CoPilot на базе Sber GigaChat
Скрин презентации к кейсу построения AI CoPilot на базе Sber GigaChat

Задание предполагало интеграцию LLM по API с системой мониторинга Monq при помощи встроенного no-code движка для автоматизированного анализа данных в реальном времени. Бизнес-результат выглядел бы как сокращение времени, затрачиваемого на анализ инцидента, в среднем с 30 до 5 минут.

Слушатели разработали прототип AI Copilot для ИТ-мониторинга, следуя следующему пайплайну действий:

  • Сначала они вручную создавали сигнал, имитируя его автоматическое появление в системе мониторинга. 

  • Затем запускался бизнес-процесс, который отправлял промпт в Sber GigaChat, включающий название и описание инцидента. 

  • В ответ нейросеть выдавала рекомендации по решению проблемы. 

  • Эти рекомендации затем привязывались к сигналу с помощью блока Signal Update, добавляя их в качестве меток. В будущей версии Monq 8.4.0 планируется использовать полноценные пользовательские поля для создания Postmortem-отчетов.

Бизнес-процесс передачи промта в/из GigaChat
Бизнес-процесс передачи промта в/из GigaChat
Интеграция промта GigaChat с системой Monq в редакторе No-code
Интеграция промта GigaChat с системой Monq в редакторе No-code

Monq активно применяет технологии ИИ и ML в своей разработке. Например в недавнем релизе был анонсирован запуск сервиса по прогнозированию аварий, а уже в ближайших версиях будет внедрена рекомендательная система по устранению инцидентов.

Заключение

AI CoPilot, также известный как ИИ-помощник в ITOps/ITSM, — виртуальный инструмент на базе генеративного ИИ, который помогает выполнять ежедневные задачи, от рутинных до критически важных. Он может быть интегрирован в различные аспекты ИТ-технологий, включая мониторинг ИТ-инфраструктуры.

В контексте ITOps и ITSM, помощник AI CoPilot оценивает сигналы о неполадках в ИТ-инфраструктуре в реальном времени, давая инженерам подсказку о наиболее вероятном источнике проблемы, последствиях и предлагая шаги по устранению инцидента. Тем самым повышать эффективность управления инцидентами и делегировать этому инструменту вспомогательные операции. Виртуальный «второй пилот» использует БД с описанием инцидентов (минимизация галлюцинаций ИИ) и помогает сотруднику ИТ-служб не только разобраться в источнике проблемы, но и в составлении релевантных отчетов.

Если вы захотите больше узнать о Monq. то еще раз приглашаем скачать комьюнити-версию продукта и попробовать построить мониторинг вашей системы для оценки качества продукта, в том числе попробовать новую облачную версию Monq OnCall. А когда у вас появятся вопросы и собственное мнение о продукте, наша команда ответит на вопросы и поможет развернуть работу мониторинга Monq на всей ИТ-инфраструктуре компании. 

Monq OnCall будет полезен широкой целевой аудитории специалистов в компании
Monq OnCall будет полезен широкой целевой аудитории специалистов в компании

Обращайтесь на почту askformonq@monqlab.com или если что-то не будет получаться или возникнут другие вопросы— велком в наше комьюнити в Telegram.

Комментарии (0)