Привет! Меня зовут Александр Грачев, и я отвечаю за работу технической поддержки PT Sandbox — сетевой песочницы от Positive Technologies. Запросов всегда поступает много — коллеги из саппорта со мной согласятся. Например, за последние два года нами было обработано более 2000 тикетов, а сообщений в телеграм-чат PT Sandbox и не сосчитать. Кажется, настало время рассказать, как выглядит обычный день из жизни поддержки продукта информационной безопасности. Раскроем, что она таит и чем мы занимаемся, пока пользователь ждет ответа.

Разберем цикл работы техподдержки PT Sandbox. Пожалуй, начнем с того, что мы делаем с каждым поступающим запросом. В первую очередь мы просим у пользователя журнальные данные системы — без них никак.

Когда набор непонятных файлов и папок в виде ZIP-архива попадает к нам, начинается магия вне Хогвартса работа, которая может показаться некоторым пользователям вечностью. Сейчас расскажу, что мы успеваем сделать за среднее время обработки запроса — 1–2 часа.

В качестве примера возьму реальный запрос, с которым мы разбирались не так давно. Алгоритм действий такой:

  1. Берем архив со всеми журналами и диагностируем его с помощью скриптов, которые разработали сами.

  2. Как только наш скрипт выполнил работу и первичный анализ журналов успешно завершен, мы видим картину того, что случилось и где же просыпался наш песок ошибка.

Первое, что мы обнаружили, — медленные запросы. Теперь хорошо бы понять, о чем они свидетельствуют. Возможно, изменилась нагрузка и текущей конфигурации уже недостаточно, то есть пора добавить песка в нашу песочницу пару нод для распределения нагрузки в PT Sandbox. А может, проблема в дисковой подсистеме. Легче не стало, продолжаем разбираться.

Стали копать дальше и в результате обратились к статистике по подам.

Итак, мы видим всего 90 подов. В нашем случае инсталляция состоит из одной ноды, а как мы знаем из документации Kubernetes, на каждую ноду полагается не более 110 подов. Спасибо скрипту за то, что подсветил вероятную опасность, — будем учитывать, что приближаемся к пределу.

С общим количеством разобрались, переходим к статистике по статусам. Посмотреть статус каждого пода можно, что называется, вручную, но, когда их 90, потребуется много времени, а у техподдержки на счету каждая минута, ведь вы ждете от нас ответа ????

Общая сводная статистика позволяет сократить это время на какие-то секунды, но поверьте, и это немало. Мы видим, что из 90 подов 86 работают корректно, а в остальных обнаружена ошибка. Итак, четыре пода не работают, да еще какие. Один из них — база данных. Похоже, мы почти докопались до истины. Продолжаем вести наблюдение.

Рассмотрим третий источник данных — агрегированную информацию об ошибках в работе продукта.

Чтобы увеличить, кликните по картинке
Чтобы увеличить, кликните по картинке

На скриншоте выше видно, что за последние сутки было 703 ошибки по поду event-combiner. При изучении информации видим, что это ошибка доступности приложения Clickhouse.

Продолжаем смотреть дальше и видим 274 ошибки по поду scan-machine, которые сообщают о проблеме с доступом к базе. Все говорит о том, что корень проблемы таится в самой базе данных. Пора заглянуть в нее и посмотреть, что не так.

Немного посерчим журнальные файлы и найдем странную запись.

Кажется, было экстренное завершение работы сервера, и база зависла в непонятном состоянии.

Как только мы собрали всю информацию и выяснили причину проблемы, предлагаем клиенту выполнить ряд команд для восстановления базы данных. Буквально через 15 минут получаем информацию от пользователя о том, что продукт вновь работоспособен. Что может быть приятнее для техподдержки, чем решенный вопрос? Только вопрос, решенный в максимально короткие сроки.

Каждый раз, когда пользователь создает обращение в техподдержку, мы понимаем, что сбой в работе PT Sandbox — это критически опасная ситуация. Если представить все средства защиты компании как единый механизм, можно считать, что, потеряв песочницу, вы остались без колеса. Пусть и не рулевого, но ехать на машине без одного из четырех колес — это, блин, опасно! Именно поэтому наша задача — решить любой вопрос качественно, эффективно и по возможности быстро. На устранение описанной в статье проблемы с базой данных у нас ушло примерно 1,5 часа.

Теперь вы знаете, что, пока ждете ответ от техподдержки, она не дремлет и занимается глубоким анализом журналов продукта для выявления ошибки и ее деталей. В статье я показал только один пример того, что мы делаем каждый день на благо пользователей PT Sandbox. Я планирую описать еще несколько случаев, интересных и с деталями????:

  • Ложноположительные срабатывания (false detect): что это, почему возникают и как мы с ними боремся.

  • Запросы о новых возможностях продуктов, которых вам не хватает: как приоритизируем и обрабатываем и когда ждать реального внесения.

А пока новые статьи еще не вышли, посмотрите видео о том, как в Positive Technologies проходит работа с false detect.

Как говорится, подписывайтесь на канал, ставьте лайки, комментируйте, ждите новых статей о том, как Positive Technologies делает мир ИБ лучше.

Комментарии (0)