Привет! Меня зовут Александр Грачев, и я отвечаю за работу технической поддержки PT Sandbox — сетевой песочницы от Positive Technologies. Запросов всегда поступает много — коллеги из саппорта со мной согласятся. Например, за последние два года нами было обработано более 2000 тикетов, а сообщений в телеграм-чат PT Sandbox и не сосчитать. Кажется, настало время рассказать, как выглядит обычный день из жизни поддержки продукта информационной безопасности. Раскроем, что она таит и чем мы занимаемся, пока пользователь ждет ответа.
Разберем цикл работы техподдержки PT Sandbox. Пожалуй, начнем с того, что мы делаем с каждым поступающим запросом. В первую очередь мы просим у пользователя журнальные данные системы — без них никак.
Когда набор непонятных файлов и папок в виде ZIP-архива попадает к нам, начинается магия вне Хогвартса работа, которая может показаться некоторым пользователям вечностью. Сейчас расскажу, что мы успеваем сделать за среднее время обработки запроса — 1–2 часа.
В качестве примера возьму реальный запрос, с которым мы разбирались не так давно. Алгоритм действий такой:
Берем архив со всеми журналами и диагностируем его с помощью скриптов, которые разработали сами.
Как только наш скрипт выполнил работу и первичный анализ журналов успешно завершен, мы видим картину того, что случилось и где же
просыпался наш песокошибка.
Первое, что мы обнаружили, — медленные запросы. Теперь хорошо бы понять, о чем они свидетельствуют. Возможно, изменилась нагрузка и текущей конфигурации уже недостаточно, то есть пора добавить песка в нашу песочницу пару нод для распределения нагрузки в PT Sandbox. А может, проблема в дисковой подсистеме. Легче не стало, продолжаем разбираться.
Стали копать дальше и в результате обратились к статистике по подам.
Итак, мы видим всего 90 подов. В нашем случае инсталляция состоит из одной ноды, а как мы знаем из документации Kubernetes, на каждую ноду полагается не более 110 подов. Спасибо скрипту за то, что подсветил вероятную опасность, — будем учитывать, что приближаемся к пределу.
С общим количеством разобрались, переходим к статистике по статусам. Посмотреть статус каждого пода можно, что называется, вручную, но, когда их 90, потребуется много времени, а у техподдержки на счету каждая минута, ведь вы ждете от нас ответа ????
Общая сводная статистика позволяет сократить это время на какие-то секунды, но поверьте, и это немало. Мы видим, что из 90 подов 86 работают корректно, а в остальных обнаружена ошибка. Итак, четыре пода не работают, да еще какие. Один из них — база данных. Похоже, мы почти докопались до истины. Продолжаем вести наблюдение.
Рассмотрим третий источник данных — агрегированную информацию об ошибках в работе продукта.
На скриншоте выше видно, что за последние сутки было 703 ошибки по поду event-combiner. При изучении информации видим, что это ошибка доступности приложения Clickhouse.
Продолжаем смотреть дальше и видим 274 ошибки по поду scan-machine, которые сообщают о проблеме с доступом к базе. Все говорит о том, что корень проблемы таится в самой базе данных. Пора заглянуть в нее и посмотреть, что не так.
Немного посерчим журнальные файлы и найдем странную запись.
Кажется, было экстренное завершение работы сервера, и база зависла в непонятном состоянии.
Как только мы собрали всю информацию и выяснили причину проблемы, предлагаем клиенту выполнить ряд команд для восстановления базы данных. Буквально через 15 минут получаем информацию от пользователя о том, что продукт вновь работоспособен. Что может быть приятнее для техподдержки, чем решенный вопрос? Только вопрос, решенный в максимально короткие сроки.
Каждый раз, когда пользователь создает обращение в техподдержку, мы понимаем, что сбой в работе PT Sandbox — это критически опасная ситуация. Если представить все средства защиты компании как единый механизм, можно считать, что, потеряв песочницу, вы остались без колеса. Пусть и не рулевого, но ехать на машине без одного из четырех колес — это, блин, опасно! Именно поэтому наша задача — решить любой вопрос качественно, эффективно и по возможности быстро. На устранение описанной в статье проблемы с базой данных у нас ушло примерно 1,5 часа.
Теперь вы знаете, что, пока ждете ответ от техподдержки, она не дремлет и занимается глубоким анализом журналов продукта для выявления ошибки и ее деталей. В статье я показал только один пример того, что мы делаем каждый день на благо пользователей PT Sandbox. Я планирую описать еще несколько случаев, интересных и с деталями????:
Ложноположительные срабатывания (false detect): что это, почему возникают и как мы с ними боремся.
Запросы о новых возможностях продуктов, которых вам не хватает: как приоритизируем и обрабатываем и когда ждать реального внесения.
А пока новые статьи еще не вышли, посмотрите видео о том, как в Positive Technologies проходит работа с false detect.
Как говорится, подписывайтесь на канал, ставьте лайки, комментируйте, ждите новых статей о том, как Positive Technologies делает мир ИБ лучше.