Когда мы приехали в компанию, на проходной висел большой плакат «КОМПЬЮТЕРЫ НЕ ВКЛЮЧАТЬ!» Это было указанием департамента ИТ для всех работников. Вся техника была выключена из розеток. Ситуация с серверной инфраструктурой была аналогичной: многие серверы были поражены. Корпоративные базы данных вовремя бэкапились, но в целом это, конечно, была катастрофа.

У предприятия есть ИТ-отдел, и сначала руководство хотело попытаться справиться своими силами. Каждый специалист тратил на один компьютер несколько часов, параллельно брался за несколько других. Один инженер мог переустановить максимум четыре компьютера в смену. Но как только их вводили в работу, Petya снова поражал их, распространяясь лавинообразно. Дело совсем не продвигалось, работа компании была парализована.

image

Напомню, что в прошлом году десятки российских предприятий попали под атаку шифровальщика-вымогателя Petya. В конкретном случае вирус был специально сконфигурирован под компанию и поразил всю ее ИТ-инфраструктуру, разбросанную территориально. Вернуть к жизни предприятие нам удалось за 20 дней силами специалистов по услугам AnyKey и компетенциям Microsoft в МТС и дочернего системного интегратора «Энвижн Груп».

После того, как ИТ-отдел не смог самостоятельно справиться с вирусом, руководство осознало, что теряет время, и приняло решение обратиться за помощью к подрядчику. Помимо неудачного опыта самостоятельного деплоймента, была еще одна большая проблема – сроки. Никто из потенциальных подрядчиков не гарантировал, что работы будут выполнены в сжатый срок. Также у заказчика было требование сохранить данные, которые уцелели и не успели зашифроваться (их надо было спасать), именно поэтому одной переустановки Windows было недостаточно.

Выбор в нашу пользу был сделан после того, как мы при первом обсуждении провели предварительную экспертизу и дали оценку, за какой срок мы сможем закончить всю работу – три недели. Плюсом было и то, что у нас уже был сервер, который мы могли бы привезти на объект и подключить его к местному, не привлекая со стороны заказчика какие-то дополнительные ресурсы. Мы купили билеты и на следующий день уже сидели в самолете с сервером под мышкой.

Что мы сделали


Основная идея, которую мы с самого начала обсуждали с заказчиком – такое количество рабочих мест за установленный срок можно развернуть только из образа. Нужно применять технологию массового деплоя – другими словами, брался эталонный образ, и этот образ разливался на машины.

Сначала компьютер загружался в специальную оболочку, в которой выполнялись PowerShell scripts. Эти скрипты копировали на сетевое хранилище уцелевшие данные, потом устанавливалась новая чистая система из золотого образа, и уцелевшие данные возвращались на этот компьютер в определенную папку. Конечно, на сетевом хранилище стоял антивирус. Все файлы сканировались. Таким образом мы защищали их от повторного заражения.

Плюс к этому мы разбили сеть на множество небольших выделенных сетей VLAN. Все операции мы проводили во VLAN-ах, изолированных друг от друга, это также было сделано, чтобы предотвратить повторное заражение.

Уникальность этого решения была в двух фишках: во-первых, мы применили PowerShell scripts и все сохраняли на файловые ресурсы, которые проводили потоковое сканирование антивирусом, во-вторых, мы все сделали в небольших выделенных VLANax.

image

Несмотря на то, что у нас все процессы были максимально автоматизированы, у заказчика имелось много компьютеров и распределенная сеть в формате звезды – центральный офис, несколько региональных офисов и зависимые от последних удаленные рабочие места. Для решения задачи нужно было объехать все объекты – не меньше сотни. Были и небольшие офисы, на которых всего один-два компьютера. Их все нужно было забрать и довезти до ближайшего крупного офиса заказчика, где уже имелась на должном уровне ИТ-инфраструктура, позволяющая производить работы.

Заказчик со своей стороны, конечно, максимально обеспечил нас транспортом, но кадровый ресурс был ограничен. Мы мобилизовали 25 ИТ-специалистов МТС с соседних регионов. Они работали без выходных и с перерывом только на сон, график работы был очень тяжелым, и нельзя было больше трех дней держать одного сотрудника на объекте – он просто бы выгорал. Поэтому у нас была непрерывная ротация кадров: сотрудник прилетает на три дня, улетает, вместо него прилетает другой. Так мы поддерживали большую интенсивность работы. Что важно, ребята, которые приезжали, быстро становились командой. Они знали, что делать, у них был четкий план, и их не надо было учить и вводить в курс дела. Отдельно у нас была команда, которая занималась восстановлением серверов.

Мы с руководителем проекта также вылетели на объект и занимались административной работой. Для заказчика было важно произвести четкое планирование, защитить проект. Все, конечно, горело, но есть регламент, комплаенс внутри: мы сидели и день и ночь готовили документы: обоснования, почасовое планирование, сетевой график выхода инженеров, писали, сколько и каких инженеров выходит на разработку, на каких объектах, какие работы они будут выполнять – все это было очень муторно, но необходимо для того, чтобы выполнить работу в срок.

Что получилось


В результате весь проект занял 20 дней. Нам потребовалось сегментировать сеть на маленькие подсети, а это мы не имели права делать сами, без участия сетевого инженера заказчика. Это оказалось узким местом: сетевой инженер делал это не очень быстро. Но во время «простоя» по согласованию заказчика мы занимались проектными вещами, а не просто так сидели в гостинице.

На выходе все данные на серверах были подняты из бэкапа, и никакие критичные системы в итоге не пострадали, данные из корпоративных информационных систем утеряны не были. Помимо того сервера, который мы привезли с собой, в процессе реализации проекта решили развернуть дополнительные серверы MS Deployment Services на инфраструктуре заказчика. Мы научили его инженеров работать с этой системой, провели мастер-классы, обучали и консультировали. Заказчик остался с полной документацией, знал, как ему дальше производить деплоймент, как теперь с этим сервером дальше жить и что делать при наступлении похожей ситуации.

Проактивный мониторинг и спланированные заранее действия могут уберечь от возникновения такой ситуации. Но если она наступила, то придется спешно изыскивать дополнительный инженерный ресурс.

Стоит отметить, что спрос на ИТ-услуги на аутсорсе в подобных ситуациях в будущем будет расти, и не только из-за увеличения количества атак и совершенствования навыков хакеров. У этой услуги определенный потребитель – это компании с высоким уровнем зрелости, которые уже достигли такого этапа развития, что начинают управлять ИТ как услугой. На этом этапе происходят изменения в мышлении ИТ-директора: он понимает, что при переходе на аутсорс можно не оглядываться на собственные ресурсы и возможности, не вникать в личные дела сотрудников. Можно просто ставить задачу, договариваться об уровне сервиса и поддерживать заданный уровень получаемой услуги. Таким образом, ИТ-директор может заниматься более высокоуровневым планированием и свои ресурсы перенаправлять на какие-то более критичные задачи.

Сергей Гудков, руководитель отдела решений Майкрософт «Энвижн Груп».

Комментарии (33)


  1. vilgeforce
    14.05.2018 12:28
    +4

    Прошло 11 месяцев с момента инцидента…


  1. cooladmin
    14.05.2018 12:45
    +4

    Какое количество ПК было заражено? Сколько восстановлено за 20-ть дней? Почему, в принципе, на этом предприятии произошло заражение?

    Внесите больше технических деталей в статью, пожалуйста. Сейчас это скорее информационная заметка, чем полноценный пост.


    1. AcidVenom
      14.05.2018 12:57
      +4

      Ничего этого в статье не будет, никаких подробностей о скриптах или допиленном WDS. Только о том, какие мы, Энвижн (МТС), красавчики.


      1. info_habr Автор
        14.05.2018 19:46

        Во-первых, скрипты — наше ноу-хау, во-вторых, заточены под конкретную структуру и задачи клиента. И для другого случая они не актуальны.


    1. info_habr Автор
      14.05.2018 19:32

      Больше 5000 инфицировано, за 20 дней перезалили больше половины машин.


      1. SAGSa
        14.05.2018 22:52

        По вашим словам вы перезалили за 20 дней больше половины машин из 5000. Смею предположить что это 3000 машин. Получается — 150 машин в день 1 машина за 5минут при 12 часовом рабочем дне! Учитывая то, что все компьютеры не находятся в одном кабинете, как мне кажется, за это время, ваши сотрудники просто физически не успели пройти по всем компьютерам и просто настроить их на загрузку с сети. Сколько серверов wds вы использовали? Очевидно, что их было больше одного. Каким образом  балансировали нагрузку между серверами?


        1. Buchachalo
          15.05.2018 16:48

          Ну так переустанавливаю системы не по цепочке. 15 специалистов.Каждому нужно переустановить в день (8 часов) всего 10 систем. 48 минут на каждую систему.


        1. info_habr Автор
          15.05.2018 17:08

          Постараюсь ответить развернуто на Ваш Комментарий:
          1. Как только процедуры «пре-чека», копирования и «перезаливки» были нами полностью отлажены и протестированы, работы выполнялись параллельно…
          2. Использовалось около 10 ПАКов с WDS, отдельной балансировки не было, для разных сегментов использовался свой ПАК, средний «слот» на перезаливку был от 50 до 100АРМ, время, затраченное на отдельную рабочую станцию, не собиралось.
          3. Самым продолжительным этапом  была проверка локальных дисков и копирование данных, для ряда АРМ этот этап продолжался более 8-ми часов…
          4. Специалисты заказчика активно помогали на этапе реализации…
          5. Ряд перенастроенных «боксов» был передан заказчику, и на удаленных площадках их запускали специалисты заказчика уже самостоятельно…
          Надеюсь у Вас в результате данных объяснений сформировалась общая картина этого проекта :)


  1. lostpassword
    14.05.2018 13:21

    А МТС предоставляет услуги по поддержке сторонних IT-инфраструктур? Впервые об этом слышу. Есть сайт какой-нибудь, где можно про это почитать?


    1. info_habr Автор
      14.05.2018 19:39

      Наши процессы соответствуют стандарту ITSM. У нас есть собственная лаборатория для стендирования информационных систем (1000 единиц техники, 50 стоек оборудования). Собственная логистика. Работа 24*7. Ссылка вот эта: moskva.mts.ru/business/resheniya-i-produkti/it-resheniya/inzhenernie-sistemi


    1. rgaliull
      14.05.2018 23:46

      Да, как и все системные интеграторы.


  1. borisdenis
    14.05.2018 13:51
    +4

    Что это за недоИТ отдел который включает свежевылеченный (или переустановленный) комп в сеть к которой подключены зараженные машины??? Разогнать


    1. rgaliull
      14.05.2018 22:54

      Возможно, не сразу выявили все источники заразы. Нельзя исключать, что мог быть злоумышленник во внутреннем контуре. Сейчас остается только догадываться.


  1. werklop
    14.05.2018 13:59
    -2

    Linux? не, не слышали…


    1. borisdenis
      14.05.2018 14:08
      +1

      А вы попробуйте используя линукс воспользоваться порталом гос закупок и удивитесь, ему винда нужна, а без этого портала многие никак не могут работать. Ну и он не единственный такой…


      1. irbis_al
        14.05.2018 17:33
        -1

        Вот есть уже опыт… ставится виртуальная винда на линукс… пробрасываються все рутокены и jacarta… Делаеться образ, на случай если винда как обычно умрет… то из готового виртуального образа за 15 минут новая винда.Да и винда «обернутая» в линукс намного устойчивее работает.


        1. SchmeL
          14.05.2018 18:36

          Немного не в теме с сайтом госуслуг, но предполагаю, что он по ГОСТ шифрованию работает. Если для рутокенов, виртуалка используется, почему не попробовать экспортировать ключи в файл и в linux настроить ГОСТ на openssl (ну или крипропро тоже работает) и скормить ему эти ключи?
          У нас еще мудреней — есть один сайт, к которому доступ по ГОСТ нужен, в случае как предлагали владельцы портала — необходимо было на каждый комп (а их много) криптопро поставить.
          В итоге сделали stunnel до гост сайта (openssl с gost engine и патченный stunnel), запись в локальном DNS и nginx во внутренней сети с адресом этого сайта, который уже проксировал на stunnel. В итоге пользователи из локалки ходят на сайт по самоподписанному RSA, без криптопро.


          1. irbis_al
            14.05.2018 18:43

            То о чем Вы пишите( итоге сделали stunnel до гост сайта (openssl с gost engine и патченный stunnel) или почему не попробовать экспортировать ключи в файл и в linux настроить ГОСТ на openssl), это довольно высокий класс админа… таковыми являются не все… и наверное не надо быть всем такого класса… а вот поднять виртуалку… и залить готовый уже настроенный образ винды с рутокенами(возможно с одинэсами, криптопро, клиентбанками и т.д)… может и «эникейщик»


        1. borisdenis
          15.05.2018 08:17

          Да, но учтите тот факт что на многих гос предприятиях стоят слабенькие машины, которые висят и если на них попробовать работать в виртуальной машине… В общем не везде это применимо.


    1. SAGSa
      14.05.2018 14:25
      +1

      Никто не может дать гарантии, что завтра в ядре linux не найдут уязвимость подобную EternalBlue. При должной настройке и своевременном обновлении ничего бы не случилось. Тут вопросы к Ит отделу в организации.


    1. acmnu
      14.05.2018 14:29
      -1

      Ну сам по себе Linux это конечно сомнительно, но ChromeOS (ну или ChromiumOS, если хочется кастома) вполне жизнеспособен процентов на 80 типичных операций.


  1. dirkar
    14.05.2018 15:40
    +2

    Там в ит отделе уборщицы работали?
    Или просто успешно освоили бюджет заказчика, это же такая сложнейшая работа винду с образа накатить, без аутсорса не справиться никак.


  1. Taciturn
    14.05.2018 18:32
    +2

    В статье не нашёл никаких упоминаний об установке обновлений. Значит ли это, что они как не ставились, так и не и будет ставиться, так что всё это чудо-решение продержится до очередной крупной уязвимости?


    1. info_habr Автор
      14.05.2018 19:56

      Установка обновлений — не задача этой системы, система была развернута для критического восстановления инфраструктуры. Единоразово. Если произойдет аналогичная проблема или будет выявлена другая уязвимость, придется разливать образ еще раз. Для предотвращения аналогичных проблем имеет смысл использовать комплекс средств по мониторингу и анализу событий безопасности, одним из которых мы можем порекомендовать Microsoft Advanced Threat Analytics


      1. scruff
        15.05.2018 09:29

        Без обновлений против Пети никуда. От всех этих Аналитиксов толку ноль. При повальном заражении в консоли будет всё красное.


  1. SAGSa
    14.05.2018 20:24

    Зачем нужно было разбивать сеть на vlan? Если я не ошибаюсь уже в первые сутки было известно как происходит заражение вирусом и каким образом его можно езбежать. Чтобы не терять время достаточно было развернуть образ со всеми установленными обновлениями. Хотя в россии все как обычно, чем больше проделано работы тем лучше. Складывается впечатление что специально был завышен обьем работ чтобы получить как можно больше денег с организации.


    1. rgaliull
      14.05.2018 22:57

      там вроде бы, специальный петя был. возможно, некогда было разбираться


      1. SAGSa
        14.05.2018 23:05

        Остается только догадываться. Статья порождает больше вопросов чем ответов..


    1. Dioxin
      15.05.2018 09:30

      Страховка лишней не бывает, тем более когда уже всё плохо.


  1. yurasek
    15.05.2018 00:50

    Очень жаль, что в статье нет информации о том: какие на компьютерах использовались операционные системы, обновлялись ли они, был ли настроен сетевой экран, использовался ли антивирус и какой?


  1. scruff
    15.05.2018 09:23

    В статье ни слова про патчи и уязвимости SMBv1.0


    1. info_habr Автор
      15.05.2018 17:00

      Позволим себе не согласиться:).
      Необходимость правильно разработанной системы и, главное, регламента тестирования, установки и управления обновлениями в инфраструктуре не обсуждается, но наличие инструментов мониторинга и корреляции событий позволят на ранний стадиях обнаружить «нетипичное» поведение и предотвратить дальнейшее распространение «зловреда». Именно инструменты аналитики помогут на ранних стадиях помещать лавинообразному заражению инфраструктуры.


  1. kol_dm_ukk
    15.05.2018 17:00

    Интересна судьба руководителей ИТ-подразделений клиента. Их уволили всех? Потому как допустить такой масштаб бедствия — это надо умудриться.