В последнее время все технологические компании твердят о машинном обучении. Мол, столько задач оно решает, которые раньше только люди и могли решить. Но как конкретно оно работает, никто не рассказывает. А кто-то даже для красного словца машинное обучение называет искусственным интеллектом.


Как обычно, никакой магии тут нет, все одни технологии. А раз технологии, то несложно все это объяснить человеческим языком, чем мы сейчас и займемся. Задачу мы будем решать самую настоящую. И алгоритм будем описывать настоящий, подпадающий под определение машинного обучения. Сложность этого алгоритма игрушечная — а вот выводы он позволяет сделать самые настоящие.

Задача: отличить осмысленный текст от белиберды


Текст, который пишут настоящие люди, выглядит так:

  • Могу творить, могу и натворить!
  • У меня два недостатка: плохая память и что-то еще.
  • Никто не знает столько, сколько не знаю я.

Белиберда выглядит так:

  • ОРПорыав аоырОрпаыор ОрОРАыдцуцзущгкгеуб ыватьыивдцулвдлоадузцщ
  • Йцхяь длваополц ыадолцлопиолым бамдлотдламда

Наша задача — разработать алгоритм машинного обучения, который бы отличал одно от другого. А поскольку мы говорим об этом применительно к антивирусной тематике, то будем называть осмысленный текст «чистым», а белиберду — «зловредной». Это не просто какой-то мысленный эксперимент, похожая задача на самом деле решается при анализе реальных файлов в реальном антивирусе.

Для человека задача кажется тривиальной, ведь сразу видно, где чистое, а где зловредное, но вот формализовать разницу или, тем более, объяснить ее компьютеру — уже сложнее. Мы используем машинное обучение: сначала дадим алгоритму примеры, он на них «обучится», а потом будет сам правильно отвечать, где что.

Алгоритм


Наш алгоритм будет считать, как часто в нормальном тексте одна конкретная буква следует за другой конкретной буквой. И так для каждой пары букв. Например, для первой чистой фразы — «Могу творить, могу и натворить!» — распределение получится такое:

ат 1 мо 2 ри 2
во 2 на 1 тв 2
гу 2 ог 2 ть 2
ит 2 ор 2  

Что получилось: за буквой в следует буква о — два раза, — а за буквой а следует буква т — один раз. Для простоты мы не учитываем знаки препинания и пробелы.

На этом этапе мы понимаем, что для обучения нашей модели одной фразы мало: и сочетаний недостаточное количество, и разница между частотой появления разных сочетаний не так велика. Поэтому надо взять какой-то существенно больший объем данных. Например, давайте посчитаем, какие сочетания букв встречаются в первом томе «Войны и мира»:

то 8411 на 6236 на 6236
ст 6591 не 5199 оу 31
на 6236 по 5174 мб 2
оу 31 ен 4211 тж 1

Разумеется, это не вся таблица сочетаний, а лишь ее малая часть. Оказывается, вероятность встретить «то» в два раза выше, чем «ен». А чтобы за буквой т следовало ж — такое встречается лишь один раз, в слове «отжившим».

Отлично, «модель» русского языка у нас теперь есть, как же ее использовать? Чтобы определить, насколько вероятно исследуемая нами строка чистая или зловредная, посчитаем ее «правдоподобность». Мы будем брать каждую пару букв из этой строки, определять по «модели» ее частоту (по сути реалистичность сочетания букв) и перемножать эти числа:

F(мо) * F(ог) * F(гу) * F(тв) *… = 2131 * 2943 * 474 * 1344 *… = правдоподобность

Также в финальном значении правдоподобности следует учесть количество символов в исследуемой строке — ведь чем она была длиннее, тем больше чисел мы перемножили. Поэтому из произведения извлечем корень нужной степени (длина строки минус один).

Использование модели


Теперь мы можем делать выводы: чем больше полученное число — тем правдоподобнее исследуемая строка ложится в нашу модель. Стало быть, тем больше вероятность, что ее писал человек, то есть она чистая.

Если же исследуемая строка содержит подозрительно большое количество крайне редких сочетаний букв (например, ёё, тж, ъь и так далее), то, скорее всего, она искусственная — зловредная.

Для строчек выше правдоподобность получилась следующая:

  • Могу творить, могу и натворить! — 1805 баллов
  • У меня два недостатка: плохая память и что-то еще. — 1535 баллов
  • Никто не знает столько, сколько не знаю я. — 2274 балла
  • ОРПорыав аоырОрпаыор ОрОРАыдцуцзущгкгеуб ыватьыивдцулвдлоадузцщ — 44 балла
  • Йцхяь длваополц ыадолцлопиолым бамдлотдламда — 149 баллов

Как видите, чистые строки правдоподобны на 1000-2000 баллов, а зловредные не дотягивают и до 150. То есть все работает, как задумано.

Чтобы не гадать, что такое «много», а что — «мало», лучше доверить определение порогового значения самой машине (пусть обучается). Для этого скормим ей некоторое количество чистых строк и посчитаем их правдоподобность, а потом скормим немного зловредных строк — и тоже посчитаем. И вычислим некоторое значение посередине, которое будет лучше всего отделять одни от других. В нашем случае получится что-то в районе 500.

В реальной жизни


Давайте осмыслим, что же у нас получилось.

1. Мы выделили признаки чистых строк, а именно пары символов.

В реальной жизни — при разработке настоящего антивируса — тоже выделяют признаки из файлов или других объектов. И это, кстати, самый важный шаг: от уровня экспертизы и опыта исследователей напрямую зависит качество выделяемых признаков. Понять, что же на самом деле важно — это все еще задача человека. Например, кто сказал, что надо использовать пары символов, а не тройки? Такие гипотезы как раз и проверяют в антивирусной лаборатории. Отмечу, что у нас для отбора наилучших и взаимодополняющих признаков тоже используется машинное обучение.

2. На основании выделенных признаков мы построили математическую модель и обучили ее на примерах.

Само собой, в реальной жизни мы используем модели чуть посложнее. Сейчас наилучшие результаты показывает ансамбль решающих деревьев, построенный методом Gradient boosting, но стремление к совершенству не позволяет нам успокоиться.

3. На основе математической модели мы посчитали рейтинг «правдоподобности».

В реальной жизни мы обычно считаем противоположный рейтинг — рейтинг вредоносности. Разница, казалось бы, несущественная, но угадайте, насколько неправдоподобной для нашей математической модели покажется строка на другом языке — или с другим алфавитом?
Антивирус не имеет права допустить ложное срабатывание на целом классе файлов только по той причине, что «мы его не проходили».

Альтернатива машинному обучению


20 лет назад, когда вредоносов было мало, каждую «белиберду» можно было просто задетектить с помощью сигнатур — характерных отрывков. Для примеров выше “сигнатуры” могли бы быть такими:

ОРПорыав аоырОрпаыор ОрОРАыдцуцзущгкгеуб ыватьыивдцулвдлоадузцщ
Йцхяь длваополц ыадолцлопиолым бамдлотдламда

Антивирус сканирует файл, если встретил «зущгкгеу», говорит: «Ну понятно, это белиберда номер 17». А если найдет «длотдламд» — то “белиберда номер 139”.

15 лет назад, когда вредоносов стало много, преобладать стало «дженерик»-детектирование. Вирусный аналитик пишет правила, что для осмысленных строк характерно:

  1. Длина слов от одного до двадцати символов.
  2. Заглавные буквы очень редко встречаются посередине слова, цифры тоже.
  3. Гласные обычно более-менее равномерно перемежаются с согласными.
  4. И так далее. Если много критериев нарушено — детектируем эту строку как зловредную.

По существу это примерно то же самое, только вместо математической модели в этом случае набор правил — которые аналитик должен вручную написать. Это хорошо работает, но требует времени.

И вот 10 лет назад, когда вредоносов стало ну просто очень много, начали робко внедряться алгоритмы машинного обучения. Поначалу по сложности они были сопоставимые с описанным нами простейшим примером, но мы активно нанимали специалистов и наращивали уровень экспертных знаний.

Сейчас без машинного обучения не работает ни один нормальный антивирус. Если оценивать вклад в защиту пользователей, то с методами на основе машинного обучения по статическим признакам могут посоперничать разве что методы на основе анализа поведения. Но только при анализе поведения тоже используется машинное обучение. В общем, без него уже никуда.

Недостатки


Преимущества понятны, но неужели это серебряная пуля, спросите вы. Не совсем. Этот метод хорошо справляется, если описанный выше алгоритм будет работать в облаке или в инфраструктуре, постоянно обучаясь на огромных количествах как чистых, так и вредоносных объектов.

Также очень хорошо, если за результатами обучения присматривает команда экспертов, вмешивающихся в тех случаях, когда без опытного человека не обойтись.

В этом случае недостатков действительно немного, а по большому счету только один — нужна эта дорогостоящая инфраструктура и не менее дорогостоящая команда специалистов.

Другое дело, когда кто-то пытается радикально сэкономить и использовать только математическую модель и только на стороне продукта, прямо у клиента. Тогда могут начаться трудности.

1. Ложные срабатывания.

Детектирование на базе машинного обучения — это всегда поиск баланса между уровнем детектирования и уровнем ложных срабатываний. И если нам захочется детектировать побольше, то ложные срабатывания будут. В случае машинного обучения они будут возникать в непредсказуемых и зачастую труднообъяснимых местах. Например, эта чистая строка — «Мцыри и Мкртчян» — распознается как неправдоподобная: 145 баллов в модели из нашего примера. Поэтому очень важно, чтобы антивирусная лаборатория имела обширную коллекцию чистых файлов для обучения и тестирования модели.

2. Обход модели.

Злоумышленник может разобрать такой продукт и посмотреть, как работает модель. Он человек и пока, если не умнее, то хотя бы креативнее машины — поэтому он подстроится. Например, следующая строка считается чистой (1200 баллов), хотя ее первая половина явно вредоносная: «лоыралоыврачигшуралорыловарДобавляем в конец много осмысленного текста, чтобы обмануть машину». Какой бы умный алгоритм ни использовался, его всегда может обойти человек (достаточно умный). Поэтому антивирусная лаборатория обязана иметь продвинутую инфраструктуру для быстрой реакции на новые угрозы.


Один из примеров обхода описанного нами выше метода: все слова выглядят правдоподобно, но на самом деле это бессмыслица. Источник


3. Обновление модели.

На примере описанного выше алгоритма мы упоминали, что модель, обученная на русских текстах, будет непригодна для анализа текстов с другим алфавитом. А вредоносные файлы, с учетом креативности злоумышленников (смотри предыдущий пункт) — это как будто постепенно эволюционирующий алфавит. Ландшафт угроз меняется довольно быстро. Мы за долгие годы исследований выработали оптимальный подход к постепенному обновлению модели прямо в антивирусных базах. Это позволяет дообучать и даже полностью переобучать модель «без отрыва от производства».

Заключение


Итак.

  1. Мы рассмотрели реальную задачу.
  2. Разработали реальный алгоритм машинного обучения для ее решения.
  3. Провели параллели с антивирусной индустрией.
  4. Рассмотрели с примерами достоинства и недостатки такого подхода.

Несмотря на огромную важность машинного обучения в сфере кибербезопасности, мы в «Лаборатории Касперского» понимаем, что лучшую киберзащиту обеспечивает именно многоуровневый подход.

Все в антивирусе должно быть прекрасно — и поведенческий анализ, и облачная защита, и алгоритмы машинного обучения, и многое-многое другое. Но об этом “многом другом” — в следующий раз.
Поделиться с друзьями
-->

Комментарии (22)


  1. zigrus
    15.11.2016 13:35

    сколько балов наберет эта фраза: тостоу нанепоен наоумб


    1. sym1
      15.11.2016 13:45

      а также фраза «няня, я у них поел»


      1. Kaspersky_Lab
        15.11.2016 14:36
        +1

        няня, я у них поел — 1638


    1. Kaspersky_Lab
      15.11.2016 14:35

      тостоу нанепоен наоумб — 841


      1. zigrus
        15.11.2016 15:29

        почему так мало? я взял буквы из вашей табличке про Войну и мир


        1. AlexeyVanilov
          15.11.2016 15:39

          Так «оу» и «мб» зря брали. Весь рейтинг запороли.


        1. imwode
          15.11.2016 21:22

          Так и фраза уж очень похожа на осмысленную уже — Толстой ненапоен нобум…


  1. sym1
    15.11.2016 13:48

    А обновление модели для антивирусного продукта может быть инкрементальным? или каждое переобучение = полное обновление тех баз, которые ответственны за ML?


    1. Kaspersky_Lab
      15.11.2016 14:41
      +1

      Мы сделали инкрементально обновляемую модель. Так что да, может быть инкрементальным.


  1. michael_vostrikov
    15.11.2016 15:27
    +1

    Если перемешать пары букв в чистом тексте, баллов будет столько же, но получится белиберда.

    Например, кто сказал, что надо использовать пары символов, а не тройки?

    Подозреваю, что для максимально правильного решения задачи надо использовать слова целиком. И причем не просто слова, а с определением смысла фраз. Применительно к антивирусам — машинные команды и цель их выполнения. Без этого всегда будет только «поиск баланса».


    1. Kaspersky_Lab
      15.11.2016 18:49
      +1

      Не выйдет так перемешать пары символов в цепочке, чтобы количество баллов не изменилось. Ваше предложение по «максимально правильному решению задачи» требует использования словарей и многого другого. Мы же показали лишь принципы. И задачу в антивирусе мы решаем немного другую.


      1. michael_vostrikov
        15.11.2016 20:18
        +2

        Да, не заметил, там же на 1 символ сдвигается. Ну я не совсем про словари, я имел в виду, что для более качественного решения нужен ИИ с другими принципами работы. Хотя согласен, статья не про это все-таки.


  1. khrisanfov
    15.11.2016 18:41

    Извините, заголовок не в тему. Такая статья только запутает новичка (вроде меня). Машинное обучение строится на базовых алгоритмах классификации и регрессии + набор новых техник, об этом в статье ни слова. Это все появилось не сегодня и не вчера. Вы с таким же успехом могли использовать это 15 лет назад.


  1. viru0
    15.11.2016 19:13
    +1

    а где машинное обучение то? Чему машина научилась, в плане скормили input и правильный output, теперь можем кормить любой input.
    Все 'знания': статистика по парам, граница отсечки и.т.п. заданы по сути человеком

    ```
    Для этого скормим ей некоторое количество чистых строк и посчитаем их правдоподобность, а потом скормим немного зловредных строк — и тоже посчитаем. И вычислим некоторое значение посередине, которое будет лучше всего отделять одни от других. В нашем случае получится что-то в районе 500.
    ```
    Опять же граница в итоге определена экспертом.
    + несколько сильно выпадающих данных(например: стто на оуто) — сильно сместят среднее и получится много ложно-позитива около среднего. фраза из серии: 'И тут звук:«Грхххх»' попадет в зловред

    Никакого машинного обучения, старые добрые классические алгоритмы.


    1. imwode
      15.11.2016 21:22
      +1

      Машинное обучение в установке весов сочетаний и в группировке (установке порога).


      1. viru0
        15.11.2016 22:15

        ок. Было бы круто длину фрагмента тоже рассматривать как переменную. Тогда алгоритм бы еще свои 'слова/слоги' находил.


  1. third112
    16.11.2016 03:54

    Задача: отличить осмысленный текст от белиберды

    Текст, который пишут настоящие люди, выглядит так:

    Могу творить, могу и натворить!
    У меня два недостатка: плохая память и что-то еще.
    Никто не знает столько, сколько не знаю я.

    Белиберда выглядит так:

    ОРПорыав аоырОрпаыор ОрОРАыдцуцзущгкгеуб ыватьыивдцулвдлоадузцщ
    Йцхяь длваополц ыадолцлопиолым бамдлотдламда
    Если так определить Белиберду, то ИМХО достаточно обычного спел-чекера, чтобы установить, что нет таких слов в словаре. А если определить:
    Белиберда выглядит так:

    Могу недостатка два, знает могу и я! Никто натворить!
    У сколько еще память столько и.


    то предложенное решение с такой задачей не справится, и тут действительно нужен AI.


    1. Kaspersky_Lab
      16.11.2016 11:13

      Для спелл-чекера нужен словарь и нет никакого машинного обучения (нечего объяснять простыми словами). Цель поста была не в том, чтобы классно решить описанную задачу, а в том, чтобы объяснить принцип и сфокусироваться на достоинствах и недостатках.

      Для вашей белиберды тоже подошли бы цепочки Маркова, но только не с парами букв, а с парами слов.


      1. third112
        16.11.2016 11:26

        Да, я прочитал, что Вы решали более сложную задачу и верю, что хорошо решили. Но вот ИМХО для объяснения принципа выбрали неудачный пример.


  1. Deosis
    16.11.2016 07:17
    +1

    Какое-то странное обучение, первая же мысль:
    Берём частую пару букв(например «ст»), потом частую из тех, которые можно приклеить (то) и так далее.
    В конце получим строку, считающуюся близкой к эталону чистоты. При этом осмысленность не требуется.

    Раньше была статья о соревнующихся моделях:
    Первая («фальшивомонетчик») получает на вход случайные данные и выдает максимально правдоподобный результат.
    Вторая («валидатор») получает на вход чистые, грязные данные и вывод первой в случайном порядке.
    Модели используют обратную связь для дообучения.
    Задача первой модели — обмануть вторую, задача второй — распознать обман первой.

    Насколько быстро в вашем случае обманщик научится использовать частоты пар?

    ПС Также можно добавить модель, выдающую максимально неправдоподобные чистые данные (Мцыри), для повышения качества валидации.


    1. Kaspersky_Lab
      16.11.2016 11:18
      +1

      Такую попытку сделать чистую белиберду уже предпринял другой читатель в первом комментарии. Безуспешно.

      Так же не забывайте, что злоумышленнику надо не просто обмануть модель (получить false positive/false negative), а обмануть модель с полезной нагрузкой (сделать зловреда, который признан чистым).

      Поднятый вами вопрос освящен в пункте 2 раздела «Недостатки».
      ПС Про читстые данные писали в пункте 1 раздела «Недостатки»


  1. shiryaeva
    16.11.2016 11:24
    +1

    Поэзия Кручёных теперь не только заумная, но и зловредная? Литературная справедливость.