Сотрудники Google рассказали о том, какие новые технологии внедряются в Gmail для защиты входящей почты от спама, попыток фишинга и вредоносных программ. По их заявлениям существующие модели машинного обучения высоко эффективны, и (в сочетании с другими средствами защиты) они помогают блокировать более 99,9% угроз, попадающих во входящие почтовые ящики Gmail.



Еженедельно сканер вредоносных файлов Gmail обрабатывает более 300 миллиардов вложений. 63% вредоносных документов, которые блокируются, ежедневно отличаются друг от друга. Для того, что бы оставаться на шаг впереди недавно было добавлено новое поколение сканеров документов, которое опирается на глубокое обучение (deep learning).


С момента запуска нового сканера (конец 2019 года) ежедневный охват обнаружения вредоносных офисных файлов увеличился на 10%. Для отдельных видов атак (adversarial, bursty) новый сканер улучшил показатель обнаружения на 150%. Под капотом нового сканера используется обученная модель TensorFlow TFX (TensorFlow Extended) и индивидуальный анализатор документов для каждого типа файлов. Анализаторы документов отвечают за разбор документа, выявление общих шаблонов атак, извлечение макросов, де-обфускацию контента и выполнения прочих функций извлечения.


Для команды Google улучшение детектирования документов является одним из ключевых направлений, поскольку на вредоносные документы приходится 58% вредоносных файлов, нацеленных на пользователей Gmail. Технология все еще активно развивается, например сейчас она используется только для сканирования документов Office.


Более подробный доклад сотрудники Google представили на конференции RSA 2020.