Говорим о «cookies free »решениях, которые используют, чтобы анализировать действия посетителей и показывать контекстную рекламу. Обсуждаем мнения экспертов и сообщества.


Фото — sheri silver — Unsplash

Влияние регуляторов


Законов, регулирующих работу компаний с персональными данными, становится все больше. В прошлом году в Европе начал действовать GDPR. Он обязывает сайты уведомлять пользователей об устанавливаемых cookies, если они позволяют так или иначе идентифицировать человека.

Также Еврокомиссия готовит законопроект ePrivacy Regulation. Его цель — защитить людей от навязчивой рекламы. Новая директива ужесточит правила обращения с идентификаторами и обяжет предоставлять альтернативные варианты работы с сервисом без cookies.

Похожие законопроекты появляются и в США. Примером может быть CCPA — California Consumer Privacy Act — который вступит в силу в начале 2020 года. Эксперты говорят, что его политики работы с cookies сильно напоминают GDPR. Аналогичная картина разворачивается в Индии — там прорабатывают свой Personal Data Protection Bill. Такие законопроекты усложняют работу с cookies, и многие смотрят на альтернативы. Кто-то полностью отказывается от привычных методов. Другие — все-таки находят для себя подходящие решения с учетом новых требований. Расскажем, какие.

МО и поведенческие паттерны


По этому пути пошли в Washington Post, где разработали собственную аналитическую платформу Zeus. Она изучает, что читают и откуда приходит аудитория. Алгоритм сопоставляет эту информацию с поведенческими шаблонами, которые в WP составляли на протяжении четырех лет, и определяет, какие новости или товары смогут заинтересовать людей.

С одной стороны, Zeus дает больше свободы в условиях ужесточения регулирования процесса идентификации пользователей с помощью cookies. Однако есть мнение, что разработчикам Zeus все равно придется предпринять ряд мер для соответствия GDPR. Так как закон в первую очередь направлен на безопасность персональных данных. Cookies посвящена лишь небольшая его часть.

Цифровые отпечатки


В этом случае для идентификации пользователей веб-ресурс собирает информацию об установленных плагинах, программном обеспечении, операционной системе, железе и даже имеющихся на борту шрифтах. На основании этих данных формируется портрет посетителя сайта.

Такой подход в своих продуктах использует стартап из Сан-Франциско — AdStack. Компания разрабатывает инструменты для персонализации и таргетинга маркетинговых писем. Однако есть вероятность, что «телеметрию», собираемую для цифровых отпечатков, отнесут к категории персональных данных, и этот подход попадет под регулирование GDPR и аналогичных законов.

Кэш браузера


Имеет смысл выделить еще один вариант аналитических систем, который активно применялся несколько лет назад. В нем в качестве идентификатора выступал ETag. Это — контрольная сумма, с помощью которой веб-сервер определяет, изменилось ли содержимое отображаемой страницы. У каждого пользователя этот ETag свой, поэтому он подходил на роль уникального ID.

Этот механизм использовал стриминговый сервис Hulu и аналитическая платформа KISSmetrics. Однако от подобной практики им пришлось отказаться. Нескольким пользователям не понравилось, что такие идентификаторы (в отличие от cookies) нельзя удалить. Они посчитали это нарушением и обратились в суд, который встал на их сторону.

Возвращаясь к cookies


Эксперты ожидают, что по крайней мере часть вышеописанных подходов будет набирать обороты. Например, в Washington Post планируют поставлять Zeus как коммерческое решение для других новостных ресурсов через площадку Arc Publishing. Она насчитывает более 750 млн уникальных пользователей по всему миру.

Такой прогноз связан с деятельностью разработчиков браузеров и крупных ИТ-организаций. Они активно продвигают решения, которые препятствуют установке cookies. Примером может быть инструмент Do Not Track (DNT), представленный Федеральной торговой комиссией США (FTC). С его помощью браузер сообщает сайтам, разрешено им ставить cookies или нет.


Фото — Christina Branco — Unsplash

Похожий механизм предлагает Mozilla. Компания внедрила в браузер функцию, которая дает пользователю возможность выбирать, какими персональными данными поделиться с сайтом. Также в начале мая Apple обновили систему Intelligent Tracking Prevention для Safari — она блокирует установку нежелательных cookies. Аналогичные функции внедряет Google.

Всплеска популярности решений, не использующих cookies для показа контекстной рекламы, можно ожидать уже в конце этого года. Именно тогда в силу должен вступить строгий ePrivacy Regulation.



Мы в ITGLOBAL.COM предлагаем услуги частного и публичного облака. Дополнительное чтение в корпоративном блоге на нашем сайте — виртуализация, IaaS и все о дата-центрах:



Комментарии (22)


  1. vmchaz
    05.08.2019 20:52

    Похоже, при распространении таких систем единственный вариант — это продвигать уход от JS и любого исполнения недоверенного кода на стороне клиента.
    Потребуются какие-то другие стандарты для таких действий, как подгрузка превью и комментариев, а выполнение JS должно быть доступно для тех сайтов, где без этого никак (например, онлайн-редакторы документов и т.д.)


    1. mapcuk
      05.08.2019 21:55

      Это решение остаётся за администратором ресурса, даже если ему навязать JS-free стандарт, он может трекать посетителей сам и предоставит RTB-аукциону данные по пользователем, если каждый показ сможет продать подороже. Если дальше закручивать гайки, то аукцион "уйдёт" на backend, наверное.
      Ну и как сказано в статье и без JS можно трекать по Etag, по поведению (смотреть referer), в целом по заголовкам (User-Agent) и в конце концов по IP.
      И чем мешает JS (кроме как может использовать ваш CPU для майнинга :) но и это блокируют)?
      fingerprinting тоже научились обходить, вроде бы браузер отдаёт данные хаотично, чтоб отпечаток был разный.


      По мне уже блокировка 3rd-party кук серьёзно подрежет возможности трекинга.


      Что по внедрению JS от всяких disqus или google analytics, то вроде как есть тренд на переход на свои решения или self-hosted альтернативы. Потому что любой внешний запрос на сайте можно монетизировать (опять же для трекинга).


    1. vp7
      06.08.2019 09:28

      Поезд уже, к сожалению, ушёл.
      Есть множество фреймворков с рендерингом данных на стороне клиента — т.е. вам передаётся набор шаблонов + набор данных, а ваш браузер из этого компота строит web страницу.
      Она даже может быть просто статичной страничкой, без интерактивного воздействия с пользователем, но всё-равно с отклбченными JS работать не будет.


      Таких сайтов уже крайне много и процесс перехода займёт неопределённое время.


      1. sumanai
        06.08.2019 17:51

        Надеюсь во имя больших баллов в PageSpeed и лучшей индексации они прикрутят серверный пререндеринг и адекватную работу без JS.


      1. vmchaz
        06.08.2019 22:45

        Скрипты для таких фреймворком можно сделать «доверенными». Сделать для браузера реестр доверенных фреймворков по аналогии с дополнениями.
        Смысл в том, чтобы:
        1. Из существующих рендерящих движков данные никуда не утекали (что можно подтвердить через аудит кода)
        2. Автор фреймворка не мог просто так добавить шпионящий функционал с обновлением.


  1. EgorVolokitin
    05.08.2019 21:45

    использование отпечатков не является в данный момент нарушением? к примеру у меня отпечаток используется для безопасности — на основе отпечатка считается хэш который и посылается на сервер. это позволяет мне не беспокоиться о том, что токен аутентификации будет украден


    1. apapacy
      06.08.2019 10:24

      Я не обладаю юридическими знаниями в чтобы делать выводы по новым правилам. Но если они зациклилась на cookie то они немного наивны. Т.к. супер корпорации типа google в настоящее время могут определить клиента например по его почерку работы с мышью. Или даже по почерку работы с клавой имеется в виду время междунажатиями клавиш.


  1. funca
    05.08.2019 23:25

    Интересно к чему приведут все эти ограничения в эпоху тотального HTTPS? Здесь трекинг (session id, token) заложен на уровне протокола.


    1. pae174
      06.08.2019 07:35
      +1

      В статье имеется в виду трекинг Васи Пупкина вне зависимости от того, с каких машин и на какие ресурсы он заходит. Что бы можно было знать, что две недели назад Вася с рабочего компьютера интересовался курсами по 1С, потом две недели отдыхал в стране третьего мира и там зачем-то с нетбука искал таблетки от желудочных инфекций (но не нашёл). И вот теперь, когда Вася вернулся из отпуска и зашел в любимый бложик с домашнего ноута, мы насыпем ему рекламы про таблетки, про курсы и про хостинг для фоточек и про вакансии по 1С в его регионе (а в следующий раз еще слегка поднимем ему цены на билеты — специально для него).

      Никакой такой session id в HTTPS эту задачу не решает.


      1. funca
        06.08.2019 10:09

        Есть возможность затрекать последовательность запросов к одному сайту и это уже неплохо. Условный скрипт google analytics подключен на миллионах сайтов. Добавить сюда же CDN, скрипты соц сетей и т.п Если вы владеете ключевыми ресурсами, то у вас неплохие шансы — для идентификации достаточно, чтобы пользователь был деанонимзирован на любом из ресурсов. Чем не глобальный трекинг?


        1. pae174
          06.08.2019 10:41

          Без кукисов или любой подобной технологии эти ключевые ресурсы могут только сопоставить между собой разные сессии на разных ресурсах только если они активны прямо сейчас и инициированы одним и тем же процессом (и при этом в браузере нет какой-нибудь песочницы, которая не дает одному сайту повторно использовать соединения, открытые ради того же хоста но уже в соседней вкладке).

          В общем и целом: особенности протоколов транспортного и сеансового уровней никак не заменят вам особенностей протоколов прикладного уровня.


          1. funca
            07.08.2019 00:39

            Активные соединения не такая уж проблема даже штатными средствами. У людей по 100500 открытых вкладок, в современных браузерах есть всевозможные workers. Я не утверждаю, что https это панацея. Просто он даёт немало возможностей прямо из коробки. В принципе ведь и те же куки можно отключить или ходить каким-нибудь lynks. Но так мало кто делает (а значит это тоже возможность для идентификации).


  1. ZEvS_Poisk
    06.08.2019 00:25
    +1

    КДПВ испугает не одну нейросеть. :)


  1. Zibx
    06.08.2019 02:01
    +1

    Весь мир сошел с ума. Я зашел на сайт GDPR. Там перешел в раздел «партнёры». На сайтах обоих партнёров мне насыпали ведро кук и не предупредили об их использовании. Почти все коробочные бэкэнд решения выставляют куки. Многие прокси сервера доставляют. И вообще ничто не мешает не ставить новые, а использовать связку с теми уникальными айдишками и хоть обследиться.
    Куки появились на заре развития интернета и они уже здорово ограничены размером в 4кб. Забавно, но про кэширование статики никто пользователя не предупреждает, а она может сожрать намного больше места на диске (изначально до GDPR боролись с тем что сайты пишут без спросу данные на пользовательские компьютеры) и по кэшу тоже можно отлично отслеживать, да точность снизится и разработчикам будет нужно навернуть костылей (проверять что юзер запросил только хэдеры, но не выкачивал тело) на бэкэнд, но когда это останавливало капитал?
    Каждый европейский сайт теперь пугает посетителей плашкой о страшных куках — на мой взгляд стало хуже ровно на один попап для каждого нового ресурса, вместо этой борьбы с ветряными мельницами — лучше бы в школах рассказали что такое куки и зачем\как на самом деле порубить их у себя локально.


    1. vp7
      06.08.2019 09:32

      Законодатели совершили классическую ошибку — попытались разъяснить логику и цель закона в технических терминах с названиями технологий. В ответ бизнес просто чуть-чуть изменил технологии и ушел из-под действия закона ;(


  1. sumanai
    06.08.2019 05:41
    -1

    Вписываются в букву закона, извращая его суть. Просто не нужно следить за пользователями.


  1. mwambanatanga
    06.08.2019 11:06
    -1

    Статья совсем не про отказ от кукисов. Статья про то, как ещё, помимо кукисов, можно идентифицировать пользователей, чтобы продолжить впаривать им таргетированную рекламу и не подпадать под законы.


  1. dmitryklerik
    06.08.2019 11:42

    Если бы они реально хотели бороться с трекингом пользователем они бы давно пришли с обысками в гугл, фейсбук, твиттер, ютуб и т.д.

    А запрет на куки без разрешения только помогает крупным компаниями, каждый хоть раз бывал на их сайтах и получал куку в браузер


    1. vmchaz
      06.08.2019 22:52

      Подо всё это нужно менять технологии, в первую очередь. Кроссайтовое взаимодействие (когда в любом блоге есть скрипты от фейсбука, вконтакта, гугла, твиттера и прочих) должно быть очень сильно ограничено.
      Реферреры — убраны как явление.
      Куки — у каждого браузера должен быть список сайтов, которым позволено их сохранять, и кнопка сверху: «Сохранять куки от этого сайта / отозвать разрешение» (но только не всплывающее уведомление, как это было в старой опере 10-й версии)
      Ну и с кэшированием содержимого придётся что-то делать: полная анонимность потребует куда большего расхода трафика.

      Так что никаких обысков не надо. А вот поумерить пыл гугла в протаскивании разных удобных ему нововведений в стандарт — это бы надо, но пока не представляю, как это сделать.


      1. Revertis
        07.08.2019 17:49
        +1

        Только не жёстко: разрешить/запретить куки, а выставить время их сохранения.
        Например, если я захожу на неизвестный сайт, я хочу, чтобы всё работало, но чтобы через 30 минут обо мне забыли.
        Сейчас я этого добиваюсь расширением для браузера, но если бы была встроенная фитча такая, было бы намного комфортнее.


  1. savostin
    07.08.2019 16:47

    Т.е. до этого они просто меня идентифицировали как ID сессии, который я могу удалить/поменять/не принимать/взять у друга/придумать свой. И по этому ID можно только понять, что я уже был на этом сайте, но не кто и какой я. А теперь они собирают ВСЮ информацию обо мне? И это типа лучше с точки зрения защиты личной информации? Где-то тут на*бка, не кажется?


    1. Revertis
      07.08.2019 17:51

      Ну да, и собирают всю вашу историю серфинга, если вы про гугл-анал и т.п.