Привет.


Вы знали, что платформы для размещения объявлений часто копируют контент у конкурентов, чтобы увеличить количество объявлений у себя? Они делают это так: обзванивают продавцов и предлагают им разместиться на своей платформе. А иногда и вовсе копируют объявления без разрешения пользователей. Авито — популярная площадка, и мы часто сталкиваемся с такой недобросовестной конкуренцией. О том, как мы боремся с этим явлением, читайте под катом.



Проблема


Копирование контента с Авито на другие платформы существует в нескольких категориях товаров и услуг. В этой статье речь пойдет только про автомобили. В предыдущем посте я рассказал, о том как мы делали автоматическое скрытие номера на автомобилях.



Но получилось (судя по поисковой выдаче других платформ), что мы запустили эту фичу сразу на трёх сайтах объявлений.



Один из этих сайтов после запуска фичи на время приостановил обзвон наших пользователей с предложениями скопировать объявление на их платформу: контента с логотипом Авито на их площадке стало слишком много, только за ноябрь 2018 года — более 70 000 объявлений. Например, вот так выглядела их поисковая выдача за сутки в Чеченской республике.



Дообучив свой алгоритм скрытия номерных знаков, чтобы он автоматически детектил и закрывал логотип Авито, они возобновили процесс.



С нашей точки зрения копирование контента конкурентов, использование его в коммерческих целях — неэтично и неприемлемо. Мы получаем жалобы от наших пользователей, которые недовольны этим, в нашу поддержку. А вот пример реакции в одном из сторов.



Надо сказать, что запрос согласия людей на копирование объявлений не оправдывает подобные действия. Это нарушение законов «О рекламе» и «О персональных данных», правил Авито, прав на товарные знаки и базу данных объявлений.


Мирно договориться с конкурентом нам не удалось, а оставлять ситуацию как есть мы не хотели.


Способы решения проблемы


Первый способ — юридический. Похожие прецеденты уже были в других странах. Например, известный американский классифайд Craigslist отсудил крупные суммы денег у копирующих с него контент сайтов.
Второй способ решения проблемы копирования — добавление большой вотермарки на изображение так, чтобы её нельзя было обрезать.
Третий способ — технологический. Мы можем затруднить процесс копирования нашего контента. Логично предположить, что скрытием логотипа Авито у конкурентов занимается какая-то модель. Также известно, что многие модели подвержены «атакам», которые мешают им работать корректно. В этой статье речь пойдёт как раз про них.


Adversarial attack



В идеале adversarial example для сети выглядит как шум, неразличимый человеческим глазом, но для классификатора он добавляет достаточный сигнал отсутствующего на картинке класса. В итоге картинка, например, с пандой, с высокой уверенностью классифицируется как гиббон. Создание adversarial шума возможно не только для сетей классификации картинок, но также для сегментации, детекции. Интересный пример — недавняя работа от Keen Labs: они обманули автопилот Tesla точками на асфальте и детектор дождя с помощью отображения как раз такого adversarial шума. Также атаки есть для других доменов, например, звука: известная атака на Amazon Alexa и другие голосовые ассистенты заключалась в проигрывании неразличимых человеческим ухом команд (взломщики предлагали купить что-то на Amazon).


Создание adversarial шума для моделей, анализирующих картинки, возможно благодаря нестандартному использованию градиента, необходимого для обучения модели. Обычно в методе обратного распространения ошибки с помощью вычисляемого градиента целевой функции изменяются только веса слоёв сети, чтобы она меньше ошибалась на обучающем датасете. Так же, как для слоёв сети, можно вычислить градиент целевой функции по входному изображению и изменить его. Изменение входного изображения с помощью градиента применялось для разных известных алгоритмов. Помните Deepdream?



Если мы итеративно вычислим градиент целевой функции по входному изображению и добавим этот градиент к нему, в изображении появится больше информации о превалирующем классе из ImageNet: появляется больше мордочек собак, благодаря чему уменьшится значение лосс функции и модель становится уверенней в классе «собака». Почему в примере именно собаки? Просто в ImageNet из 1000 классов — 120 классов собак. Схожий подход к изменению изображения использовался в алгоритме Style Transfer, известном в основном благодаря приложению Prisma.
Для создания adversarial example тоже можно использовать итеративный метод изменения входного изображения.



У этого метода существует несколько модификаций, но основная идея проста: исходное изображение итеративно сдвигается в направлении градиента лосс функции классификатора J (потому что используется только знак — sign) с шагом ?. ‘y’ — класс, который представлен на изображении, чтобы уменьшить уверенность сети в правильном ответе. Такая атака называется non targeted. Можно подобрать оптимальный шаг и количество итераций, чтобы изменение входного изображения было неотличимо от обычного для человека. Но с точки зрения временных затрат такая атака нам не подходит. 5-10 итераций для одной картинки в проде — это долго.
Альтернативой итеративным методам является метод FGSM.



Это синглшот метод, т.е. для его применения нужно один раз посчитать градиент лосс функции по входному изображению, и adversarial шум для добавления к картинке готов. Такой метод очевидно производительнее. Его можно применить в продакшене.


Создание adversarial examples


Начать мы решили с взлома нашей собственной модели.
Так выглядит картинка, которая уменьшает вероятность нахождения номерного знака для нашей модели.



Видно что у этого метода есть недостаток: изменения, которые он добавляет в картинку, заметны глазу. Также этот метод non targeted, но его можно изменить, чтобы сделать направленную атаку. Тогда модель будет предсказывать место для номерного знака в другом месте. Это метод T-FGSM.



Для того, чтобы этим методом сломать нашу модель, нужно уже чуть заметнее изменить входное изображение.



Пока нельзя сказать, что результаты идеальны, но хотя бы проверена работоспособность методов. Также мы пробовали готовые библиотеки для взлома сетей Foolbox, CleverHans и ART-IBM, но с их помощью не получилось сломать нашу сеть для детекции. Методы, приведенные там, подходят для классификационных сетей лучше. Это общая тенденция во взломе сетей: для object detection сделать атаку сложнее, особенно если речь идёт о сложных моделях, например, Mask RCNN.


Тестирование атак


Всё, что пока описывалось, не выходило дальше наших внутренних экспериментов, но надо было придумать, как тестировать атаки на детекторах других платформ подачи объявлений.
Оказывается, при подаче объявлений на одну из платформ детекция номерного знака происходит автоматически, так что можно много раз загружать фото и проверять, как алгоритм детекции справляется с новым adversarial example.



Это отлично! Но…
Ни одна из сработавших на нашей модели атак не сработала при тестировании на другой платформе. Почему так произошло? Это следствие различий в моделях и того, насколько плохо обобщаются adversarial attacks на разные архитектуры сетей. Из-за сложности воспроизведения атак их делят на две группы: white box и black box.



Те атаки, которые мы делали на свою модель, — это был white box. То, что нам нужно — это black box с дополнительными ограничениями на инференс: API нет, всё что можно сделать — это вручную загружать фото и проверять атаки. Если бы был API, то можно было сделать substitute model.



Идея заключается в создании датасета входных изображений и ответов black box модели, на которых можно обучить несколько моделей разных архитектур, так чтобы аппроксимировать black box модель. Тогда можно провести white box атаки на эти модели и они с большей вероятностью сработают на black box. В нашем случае это подразумевает много ручной работы, поэтому такой вариант нам не подошёл.


Выход из тупика


В поисках интересных работ на тему black box атак была найдена статья ShapeShifter: Robust Physical Adversarial Attack on Faster R-CNN Object Detector
Авторы статьи делали атаки на object detection сети self-driving машин с помощью итеративного добавления изображений, отличных от истинного класса, в фон стоп-знака.




Такая атака хорошо заметна человеческому глазу, тем не менее, она успешно ломает работу object detection сети, что нам и требуется. Поэтому мы решили пренебречь желаемой невидимостью атаки в угоду работоспособности.


Мы захотели проверить, насколько модель детекции переобучена, использует ли она информацию об автомобиле, или нужна только плашка Авито?


Для этого создали такое изображение:



Загрузили его как машину на платформу объявлений с black box моделью. Получили:



Значит, можно изменять только плашку Авито, остальная информация во входном изображении не является необходимой для детекции модели black box.
После нескольких попыток возникла идея добавления в плашку Авито adversarial шума, полученного методом FGSM, который ломал нашу собственную модель, но с довольно большим коэффициентом ?. Получилось так:



На машине это выглядит так:



Загрузили фото на платформу с black box моделью. Результат оказался успешным.



Применив этот способ к нескольким другим фотографиям, мы выяснили, что он срабатывает не часто. Тогда после нескольких попыток мы решили сосредоточиться на другой самой заметной части номера — границе. Известно, что начальные сверточные слои сети имеют активации на простых объектах вроде линий, углов. «Сломав» линию границы, мы сможем помешать сети корректно обнаружить область номера. Сделать это можно, например, добавив шум в виде белых квадратов случайного размера по всей границе номера.



Загрузив такую картинку на платформу с black box моделью, мы получили успешный adversarial example.



Попробовав этот подход на наборе других картинок, мы выяснили, что black box модель больше не может задетектить плашку Авито (набор собирался вручную, там меньше сотни картинок, и он, разумеется, не репрезентативен, но сделать больше требует много времени). Интересное наблюдение: атака успешна только при комбинировании шума в буквах Avito и рандомных белых квадратов в рамке, использование этих способов по отдельности не даёт успешного результата.
В итоге мы выкатили этот алгоритм в прод, и вот что из этого вышло :)


Несколько найденных объявлений




Что-то посвежее:



Мы даже попали в рекламу платформы:



Итого


В итоге у нас получилось сделать adversarial attack, которая в нашей имплементации не увеличивает время обработки изображения. Время, которое мы потратили на создание атаки — две недели перед Новым годом. Если бы не получилось за это время её сделать, то разместили бы вотермарку. Сейчас adversarial номерной знак отключен, потому что теперь конкурент звонит пользователям, предлагает им самим загружать фотографии в объявление или заменяет фото машины на стоковые из интернета.

Комментарии (115)


  1. bugrimov
    16.05.2019 16:05
    +4

    Классная статья! Спасибо, что делитесь профессиональными знаниями. А что используете tensorflow, mxnet? pytorh?
    Сколько в итоге модель по времени отрабатывает?


    1. sergeevii123 Автор
      16.05.2019 17:42
      +2

      Рад, что понравилось) Детектор номерных знаков написан на mxnet, поэтому использовался он. Создание шума < 100 ms


      1. PeterSamokhin
        17.05.2019 08:20

        А почему судом не стали решать? Кража контента на лицо, доказательств куча, нарушение и ваших соглашений/оферт и законов тоже доказать не составило бы труда. Или это параллельно решается?


        1. Ramm
          17.05.2019 12:02
          +1

          Возможно потому что в суде это «решить» невозможно? :)


          1. PeterSamokhin
            17.05.2019 12:05

            Почему невозможно? Результата не будет, или что подразумевается? Штраф слишком маленький? Да и если не перестали «заимствовать» и одно дело уже выиграли, следующее ещё проще выиграть. Или это не так работает?


            1. Ramm
              17.05.2019 12:21

              1. NickyX3
                17.05.2019 12:42

                Не только поэтому, Даня :-). На самом деле, часть объявлений на авто.ру у вас делают сами пользователи, используя свои же фотки с авито, просто потому что оригиналы по каким-то причинам потеряли. Частый кейс, вижу по знакомым периодически


                1. Ramm
                  17.05.2019 12:44

                  И это тоже, конечно же. К сожалению. :)


      1. apelsyn
        17.05.2019 15:21
        -1

        Mask RCNN довольно неплохо справляется с задачей даже с шумом Detect numberplate with noise. Уверен что UNET-архитектура тоже устойчива к такому искажению.


        1. sergeevii123 Автор
          17.05.2019 15:26

          Adversarial шум создаётся специально для отдельных архитектур сетей. Его обобщающая способность не высока. При желании можно создать adversarial attack и для вашей сети.


          1. apelsyn
            17.05.2019 15:36
            +1

            Понятно, было бы интересно увидеть насколько надо исказить фото чтоб наша сеть с этим не справилась :)
            nomeroff.net.ua/onlinedemo.html


            1. CryptoPirate
              17.05.2019 16:39

              Если вы выложите саму модель, то достаточно будет небольшого очень искажения.
              А с Black-box да, сложно.


              1. apelsyn
                17.05.2019 16:54

                В данном случае модель выложена в открытый доступ
                nomeroff.net.ua/models/mrcnn
                Исходный код здесь:
                github.com/ria-com/nomeroff-net


    1. McKinseyBA
      16.05.2019 17:53
      +3

      auto.ru, пожалуйста, перелогинтесь.


      1. Ramm
        16.05.2019 20:13
        +1

        Кто здесь?


  1. vaim
    16.05.2019 16:25
    +1

    Да-да и все для того, чтобы покупатель не мог вбить номер авто с обьявления в базу РСА, увидеть vin и по вину глянуть историю тачки, а занес вам копеечку. Или звонил продавцу, что есть потеря времени и неудобства.


    1. bugrimov
      16.05.2019 16:40

      Если бы вы прочитали статью, то так бы не думали.
      И вообще то это статья не про бизнес, а про науку. Статьи про бизнес и деньги — это на другие ресурсы, к цукербергам там или еще каким.
      Заранее извините, если вдруг обидел.


      1. vaim
        16.05.2019 16:44
        +1

        я прочитал.
        статья из серии как надуть самый большой пузырь из соплей со всеми подробностями.
        вам в голову не приходило, что вы теряете аудиторию именно по этой причине. Что я в поиске авто не пойду туда, где от меня скрывают номера автомобилей?
        А, да, это же не ваша задача, маркетологи пусть думают.
        Заранее извините, если вдруг обидел.
        а, стоп, вы не автор статьи, просто поддерживаете. хм…
        с другой стороны спасибо за статью, теперь понятно как модифицировать номер на своей, чтобы его видели покупатели.


        1. Oldtuna
          16.05.2019 16:56
          +1

          Запрос на скрытие номера идёт от пользователей, которые скрывали номера самопальными способами. Авито просто облегчило им жизнь, параллельно оценив масштабы копирования контента.Да, вам, как покупателю, это может быть не очень удобно, но такие условия установил продавец, он тоже «аудитория» (пользователь сервиса). Заставить всех вывешивать объявления с открытыми номерами?


          1. vaim
            16.05.2019 17:07
            +1

            полагаю вы давно не продавали авто через авито.
            сейчас там принудительное скрытие номеров. отказаться нет возможности.


            1. T_Sun
              17.05.2019 09:00
              +1

              Вы, как продавец, можете указать гос номер, VIN или даже всю историю автомобиля в тексте объявления.


              1. vaim
                17.05.2019 10:12
                +1

                вы когда последний раз так делали?


                1. T_Sun
                  17.05.2019 14:57

                  Года три назад. Но на сколько я вижу в описаниях имеющихся объявлений сейчас текстовое поле присутствует.


                  1. vaim
                    17.05.2019 15:05

                    а я и не говорил, что поля нет.
                    в конце того года произошли радикальные изменения.

                    сейчас вон, судя по постам на пикабу, банят аккаунты при попытке продаж не через доставку авито.


            1. trolley813
              17.05.2019 10:27

              Собственно, а почему владелец объявления не сможет так же "обработать" фотографию, чтобы алгоритм сокрытия номеров от Авито не смог обнаружить номер?


              1. balexa
                17.05.2019 14:45
                +2

                Вы серьезно спрашиваете? Наверное одна из причин, что далеко не все продавцы машин — специалисты по нейронным сетям.


      1. demonit
        16.05.2019 18:58

        тут скорее из разряда «наука на службе у бизнеса»…


      1. anmi
        17.05.2019 11:34
        +1

        И вообще то это статья не про бизнес, а про науку.

        Ну тогда и надо удалить первый абзац текста, и сразу перейти к проблеме. И все вот эти вставочки про этичность и недоговороспособность конкурента.


      1. xPomaHx
        20.05.2019 07:09

        Имхо чисто бизнес причем в ущерб пользователям, так как в 99% случаев тем кто размещает объявление выгодно чтобы оно было на других площадках.


    1. Eldhenn
      16.05.2019 16:49
      +1

      В данном случае скрытие номера как таковое вообще к слову пришлось. Просто внезапно получился хороший способ видеть ворованные объявления — а заодно хороший способ их помечать.


  1. pvp
    16.05.2019 16:26
    +3

    «Надо сказать, что запрос согласия людей на копирование объявлений не оправдывает подобные действия. Это нарушение законов «О рекламе» и «О персональных данных», правил Авито, прав на товарные знаки и базу данных объявлений.»

    По закону о ПД общедоступные персональные данные могут обрабатываться кем угодно. И потом, согласие людей ведь спрашивали.
    При чем здесь закон «О рекламе», я вообще не понял. Ну и все остальное, кроме «правил авито», тоже притянуто за уши.


    1. rafinirovannoe
      16.05.2019 18:18

      Ну смотрите. Мы исходили из того, что:
      — во-первых, рекламная коммуникация осуществляется без предварительного согласия на получение такого сообщения (закон о рекламе);
      — во-вторых, нет предварительного согласия на обработку перс. данных с целью прямого контакта с потенциальным потребителем для продвижения собственных услуг (закон о персональных данных);
      — в-третьих, нарушается принцип целевой обработки персональных данных, их используют не в тех целях, в которых они были изначально предоставлены (ещё раз закон о персональных данных);
      — в-четвёртых, нарушаются права Авито на базу данных и товарные знаки.


      1. vics001
        16.05.2019 20:20
        +3

        Какие права Авито могут нарушаться, если copyright на объявление принадлежит владельцу объявления. И если владелец не против распространения объявления, то никаких прав не может быть нарушено в принципе.
        То, что Avito пытается быть прокурором и защитить возможные права рекламодателя, не делает действия по копированию незаконными.


        1. roryorangepants
          16.05.2019 22:15

          Полагаю, что имеется в виду лого Авито, которое используется для закрытия номера.


        1. saboteur_kiev
          17.05.2019 15:42

          Владелец не подавал объявления о продаже своего авто на другом ресурсе, и в статье прямо приведен пример, как владелец страдает от того, что после продажи он не может убрать свое объявление с другого ресурса, потому что (внезапно), у него там даже аккаунта нет.
          А конкуретны не отслеживают пропажу объявления с авито, поэтому я считаю, что в данном случае Авито поступают верно.

          С другой стороны, было бы идеально, чтобы авито, авто.ру и другие площадки, могли бы встретиться за круглым столом и договориться о едином API, чтобы можно было сводобно постить объявления и чистить их за собой, при этом у пользователя при посте объявления была галочка «распространить ваше объявления и на другие площадки автоматически»


          1. nafikovr
            18.05.2019 13:42

            придет еще одна площадка и накатает заяву на монопольный сговор ибо не захочет


      1. pvp
        17.05.2019 14:55

        1. ОК, здесь нарушение.
        2, 3. Общедоступные данные могут обрабатываться кем угодно и как угодно.
        4. По базе данных — а вы сможете доказать, что заимствован значительный объем? По ТЗ — вас никто не просил его добавлять. И тут вот вообще смешное написано:

        «Мы вправе автоматически наносить на загружаемые вами фотографии логотипы/водяные знаки Авито и Domofond, чтобы предотвращать несанкционированное копирование пользовательского контента.»

        «Защищать от копирования» может только обладатель исключительных прав, тогда как у авиты — неисключительная лицензия.


        1. losse_narmo
          17.05.2019 15:03

          2,3 Не все так просто. Совсем недавно Вконтакте судился с компанией из-за того что эта компания использовала профили (открытые) людей в своих целях и выиграл.
          Так что открыто != могу скачать и делать что хочу


          1. Ramm
            17.05.2019 15:25

            Вообще-то «и проиграл», кажется :)


            1. losse_narmo
              17.05.2019 16:02

              Последний раз видел сообщение, что «Дабл» за 1 рубль согласился на мировую и больше не следил, а оказывается там действительно процесс все еще идет


          1. germn
            17.05.2019 15:38

            Ссылку на подробности суда, будьте добры, добавьте.



            1. losse_narmo
              17.05.2019 16:01

              roem.ru/30-01-2018/267215/doubledata-vs-vk-18-1 — тут новости о запрете

              kad.arbitr.ru/Card/1f33e071-4a16-4bf9-ab17-4df80f6c1556 — ссылка на само дело

              Действительно сейчас очередной этап пересмотра решения


      1. WolfTheGrey
        18.05.2019 15:47

        Ребята, а то что Авито сам же без наличия разрешения обзванивает фирмы по общедоступным номерам с предложениями о бизнес-аккаунте? Это по факту ведь тоже нарушение ФЗ О рекламе. Номер публикуется, да. Но разрешение это не дает)


    1. UnrealQW
      17.05.2019 14:20

      1,5 года назад я продавал машину на Авито. Звонили с авто.ру, просили разрешения, я отказывал (обещал сам разместить объявление там). В итоге без моего согласия на авто.ру объявление автомагически появилось…


      1. Igelko
        17.05.2019 17:29

        а контактный телефон был указан ваш?
        в природе существуют случаи, когда перекупы пытаются протащить чужое объявление и заработать денег на этом.


  1. hacke151
    16.05.2019 16:36

    Мне кажется или в статье слишком много негатива в сторону «другой платформы»? Попахивает самопиаром (какие мы умные) и антирекламой конкурентов (а они негодяи)


    1. Duss
      16.05.2019 20:14
      +6

      Негатива как раз нет. Я, не заметил по крайней мере.
      А что плохого в само рекламе? Сколько технических статей на хабре из серии смотрите какой я молодец какую штуку крутую сделал. + подробный рассказ как сделал. Да таким статьям тут самое место.

      Р.с. А конкурентам (негодяям) так и надо. Тоже сугубо мое личное мнение.


      1. hacke151
        17.05.2019 09:59
        -1

        на счет конкурентов — слишком однобоко получается. Можно сказать про них, что угодно и они не ответят, т.к. просто не знаю об этом. ИМХО стоило логотипы закрыть хоть квадратиком в паинте, хоть надписью «не-авито», тем кому нужно — все равно бы узнали сайт по дизайну


        1. tegArt
          17.05.2019 13:40

          Можно сказать про них, что угодно и они не ответят, т.к. просто не знаю об этом
          т.е. использование чужого контента и данных — это плохо, но показывать пальцем на виновника как-то «не по-пацански»?
          тем кому нужно — все равно бы узнали сайт по дизайну
          тем, кому не нужно — и так по барабану, зачем скрывать?


          1. hacke151
            17.05.2019 13:49

            т.е. использование чужого контента и данных — это плохо, но показывать пальцем на виновника как-то «не по-пацански»?

            я считал это «нормой этики» (не уверен, что правильно называю) не ссылаться на третьих лиц в технических статьях без крайней необходимости (данная статья не потеряла бы смысловой нагрузки), даже если они виноваты.
            Но я уже понял, что я с таким мнением в меньшинстве и нет смысла развивать эту тему. Всем спасибо за высказанное мнение:)

            P.S. авторам спасибо за статью, сам процесс было очень интересно читать.


  1. red_perez
    16.05.2019 16:47
    +1

    Изящно получилось, молодцы.


    1. sergeevii123 Автор
      16.05.2019 18:17

      спасибо :)


      1. nafikovr
        17.05.2019 11:41
        +1

        но изящнее было бы заставить алгоритм условного противника видеть ваш логотип (и заменять на свой) по всей площади картинки.


  1. Hardcoin
    16.05.2019 17:00

    Вы ни разу не подвергли сомнению, что у конкурентов нейросеть, которая ищет ваш логотип.


    Но у них, судя по всему, НЕ нейросеть. Именно поэтому незаметный шум не сработал (и не может сработать). Искать прямоугольник с цветами логотипа внутри не сложно и без нейросети.


    1. sergeevii123 Автор
      16.05.2019 17:13

      Изначально было предположение, что у них может быть не нейросеть.
      «Именно поэтому незаметный шум не сработал» — в статье написано про сложность обобщения на black box, поэтому утверждать что у них «НЕ нейросеть» основываясь тольно на этом довольно смело.
      Почему мы всё таки склоняемся к тому, что у них нейросеть — это следствие разбора случаев, когда номерной знак был ими закрыт не идеально.


      1. Hardcoin
        16.05.2019 17:24
        +1

        следствие разбора случаев, когда номерной знак был ими закрыт не идеально

        Возможно. Я сделал предположение исходя из ваших результатов. Данные о машине не влияют (на стиралке тоже работает), зато помогает уничтожение рамки.


        В любом случае статья очень интересная (не только технически, но и как противостояние платформ), спасибо.


        1. nafikovr
          17.05.2019 11:35
          +1

          но только порча рамки не помогает.


  1. IT_Rebel
    16.05.2019 17:43
    +3

    Может немного не в тему, но наболело — Авито, когда же вы сделаете обязательный в 21 веке фасетный поиск с фильтрацией по параметрам… поиск «гитара электрическая 2 хамбакера фиксированный бридж» вот прямо сейчас выдаёт по Москве...1 (!!!) результат вместо реальных сотен объявлений с гитарами таких параметров.
    Поверьте, при подаче объявления человеку сложнее правильно описать, чем тыкнуть в чекбоксы и выбрать из тройки значений выпадающего списка.
    А вот сформировать типовые параметры для категорий — чем не отличная задача для того же ИИ?


    1. ClearAirTurbulence
      16.05.2019 19:55
      +3

      Я вообще не понимаю, как у них поиск работает. Вводишь что-то конкретное, показывает все, что угодно, с редкими вкраплениями искомого…


      1. radiolok
        16.05.2019 21:05
        +1

        Еще и строку поиска изменяет…


    1. vorphalack
      16.05.2019 21:22
      +1

      причем у конкурентов (юлы) такой поиск — ЕСТЬ. не знаю насколько в муз. инструментах всё плохо, но вот в фототехнике реально заеутомишься фильтровать объявления, потому что уроды в «подвале» своих объявлений пишут все что угодно, включая все подряд марки камер. и сиди фильтруй…


      1. Hashinger
        17.05.2019 08:49

        О! Туда и пойду искать. Поиск на авито работает через одно место. А так вообще забавно читать про алгоритмы.


  1. Ramm
    16.05.2019 20:16
    +2

    > Если бы не получилось за это время её сделать, то разместили бы вотермарку.

    Ту, которую в итоге и разместили, да? :)


  1. izobr
    16.05.2019 20:32
    +4

    Мне кажется, что чтобы найти эмблему Avito нейросеть у конкурентов была лишняя (в отличие от исходной задачи найти номер). Достаточно картинку немного заблюрить и перевести в ЧБ, тогда все эти ухищрения с паттернами и границами снова пойдут лесом. Думаю конкуренты ответят чем-то подобным через месяц.
    В самом тяжёлом случае можно вообще натренировать сеть определять где у машины номер по очертаниям самой машины. Т.е. не искать прямоугольник похожий на номер на картинке, а делать примерно тоже самое, что делают камеры смартфонов, когда распознают лицо и динамически позиционируют на нём маску.
    Тоже считаю злом скрытие номера. Лучше бы с помощью нейросети как-нибудь красиво вписывали бы логотип Avito в пейзаж окружающий машину. Вот тогда бы его точно вырезать было сложно.


    1. prostofilya
      17.05.2019 10:15

      А потом получится так, что на инфраструктуру борьбы с конкурентами будет затрачено больше, чем на обслуживание клиентов и… снова вернутся к водяным знакам.


      1. saboteur_kiev
        17.05.2019 15:44

        А статья на Хабре и полученная с этого «реклама» частично окупает затраты на разработку?


    1. algotrader2013
      17.05.2019 10:53

      Как по мне, так и нейросейть не нужна. Когда есть четкий паттерн, то чем-то вроде поиска паттернов надо решать


  1. maiden666
    16.05.2019 21:03
    +3

    мне интересно, если продавец в тексте объявления сам напишет вин-номер, это объявление заблочат? А то как же денег за эту инфу никто не заплатит


  1. Sabubu
    16.05.2019 21:04
    +3

    Во-первых, скрывать номера — это правильная идея. Незачем всяким мутным личностям их собирать и накапливать. Желание владельца сохранить приватность выше вашего желания просматривать чужие данные, что тут непонятного? Я бы вообще наказывал тех, кто владеет или пытается использовать нелегальные базы данных. Не только тех, кто продает доступ, но и кто покупает. Дать "умнику" полгодика тюрьмы — глядишь, желание "пробивать" номера машин поубавится.


    У нас и так слишком много баз данных в открытом доступе и слишком неэффективно наказываются те, кто их распространяет. И конечно, опция скрытия данных должна стоять по умолчанию.


    Что касается объявлений, то они не являются собственностью Авито. Если вспоминать авторское право, то права на фото принадлежат автору, текст объявления не защищен авторским правом. Что касается охраны базы данных, то это не Авито составил базу данных, а люди сами вносят свои данные. Ишь вы какие умные, решили "приватизировать" чужой контент.


    Я кстати, замечаю, что бизнесу в таких случаях верить нельзя, это всегда двойные стандарты: пока они маленькие, они сами парсят данные с других сайтов, а как станут крупнее, начинать рассуждать об авторском праве.


    1. WHATrushka
      16.05.2019 21:30
      +3

      Скрывать номера это ужасная идея. Мутные личности могут совершенно спокойно выйти на улицу с блокнотиком, фотоаппаратом и вручную собрать даже больше данных, чем есть на Авито. А вот гемора это добавляет огромное количество, как владельцу, так и покупателю.
      Нелегальные базы данных с номерами авто чем вам насолили? А вот выручить порой они могут.(в основно для того, чтобы узнать телефон владельца авто и предостеречь/попросить/т.д.)


  1. 9660
    17.05.2019 03:27

    Они делают это так: обзванивают продавцов и предлагают им разместиться на своей платформе. А иногда и вовсе копируют объявления без разрешения пользователей. Авито — популярная площадка, и мы часто сталкиваемся с такой недобросовестной конкуренцией.

    А что недобросовестного в обзванивании и предложении размещения? Как по мне так конкуренция в чистом виде.
    ЗЫ Сама статья очень понравилась.


    1. s37
      17.05.2019 09:23

      А вы машину (а лучше несколько) давно не продавали? Когда вам звонят «ой, здрасьте, а не хотите ли на шару и у нас разместиться...», а через несколько минут разговора «ой, здрасьте, а на шару не выйдет, а давайте мы вам платный тариф выкатим, конский, но без гарантий продажи...». А все потому, что я (продавец) разместился своими руками и там и там (и еще в трех местах), а они даже не проверили есть ли мои объявления на их сервисе, сразу звонят и впаривают (видимо моё время бесплатное, а их ну очень дорогое). Потом, кстати, могут еще через какое-то время предложить то же самое с фразой «а давайте попробуем».


      1. 9660
        17.05.2019 11:51

        Так а недобросовестная конкуренция тут причем?


      1. bobermai
        17.05.2019 11:56
        -1

        Как будто это хоть чем-то отличается от поведения самого Авито. Найти кнопку «спасибо, не надо» на 3-4 последовательных экранах с уникальными предложениями подсветить фон объявления всего за 499 рублей — нетривиальный квест. Я все жду, когда они дойдут для того, чтобы для бесплатного размещения нужно было принудительно посмотреть полчаса рекламы.


        1. s37
          17.05.2019 15:44

          9660 на мой взгляд в том, что меня обманывают. «Тут» вы заплатили за премиум, а вот «у нас» бесплатно.

          bobermai полностью согласиться не могу, т.к. через какое-то время просто привык к интерфейсу и начал находить быстро, а первые разы да, мучился.


          1. 9660
            17.05.2019 15:57

            на мой взгляд в том, что меня обманывают. «Тут» вы заплатили за премиум, а вот «у нас» бесплатно.

            «Вы» в данном примере кто? Авито? Я не пойму в чем для них недобросовестная конкуренция.
            То что клиент разместил у них объяву равносильно подписанию эксклюзивных прав?
            Некто пришел к твоему клиенту и предлагает свои услуги — чистая конкуренция.


            1. s37
              17.05.2019 16:02

              Я — пользователь. Добросовестная (условно) конкуренция это если бы мне позвонили и предложили некие «плюшки» (преимущества) по сравнению с Авито направленные на то, чтобы мне стало бы удобнее и, возможно, я бы продал товар быстрее. Номер я не скрывал, не писал что «посредникам просьба не беспокоить», значит «Они» (авто.ру) по сути обычный посредник.


              1. 9660
                17.05.2019 16:14

                А причем тут вы как пользователь? Речь шла о конкурентах авито.
                Ну и к слову, «конкуренция» это же просто выбор меж разными вариантами.


                1. s37
                  17.05.2019 17:05

                  Процитирую вас же:

                  А что недобросовестного в обзванивании и предложении размещения?


                  Они предлагают одно (используя мой телефон, который я оставил для тех, кто хочет купить у меня вещь), вводят в заблуждение (и тратят моё время), т.е. я страдаю.

                  А когда я размещался «у них», то меня одолели слать спам через смс/вайбер и т.п. Т.е. в случае «с ними» (авто.ру) я страдаю от третьих лиц (мошенники), а в случае с авито я точно так же страдают от третьих лиц (авто.ру). И те и другие хотят получить мои деньги обманным способом (очень утрировано, но идея одна).

                  А еще из объявлений (не знаю с какого точно сервиса, предполагаю что с Авто) звонят из третьего сервиса, Кар прайс и тоже предлагают продать мою машину быстрее, без оплаты им, но для этого нужно съездить на бесплатное ТО, причем приехать должен тот, кто собственник по документам. Т.е. все честно и открыто.


                  1. 9660
                    17.05.2019 17:18

                    Вы опять о своем.
                    На недобросовестную конкуренцию жалуется авито — их конкуренты ведут недобросовестную конкуренцию.
                    Чего там чувствует чей пользователь никому не интересно.
                    Суть 1 претензии — тырят их контент, тут вопросов нет, претензия в меру справедлива.
                    Суть 2 претензии что некто звонит их пользователям и предлагает свои услуги. В чем тут недобросовестная конкуренция?


                    1. s37
                      17.05.2019 17:22

                      Контент не их, а мой. Фотографии делал я, значит они мои. Если в заведении «А» из карманов курток деньги крадут, то делают это не у заведения, а у клиентов. А клиент потом в «А» может и не пойти, там ведь мелочь из карманов воруют.

                      В том, что пользователя в заблуждение вводят. Скажи они сразу «за 1000 можно и у нас», я бы им сказал спасибо, не нужно.


                      1. 9660
                        17.05.2019 17:30

                        Еще раз. Присутствуют 2 стороны. Авито и конкуренты, одна сторона другую обвиняет в недобросовестной конкуренции.
                        Вас как пользователя в этом диалоге просто не существует.
                        Признаком недобросовестной конкуренции называется дозвон конкурента их клиентам и предложение своих услуг.


                        1. s37
                          17.05.2019 17:34

                          в моём понимании недобросовестность не в том, что они звонят и предлагают свои услуги как только нашли мой контакт, а в том, что то, что они могут мне предложить одно, а дать другое.

                          Вероятно, что один сервис А обвиняет другой сервис А в том, что после моего согласия (или до него?) «другие А» автоматом тащут (парсят) контент с Авито.


  1. markmariner
    17.05.2019 09:39

    Я не понимаю, почему вы пишите в тексте слово «конкуренты» вместо «Авто.ру». В чём смысл?


    1. Hashinger
      17.05.2019 10:03
      +3

      я бы писал слово «партнеры».


  1. Big_Shark
    17.05.2019 10:59

    Мне всегда было интересно, кто у авито устанавливает приоритеты задач? На сайте помойка из липовых объявлений, неверных названий, не верных данных, дублирования и прочего, поиск нормально не работает, но зато мы закрываем номера для того чтобы плодить еще больше мошенников, и даже не спрашиваем пользователя о необходимости этого. Надеюсь что конкуренция рано или поздно сделает свое дело, и мы получим удобный сервис, а не то что имеем.


    1. namikiri
      17.05.2019 13:04

      Зато искать свой логотип на картинках у конкурентов веселее и интереснее.


    1. balamutang
      17.05.2019 13:06

      Врядли это произойдет в текущей реальности, по крайней мере с фейками в недвижке.
      Фейковые (я сталкивался недавно с недвижкой) размещаются платно и никакими жалобами не убираются, тк они платные (какой смысл сайту отказываться от денег?). Кроме того конкуренты риэлторов не спят и точно также могут пожаловаться на реальное объявление как на фейк, видимо и поэтому закрывают глаза на жалобы.
      Кроме «ловли на живца» фейки используются для манипулирования рынком (занизить/завысить рыночную оценку стоимости в данном районе).
      В общем в недвижке там сам по себе бардак творится, который техническими средствами в виде Авито — не решить, требуется какое-то законодательное ограничение, например ограничение публикации объявлений только от лица владельцев (верифицировать можно через налоговую, вся информация о недвижимости у нее есть)


      1. hokum13
        17.05.2019 16:24

        например ограничение публикации объявлений только от лица владельцев

        Ирина Анатольевна, перелогиньтесь!

        Я понимаю, что бардак в авто и недвиж объявлениях страшный. Но попытка регулирования со стороны государства (в таком виде) приведет только к появлению еще одного зонда. Количество кривых объявлений не уменьшится, так же как не уменьшилось количество педофилов после появления РКН.


        1. balamutang
          17.05.2019 17:46

          Тут я скорее вижу что будет проблема с тем что риэлторы будут квартиры в своих базах показывать клиентам, а не в «запрещенный» общий доступ сливать.
          И вторая — что люди старше 50лет, не врубающиеся в IT, не смогут выложить или потеряют учетку к налоговой.
          В общем еще раз подтверждается что бардак в отраслях сначала надо устранить.


          1. hokum13
            17.05.2019 18:29

            бардак в отраслях сначала надо устранить

            А когда устранишь, то и закон не нужен будет.


    1. s37
      17.05.2019 15:47

      при всей вашей правоте Авито не может в принципе все фейки закрывать, так как уж если «местные» не могут разобраться что и как, то «оттуда» им не видно или увидеть намного сложнее.

      Из диалогов с оценщиком:
      — а почему вы в сравнении показываете как «аналог» объявление квартиру на 9-м этаже 17-этажного дома, если в этом районе 3-х этажные дома. Вы же ездили в «нашу» квартиру!
      — не обратила внимания…


      1. Big_Shark
        17.05.2019 16:20

        Это уже мелочи по сравнению в остальным, когда заходишь в покупку домов, и видишь что процентов 70 объявление это объявления от строительных компаний которые предлагают тебе построить дом по их проекту. Или когда ты хочешь арендовать дом, а тебе предлагают арендовать комнату в доме. Ну а в разделе по продаже мотоциклов можно найти объявление о том что кто-то хочет обменять машину на мотоцикл.
        Ну а про поиск телефонов и чехлов для них даже говорить сложно.


    1. yokotoka
      17.05.2019 19:26

      У них ДО СИХ ПОР (2019!) нет фильтра по мин/макс цене в веб-интерфейсе. Я уже по-приколу об этом им напоминаю при каждом удобном случае — писал в поддержку, подходил на конференциях к разработчикам, при любом удобном случае напоминал в соцсетях… Всегда "да-да, мы работаем над этим". Уже лет 5 не могут на сайт добавить простейший фильтр, который помогает отфильтровать кучу 10-рублевого шлака при поиске, при том что он есть на мобиле и в веб для таких крутых профессионалов его добавлять 10 минут. Видать, партия не велит сделать пользователям удобно. Вот такие приоритеты. :)


      UPD: кому фильтр по цене жесть как нужен — &pmin= и &pmax= в url'е нам помогут. :)


  1. dariaamir
    17.05.2019 11:04

    Симпатичное решение, которое никак не решает проблеммы копирования объявлений.


  1. mOlind
    17.05.2019 11:23

    Конкурентам достаточно решить задачу с машиной и эти защиты будут бесполезны. А они изначально смотрели именно на ваш логотип. Что называется «копировать чужое у них в крови». :) Ждем ответ от auto.ru


    1. Ramm
      17.05.2019 12:06

      Конкуренты давно решили задачу с машиной (года… два? назад) и «изначально на логотип» конечно не смотрел никто. :)


      1. mOlind
        17.05.2019 12:10

        Я смотрю вы в теме развития событий со стороны auto.ru. Не поленитесь, расскажите как все было.


        1. Ramm
          17.05.2019 12:19

          Всё было ровно так, как пишут ребята, вы же не думаете, что они врут? :)


  1. Leon010203
    17.05.2019 12:16

    Наконец-то я узнал, почему, когда меня взломали, выложили на продажу трактор и изменили телефон, мне в течении 2 месяцев названивали про этот трактор. При том, что это объявление было заблокировано


  1. valis
    17.05.2019 12:20

    А какие шаги предпринимаются в сторону защиты от парсинга. Я конечно понимаю что 100% защита не возможна, но вот сильно усложнить жизнь парсерам причем так, чтобы они стали не рентабельными можно.


    1. Big_Shark
      17.05.2019 12:26

      Лучше бы открытый API сделали и зарабатывали на платных объявлениях, а не на рекламе.
      Мне бы допустим очень хотелось получать информацию о новых интересующих меня объявлениях в телегам.


      1. Ramm
        17.05.2019 12:45

        Достаточно просто подписаться на сохранённый поиск же.


        1. Big_Shark
          17.05.2019 13:57

          Ага, штук на 10 поисков, а потому по ним еще ходить и проверять что это именно то что мне нужно, так как нормальных фильтров нет. Так и делал, крайне плохой вариант.


    1. Ramm
      17.05.2019 12:45

      Нет, практически невозможно.


      1. balamutang
        17.05.2019 12:48

        ну можно детектировать злонамеренных «пользоваталей» по каким-то паттернам и скармливать им фейковые объявления


        1. Ramm
          17.05.2019 12:55
          -1

          Нет, это практически невозможно.


  1. balamutang
    17.05.2019 12:28
    +1

    мне кажется что следующий этап — скрывать телефонный номер, вернее подменять его своим с
    уникальным добавочным кодом, а у себя в коллцентре редиректить на правильный.
    и тогда можно будет анализировать и отрезать телефонный спам, обзвон конкурентами, уголовниками и тд.


    1. Ramm
      17.05.2019 12:46

      Это делают все крупные игроки.


    1. PavelBelyaev
      17.05.2019 14:12

      тоже думал об этом, чтобы не палить номер и закрывать обзвон после закрытия объявления, в том же яндекс такси раньше звонили водители и определялся их номер прямой, а теперь только номер яндекса светится, в этом плюс еще в том, что когда на телефоне стоит режим — блокировать всех кроме моих контактов, то в контакты можно добавить номер такси, чтобы в любом режиме «не беспокоить» до меня таксисты могли достучаться…


  1. blind_oracle
    17.05.2019 14:16
    +2

    Авито можно ругать, но Авто ру это за пределами добра и зла вообще.


    Мать продавала машину, с тех пор приходит всякая хрень на почту каждый день в духе "новые объявления Toyota" и никак это не отключить.


    Кнопки отписаться не работают, интерфейс дико глючит, удалить аккаунт возможности нет.


    Думаю заблочить их на почтаре...


    1. Vodochnik
      17.05.2019 15:45

      Возможно, авто.ру продал ваш адрес авито.ру и спамят уже оттуда?)))
      Обе компании приведены в качестве примера на самом деле, продажа и перепродажа данных — дело такое, решается только правильным воспитанием админа. С детства.


      1. balamutang
        17.05.2019 17:50

        причем здесь админ, решение о продаже базы не обязательно админом принимается(а в рамках действующего законодательства у админа и прав на нее нет) и точно не админы ее покупают.


        1. Vodochnik
          17.05.2019 19:57

          Ты в каком-то идеальном мире живешь))))
          Я не про официальную продажу/покупку конечно же говорил.