Я заметил ошибку в выдаче Яндекс-поиска.

Как проверял. Беру фразу (10-20 слов) из 100% оригинальной статьи на своем сайте. Например, написанной и опубликованной в 1998-2000г. (Яндекс позволяет использовать фразы до 40 слов). Ввожу в поиск и обнаруживаю, что страницы нет в выдаче.

Я не специалист в IT. Я лишь автор контента. Могу в чем-то ошибаться. Однако в 2011 году мои сайты, мой оригинальный контент, создававшийся с 1998г. был в выдаче Яндекса на первом месте.

Страницы с копиями статей были ниже. Копий было много, десятки. Максимальное количество не выяснял, но до 70 сайтов на каждую статью, с помощью того же Яндекса, находил.

В 2012 году посещаемость сайта начала снижаться. Начал искать причину и обнаружил, что статьи просто выпали из выдачи. 70 страниц с копиями есть, а сайта источника – нет.

Возможно, комментарии специалистов помогут мне найти решение этой проблемы.

В правилах Яндекса написано, что первоисточник в выдаче должен быть выше копий (правила Яндекса: help.yandex.ru/webmaster/yandex-indexing/webmaster-advice.xml). Санкции: «Исключение из поиска страниц сайта, понижение в результатах поиска…» если «Сайты… содержат не оригинальный, вторичный, малополезный контент, а также сайты, создаваемые для продажи ссылок и заработка на рекламе».

Чтобы определить «не оригинальный, вторичный» контент, Яндексу необходимо найти «оригинальный», найти первоисточник. И раньше, в 2010-2011 году, Яндекс определял источник хорошо. Тем не менее, в выдаче с 2012 года – копии, а не оригиналы.

Начал переписку с Яндексом.

Отправил в Яндекс:
1. Скриншот выдачи
2. Поисковую фразу
3. URL страницы, на которой есть искомая фраза.
4. Ссылку на Internet Archive, как подтверждение авторства, оригинальности и первичности контента.

Получаю после довольно долгой переписки, сообщение:

«К сожалению, есть ошибки со стороны алгоритмов, из-за которых страницы Вашего сайта частично отсутствуют в поиске. Мы уже исправляем эти ошибки, но поскольку мы не правим выдачу по конкретным запросам или под конкретные сайты, а меняем алгоритмы в целом, чтобы подобные ошибки не возникали в будущем, это занимает достаточно много времени.
С другой стороны, нет необходимости присылать нам дополнительные примеры запросов, по которым Ваш сайт отсутствует в поиске, так как присланных ранее достаточно для выявления ошибок алгоритмов.
Пожалуйста, дождитесь окончания наших корректировок».


Это было в декабре 2013 года.

Жду. 2013, 2014, 2015 год… Количество моих оригинальных страниц в выдаче неуклонно снижается. Сначала выпало процентов 10, на сегодня – более 60%. Можно было бы возразить, что большими цитатами никто не ищет, но это не так. Таким образом люди ищут: цитаты, афоризмы, стихи, песни, кинофильмы. Кроме этого, роботу все равно какой набор слов искать (до 40 шт. по правилам Яндекса).

Важно, что в Google такой ошибки нет.

Кроме банального авторства, определение первоисточника важно не только Яндексу, но и пользователям, например, журналистам. Таким образом определение первоисточника — это качество поискового сервиса для пользователей. Это гораздо важнее, чем моя частная проблема.

Опять пишу в Яндекс (через пару лет) и получаю в ответ:

«Мы действительно не определяем первоисточник».

Но как тогда определить вторичность, если не определять первичность? Не определив первоисточник, невозможно определить, что не оригинально и вторично.

Перепроверил несколько других своих или посторонних сайтов (где помнил оригинальные публикации до 2000г.) — результат тот же. Где-то 10% оригинального контента выпало из выдачи, где-то половина и больше. Т.е. что-то сломалось в алгоритме выдачи довольно масштабно.

Недавно написал в Яндекс опять. Получил ответ:

«Да, мы в курсе всего этого.
Мы работаем с Вашими примерами, но не можем обещать, что ситуация кардинально изменится в ближайшее время».


И что теперь делать?

Комментарии (35)


  1. qw1
    02.08.2015 09:53
    +2

    Неужели поисковики помнят, кто что первым опубликовал в 1998 году?


    1. asdoc
      02.08.2015 20:18
      +2

      Должны помнить. Гуугл помнит. Более того, реагирует, если вдруг «забыл», а вебмастер, автор «напомнил».
      Память поисковика, в данном случае, это вопрос качества поиска. Существует довольно много ситуаций, когда нужно знать «кто источник». В журналистике, например. И не только в ней.
      Технически сделать такую память довольно просто. И, самое важное, несколько лет назад Яндекс прекрасно все помнил и корректно выдавал.
      А последние годы, лично я Яндекс-поиск перестал использовать, т.к. Гуугл для меня подбирает более качественную выдачу.
      Яндекс. на мой взгляд, только по фразе «куплю» ищет лучше.
      Но это, конечно, сугубо личный взгляд.


  1. alan008
    02.08.2015 14:01
    +1

    Мне кажется, в выдаче Яндекс пытается просто ранжировать все найденные сайты по их текущему рейтингу/достоверности/популярности/цитируемости и т.п. (если совпадение информации на них с искомой фразой одинаковое). Я думаю, поисковику пофиг, где инфа появилась раньше, он просто ранжирует все сайты, кот. нашел, по какому-то своему алгоритму, не гарантируя никаких первоисточников. Хотя это конечно лишь мои домыслы, основанные на опыте использования поиска на Яндексе.


    1. asdoc
      02.08.2015 20:22
      +1

      Предположим, что Вы правы, но тогда мой сайт должен быть в выдаче где-то между копипастерами. Но его нет. Совсем.
      При этом Яндекс уверяет, что у него нет претензий к моему сайту и даже признает ошибку. Вот только от такого признания толк нулевой. Ошибка признана в декабре 2013 года (а может быть даже раньше — я не копал свою почту глубже). Но проблема как была, так и осталась. Более того, она множится — из выдачи выпадают все новые и новые станицы.
      (Что касается ТИЦ, то Яндекс утверждает (в переписке), что ТИЦ не влияет на выдачу.)


  1. DVORYAN
    02.08.2015 17:23

    Ничего особо не сделать, та же фигня и с моим сайтом. При этом мой сайт единственный целевой региональный портал, но у него Яндекс срезал более 600 посетителей, понизив ряд позиций. Обогнали сайт всякие ГС и торговые сайты с совсем не целевыми материалами. Стучал в Яндекс, толку ноль.

    Если у меня тырят контакт кидаю абузы на сайт, миниую его в WOT.
    Перед публикацией материала на сайт добавляю его в «Содержимое сайта» Явебмастер.
    Затем тут же пощу ссылку во всех соц сетях. Пока на первоисточник ссылок больше, то позиция выше. Как только материал уводят и на сайт вора, начинают размещать ссылки или покупать, то мой снижается, а его поднимается.


    1. asdoc
      02.08.2015 20:12
      +1

      С момента появления «содержимого сайта» я, конечно, пользуюсь этим способом. Но он не спасает совершенно. Копипасты в выдаче, мой сайт отсутствует.
      К тому же из нескольких тысяч оригинальных текстов большинство размещено до появления «содержимого».
      В Вашем примере так же есть несоответствие поисковой политике, которую декларирует Яндекс. Если ее перефразировать, то «Оригинал всегда в выдаче выше копипаста». А копипаст вообще должен попадать под АГС и пр. фильтры Яндекса.
      Но это не происходит, увы.


      1. asdoc
        02.08.2015 20:48

        P.S. если говорить Вашими терминами, то мне Яндекс ежедневно «срезает» примерно 30 000 посетителей на сегодняшний день.


    1. asdoc
      02.08.2015 21:39

      Что касается «стучаться в Яндекс», то где-то в 2005 году у меня получилось достучаться.
      А вот с 2012г ощущение, что как бы «Платон» не отвечал, даже если ошибка признана, дальше «Платона» письмо не уходит. Потому что за два года можно сделать новый Яндекс, наверно, а не только исправить ошибку в выдаче, которая противоречит правилам того же Яндекса


  1. Vilgelm
    02.08.2015 17:48

    Ваш сайт случайно не попал под какой-нибудь фильтр, АГС, например? Еще так иногда бывает с сайтами, на которых большое количество страниц, некоторые могут выпадать, происходит это произвольно достаточно. Например, этого поста в индексе Яндекса нет (хотя это и плохой пример, потому что в индексе Google его тоже почему-то нет).
    Вообще, что бы такого не было, можно использовать инструмент «оригинальные тексты», хотя он и не дает никаких гарантий.

    А вообще (имхо, конечно же) поиск у Яндекса отвратительный, в отличие от других сервисов. По крайней мере в плане скорости индексации (да и индексации вообще) и ранжирования.


    1. asdoc
      02.08.2015 20:09

      Яндекс утверждает, что сайт «чист» относительно любых пессимизаций.
      В Гуугле и Яндексе этого поста нет, т.к. он сегодняшний.
      «Оригинальные тексты» не спасают. Во-первых, они появились сравнительно недавно (даже Яндекс моложе, чем мой сайт — 1998г.р.) Во-вторых, «оригинальные тексты», добавленные, например, год назад проиндекстрованы, но в выдаче отсутствуют.
      Спасибо за внимание к проблеме.


      1. Vilgelm
        02.08.2015 21:52

        Они бывают говорят, что сайт в порядке, но по факту там наложен фильтр. Тут нужно самому проверять.
        Под «этим постом» я имел ввиду этот пост: http://habrahabr.ru/post/666/. Он явно не сегодняшний :)


        1. asdoc
          02.08.2015 22:03

          А как проверить, наложен ли фильтр?


          1. Vilgelm
            02.08.2015 22:14
            +1

            Если речь об АГС, то сейчас довольно просто — при наложенном фильтре тИЦ сайта обозначается как «не определен».
            Но у Вас, скорее всего, что-то другое, может быть такой (там написано как проверить) или такой (тоже написано).
            Вообще сложно сказать, т.к. из статьи непонятно нет ли страницы в индексе вообще (т.е. запрос _http://site.ru/page (без _ в начале конечно же) не возвращает страницу) или она не показывается по различным запросам, а сама по себе в индексе есть. Если бы Вы показали сайт\примеры проблемных страниц, то было бы проще.


            1. asdoc
              02.08.2015 22:21

              ТИЦ 1000. Правда перед всеми этими проблемами, в 2011 (примерно) году ТИЦ был 2400. За год скатился до 1000 и на этом значении находится уже пару лет.
              В Индексе Яндекса то 7000 станиц, то 5000. Колеблется от месяца к месяцу. Не коррелирует с добавлением контента.
              Страниц в выдаче нет именно по запросам (длинным, цитатным). По URL как раз есть — это был первый ответ «Платона» — как же нет — вот URL. Но потом все-таки я убедил, что страница из выдачи выпала.
              Я могу написать пример, если это разрешено правилами «Мегамозга». Я не писал в топике и после, чтобы это не выглядело рекламой. Да и ошибка эта повторяется от сайта к сайту (как минимум, моим).
              Можно публиковать ссылку?


            1. asdoc
              02.08.2015 22:23

              Спасибо за ссылки. Начну изучать.


  1. yurasek
    02.08.2015 23:04

    Что будет, если Яндекс потеряет в индексе тот самый оригинальный контент сайта, а затем проиндексирует его как будто впервые? Как Яндекс определит, что эти данные являются первоисточником? Может в этом и есть проблема?


    1. asdoc
      02.08.2015 23:23

      Это будет довольно странно, т.к. нормальный поисковик имеет свою базу индексаций. С ежедневными бэкапами и пр. Плюс есть веб-архив — всегда можно восстановить потерянное.

      Даже если исключить определения первоисточника, происходит выпадение страницы из выдачи. Копии у копипастеров в выдаче есть.


  1. VDG
    03.08.2015 01:33

    Если страница есть в выдаче, то должна показываться в Вебмастере.


    1. asdoc
      03.08.2015 01:40

      Так в выдаче, как раз и нет.


  1. asdoc
    03.08.2015 14:20

    Всем большое спасибо за советы.
    Особенно, Vilgelm.
    Что сделал.
    1. Исправил description и keywords, а точнее удалил как класс, т.к. исправлять на каждой из нескольких тысяч страниц довольно долго.
    Этот текст пользователь не видит, значит, он ему и не нужен. А если следовать логике Яндекса «делать сайты для людей», то зачем людям лишний код, который вовсе не контент.
    2. Написал страничку «о нас».
    3. Поскольку на трех моих медицинских сайтах были одинаковые координаты — телефон, почта — исправил, заменил, удалил. Теперь разные.
    Хозяина и хостинг, разумеется поменять невозможно и неразумно. Написал в Яндекс два письма про внесенные изменения с объяснениями, в т.ч. про аффилиаты.
    4. Исправил страницу 404 (спасибо exelens).

    Надеюсь, поможет.


  1. asdoc
    04.08.2015 23:33

    Может ли кто-нибудь помочь — сделать sitemap.xml для сайта из примерно 5000 страниц?
    Из всех сделанных замечаний — это не доделано.
    И его, очевидно, нужно доделать. Хотя бы ради приличия.


    1. shatamba
      06.08.2015 11:53

      Попробуйте home.snafu.de/tilman/xenulink.html после сканирование можно сделать sitemap.

      Или один из
      code.google.com/p/sitemap-generators/wiki/SitemapGenerators

      Но если sitemap статичный (не обновляется постоянно) не стоит использовать поле lastmod.


      1. asdoc
        06.08.2015 11:58

        Большое спасибо. Не уверен, что справлюсь, но уже есть какой-то путь.


  1. asdoc
    05.08.2015 10:19
    +1

    Ответ Яндекса:
    «Каких-либо ограничений в поиске у Вашего сайта с нашей стороны нет.»

    Значит, все-таки есть ошибка в выдаче?


  1. asdoc
    05.08.2015 22:18

    Если нужно, могу дать конкретные ссылки и поисковые фразы, например, текста 1998г или текста 2013 года (загруженного в «оригинальные тексты» Яндекс-вебмастера и только потом размещенного на сайте). Гарантированно первично размещенных на моем сайте, гарантированно 100% уникальных, оригинальных, т.е. авторских и больших.
    Сейчас проверил — в выдаче моих страниц нет. Либо копипаст, либо вообще не релевантная запросу выдача (запрос длинный, цитатой).
    Наверно, нужно в личном сообщении ссылки давать? Чтобы это не выглядело рекламой или ссылкой на сайт.
    Т.о. я готов, если это кому-то нужно.


  1. KVV
    06.08.2015 10:22

    Я столкнулся с аналогичной проблемой несколько лет назад. Прошел тоже все круги яндексовского «ада». И почти на 100% убедился, что дело все-таки именно в политике Яндекса, которая сводится к существенному снижению глубины поиска (особенно по времени) и, наоборот, резкому повышению приоритета «актуальности». То есть, старые контентные ресурсы проигрывают тем, кто просто резво «крутит педали» в погоне за трафиком. Немного улучшать ситуацию по конкретным сайтам можно, но ситуация в целом вряд ли улучшится. К сожалению.


    1. asdoc
      06.08.2015 10:27

      Проблема, как я ее вижу в том, что страницы с копипастом оказываются выше, чем страница оригинала. А это противоречит собственным правилам Яндекса. В том числе правилу «сайтов для людей», ибо копипаст — это не для людей.
      Ну и основному, конечно, что оригинал в выдаче выше копипастов.
      Раньше так было.
      А теперь копипасты есть, а оригинала нет.


      1. KVV
        06.08.2015 10:37

        В том-то и дело, что сильно увлекшись игрой в «перестановку в выдаче», Яндекс докатился до тотальной зачистки своих индексов. Причем, вычистил огромное количество именно оригинального контента. Боюсь, исправить это он уже не сможет и не захочет.


        1. asdoc
          06.08.2015 10:54

          Частично и бесплатно можно восстановить «индексы», используя Вебархив.
          На мой взгляд, за последние несколько лет качество поиска Яндекса сильно упало. Я уже года 3-4 пользуюсь для всего Гууглом. Яндекс удобен мне только для поиска товаров. Точнее, для определения разброса цен в Маркете. Потом можно опять уходить в Гуугл.
          Получается, что Гуугл научился хорошо и релевантно искать на русском. А Яндекс разучился.
          На мой взгляд, ухудшение качества поиска привело к падению доли Яндекса на поисковом рынке.
          Поскольку количество пользователей увеличивается, потеря % рынка незаметна.
          И никто не беспокоится.
          Декларируется одно, реализуется другое — копипасты «рулят».
          И желание создавать оригинальный контент пропадает.


          1. KVV
            06.08.2015 11:52

            Да, именно так. К сожалению.


  1. ONIKSfly
    07.08.2015 14:15
    +1

    У Яндекса есть некоторые критерии качества поисковой выдачи, среди которых есть удовлетворённость пользователя результатом.
    Будем откровенны, пользователю, который нашёл ответ на свой вопрос, всё равно прочитал он этот ответ у автора или у копипастера. Пользователь доволен и Яндекс доволен, но вот какое дело: ПС не заработала денег. Чтобы сделать довольными и себя и владельца сайта (автора контента), да ещё и заработать, они предлагают достаточно гибкий инструмент — Директ, где вы можете гарантированно получить свой показ.
    У ПС нет цели делать счастливыми владельцев сайтов просто так.


    1. asdoc
      07.08.2015 17:43

      Ок.
      Допустим, поисковику все равно. Однако Яндекс из-за этого «все равно» теряет по 1% пользователей в месяц. А Гуугл, которому не «все равно» этот 1% получает.
      Дело в том, что качество, релевантность у Яндекса снижается. Лично для меня. 10 лет пользовался Яндексом — было удобно. Сейчас — не удобно. Плохо ищет. Уже года три не использую для поиска информации (только погода, пробки, цены и т.п.)
      И ежемесячно часть пользователей так же уходит из Яндекса.
      Так что моя весьма частная проблема становится не совсем частной.
      И если «все равно» копипаст или оригинал — логично, хотя противоречит «правилам Яндекса», то отсутствие в выдаче текстов, загруженных 1,5 года назад и добавленных в «оригинальные тексты» — это явная ошибка и поиска и выдачи.
      Т.е. потеря качества.
      И никаким Директом это не правится.


      1. ONIKSfly
        07.08.2015 20:00

        Не уверен, что цифра оттока пользователей именно такова, но согласен с утверждением, что Я плавно теряет поисковую аудиторию.
        Аналогичный опыт использования ПС, пользуюсь Я только когда нет другого варианта. У них есть хорошие и нужные сервисы для жителей РФ и, наверное, СНГ, но с каждой новой версией алгоритма/эксперимента они всё больше и больше проигрывают на рынке поиска.
        Прекрасно понимаю Ваши переживаю, более того, разделяю их в профессиональной сфере.
        Яндекс уже не торт: в последнее время в их шагах было несколько стратегических провалов и складывается впечатление, что есть заинтересованность получения сиюминутной прибыли, нежели ставка на какой-то качественный скачок в перспективе.


        1. asdoc
          08.08.2015 21:58

          Такая политика поисковика стимулирует создание сайтов-копипастов и направлена против создания авторского интересного контента. Ибо его тут же копипастят… и в выдаче копипаст, вместо оригинала.
          Это плохо закончится.


  1. asdoc
    13.08.2015 22:57

    Забавный промежуточный итог, отчасти повторяющий ответ трехлетней давности.
    Яндекс:
    «Ваш сайт отсутствует в результатах поиска, так как в них уже присутствует страница, содержащая похожую информацию, это нормальная практика. Но, поскольку оказалось, что именно Ваш сайт первоисточник контента, то мы вносим необходимые корректировки.»
    (При этом эта страница с идентичным(!) контентом не одна, а 70(!). А оригинала нет вовсе.)
    И тИЦ, почему-то, сразу упал на 300 единиц.
    Несколько лет не менялся… а тут — упал.
    Интересное совпадение.