Прочитал намедни статью про сайты-копипасты и их выдачу Яндексом, и задумался… Где же должна проходить грань между оригинальными страницами и «копипастами»? Как говорится, с точки зрения теории, теория и практика — одно и то же, да вот на практике это далеко не так. Поэтому я и решил поделиться своим скромным опытом реализации проекта сайта, не содержавшего ни единого «кусочка отсебятины».

Появилась у меня однажды идея, даже не идея — а настойчивая потребность — систематизировать информацию о действующих на тот момент диссертационных советах. Это было где-то в 2012 году, когда диссоветов было порядка 3200, причём зачастую информация по каждому из них в сети была, но находилась не напрямую, а всякими окольными путями (какие-то диссоветы находились на сайтах своих организаций через раздел «Аспирантура», другие — через «Наука», третьи — какими-то другими немыслимыми проходами по тёмным безжизненным корридорам сайтов с шаманским бубном). Поскольку я понимал, что не один нахожусь в такой ситуации, а значит есть спрос (и будет выдача в поисковиках), было решено создать сайт dissovety.ru и разместить на нём всю найденную мной информацию, систематизировав её должным образом.

Сказано — сделано!

Сайт я делал на знакомом мне вордпрессе, поэтому сразу столкнулся с проблемой: мне было нужно сделать так, чтобы диссоветы можно было находить по шифру, городу и научным специальностям. Выход был найден простой и красивый: для каждого города создавалась рубрика, научные специальности отмечались тегами (облако тегов стало действенным элементом навигации и вместе с тем показывало многочисленность внесённых в базу диссоветов по каждой конкретной специальности), информация о диссовете представляла собой отдельный пост, в заголовке которого стояло название диссовета и его шифр.

К сожалению, сайт прожил всего лишь несколько месяцев (примерно с января по октябрь 2013 года). В него была занесена информация примерно о 50 диссоветах (может, чуть больше), плюс ещё порядка 80-100 диссоветов ожидали своего часа, как случилась реформа, в ходе которой все диссоветы были закрыты, а ВАК начал публиковать новые списки (первый список содержал немногим более 300 диссоветов, второй и третий спустя месяцы увеличили общее число до 600). К тому времени я уже определился со своим диссоветом, благодаря чему отпала необходимость в подобном сайте лично для меня, плюс небольшое число действующих советов серьёзно упрощало поиск нужного — так что сайт тихо канул в Лету списки доменов к продаже.

Однако из этого проекта я сделал некоторые выводы.

Во-первых, я вполне логично ожидал, что страницы моего сайта будут идти в поисковой выдаче (по номеру диссовета или его названию) как минимум после страницы с исходной информацией. На практике оказалось по-другому: страницы моего сайта неизменно оказывались выше (!) сайта-источника. Мне кажется, объяснение этому такое: мой сайт был целиком посвящён диссоветам, посты по каждому диссовету были чётко структурированы (конечно, поисковик не оценивает качество текста, но благодаря этому каждый пост оказывался не очень длинным, но и не слишком коротким, плюс естественным образом включал в себя массу слов, которые говорили о его ценности с точки зрения темы поискового запроса). Структура каждого поста была примерно такая: в заголовке название и шифр диссовета, в тексте — где, при каком заведении находится, адреса-телефоны, ФИО учёного секретаря и председателя, специальности, по которым диссовет принимает к защите работы, и прочая полезная для диссертантов информация. Если говорить о страницах — донорах информации, то собираемые мной сведения были слабо структурированы, зачастую их приходилось искать в разных разделах сайта.

Во-вторых, посещения. Первый месяц на сайте было 10-15 диссоветов: я не спешил с наполнением, не разобравшись до конца в логике подачи материала и методикой его сбора (на 1 диссовет уходило 30-50 минут времени — на поиск информации и её представление в соответствии с пунктами, которые я для себя определил как обязательные). Посещения были случайные и разовые (причём половину трафика «нагонял» я, просто просматривая свои новые посты, как они выглядят в итоге. Через месяц-другой пошёл поисковый траффик. Не скажу, что его было много: по моим подсчётам, он быстро вышел на запланированный объём (исходя из расчёта 1 посетитель на 1 диссовет в сутки — по крайней мере, примерно такая была статистика по самим диссоветам, с небольшой поправкой на посещаемость сайта вака). Где-то на 4-6 месяцах существования проекта его позиции оказывались устойчиво выше первоисточников (при том, что я обязательно давал ссылку на исходную страницу, откуда брал информацию, а на меня абсолютно никто не ссылался!). А потом — упразднение списка и полная неизвестность…

В-третьих, успешность самой модели сайта-интегратора. С одной стороны, для его наполнения необходимо приложить определённые усилия (найти базу описываемых объектов, продумать их систематизацию в рамках возможностей CMS, установить некие общие схемы и принципы выстраивания информации на сайте, описать каждый объект в соответствии с ними). С другой стороны, при правильном подходе уже с первых шагов сайт-интегратор даёт неплохие результаты, а после своего наполнения требует минимальных усилий для своего поддержания (на этом этапе можно подключать форумы, чтобы начать интегрировать ещё и пользовательский опыт).

Поскольку проект был запущен и работал «на голом энтузиазме» (я установил себе лимит времени — час в день), финансовые затраты на него составляли 0 рублей и столько же копеек (у меня был хостинг со «свободными местами» и бонусом в виде бесплатного доменного имени). Сайт никак не рекламировался — ну, может, несколько сообщений в твиттере на всю тогдашнюю тысячу моих читателей, да показ гуглю и яндексу (нате, индексируйте). В итоге мне почти что удалось сделать сайт-интегратор (если бы список не упразднили, он был бы готов — к тому времени я уже нашёл исполнителей, которые за разумные деньги и пару месяцев собрали бы информацию о каждом диссовете). Хотя я и делал «сайт для людей», в этом проекте я не написал ни единого слова «отсебятины»: всё, что там было, было взято с других сайтов, и во многом — с точными формулировками, взятыми из исходников (обработка если и была, то незначительная — всё сводилось к систематизированному показу информации, взятой с сайта-донора).

Несмотря на то, что сам проект больше не действует, после него осталось несколько вопросов, касающихся поисковой выдачи. Было ли справедливым занятие моим сайтом более высоких позиций по сравнению с первоисточниками? Если нет — то какие позиции должны были занять по отношению к исходным материалам страницы моего сайта? Если сайт содержит в упорядоченном виде качественную информацию, взятую из других источников, и указывает на эти самые источники, то есть по сути дела обобщает все доступные сведения и делает их доступными в едином месте, то можно ли считать его содержимое оригинальным, или к такому сайту нужно применять фильтры?

И, наконец, извечный вопрос: а где собственно пролегает грань между оригинальными качественными «сайтами для людей» и всеми прочими копипастами?

P.S. Полученный мной опыт оказался интересным и, на мой взгляд, позитивным, так что сейчас я подумываю о том, чтобы к следующему году запустить новый проект, основанный на такой же «интеграторской» идее (объединение информации о тысячах разрозненных объектов — в удобном для пользователя виде).

Комментарии (12)


  1. nektopme
    29.01.2016 14:56
    +3

    Вы хотите найти «справедливость» в чёрных ящиках алгоритмов поисковых систем? Есть подозрение, что уже поисковики плохо представляют, что происходит внутри их чёрных ящиков.


    1. exelens
      29.01.2016 17:58

      =))) А ещё стоит посмотреть того самого пациента, чьи тексты были забыты.

      Что то подсказывает мне… что сайт там адовый ад для ссылок, статей и аффилированных проектов.


      1. ilya_pu
        31.01.2016 00:53

        К сожалению, локальную копию не сохранил… а на сервере место понадобилось под другой проект… По поводу ссылок и статей — статья содержала структурированную информацию о конкретном диссовете (полное название вынесено в заголовок), специальности диссовета были оформлены в виде ключевых слов (висели в облаке меток), местоположение диссовета (помимо указания в тексте адреса) было оформлено в виде рубрики (то есть были рубрики: Москва, Санкт-Петербург, и т.д. — по городам, в которых был хотя бы один диссовет). Со страницы ссылки вели (как и подобает стандартному вордпрессу): на рубрики, облако тегов, даты публикаций. Плюс с каждой страницы — по одной ссылке, откуда была взята информация. Продажей ссылок не занимался, другие проекты не вёл, да и сам проект по диссоветам планировал сначала сделать полезным, и только затем — коммерческим…


        1. exelens
          31.01.2016 08:54

          Добрый день. Я не про ваш сайт (мои способности медиума не так развиты чтобы бац и вот так угадывать)
          В первом абзаце вы упоминаете топик другого человека. Тот сайт я видел (мы списывались с ним через ЛС). Там адовый ад.


  1. Mendel
    29.01.2016 20:26
    +2

    Осмысленный, полезный для человека обработанный вручную текст копипастой не является.


  1. prolis
    30.01.2016 12:13

    Это мог быть эффект персонализации поисковой выдачи, когда много раз кликаешь по запросу на один и тот же сайт.


    1. biziwalker
      30.01.2016 13:22

      Тогда трафик у автора откуда? 1 посетитель на 1 диссовет в сутки


      1. prolis
        30.01.2016 14:32

        Последующие места на первой странице выдачи поиска тоже трафик дают.


  1. geekandr
    30.01.2016 20:14

    Было ли справедливым занятие моим сайтом более высоких позиций по сравнению с первоисточниками?
    Это мог быть временный «бонус новичка» или просто рандомная выдача яндекса, если речь о нем, из статьи не понятно о какой поисковой системе речь. Сама информация могла быть второстепенной в первоисточнике, поэтому не оптимизированной для выдачи.
    можно ли считать его содержимое оригинальным
    Если добавите дополнительное содержание, например отзывы, сравнения и т.д., то да, если голая копипаста, пусть и структурированная, есть риск вылететь из топа. Зависит конечно от самого контента, если это редкость вроде диссоветов, где наверное сайтов кот наплакал, там возможно прокатит.


  1. Quickie
    01.02.2016 04:55

    И, наконец, извечный вопрос: а где собственно пролегает грань между оригинальными качественными «сайтами для людей» и всеми прочими копипастами?


    Возможно, я и ошибаюсь, но сложилось впечатление, что акцент в статье сделан не на технических особенностях поисковиков и результатах выдачи, а на поиске некоей «справедливости» между сосуществованием двух разных штук – оригиналом и «копипастой».

    Ваш пример сайта-интегратора мне напомнил сборники и другие составные произведения, авторское право на которые регулируется законом РФ. И такие компиляции для конечных пользователей зачастую весьма удобны, имеют право на жизнь, право на монетизацию и право на выдачу в топе, как мне кажется. Труд составителя – тоже авторский труд. Следом за этим в голову приходят, например, онлайн-сервисы, которые предлагают (причем за деньги) мониторинг и агрегацию информации с торговых площадок по гос. закупкам для поставщиков товаров и услуг. Хотите сами искать закупки среди моря оригиналов? Пожалуйста. Хотите не пропустить спрос по интересующим вас тегам и условиям? Платите составителям.

    А вопрос из заголовка – это к читателям или поисковикам?


  1. Agent03
    01.02.2016 10:47

    Не совсем увидел то что ожидал, но статья хорошая, спасибо автору. У меня похожий проект планируется, скорее всего буду изучать CMS WP, занимаюсь научной деятельностью в области мех.инженерии да и сайт будет примерно из этой же области, все на полном энтузиазме=).
    Вопрос.

    ilya_pu Перевод статьи например с англ. языка и его публикация с указанием первоисточника является копипастом? И как соответственно это повлияет на индексируемость сайта в поисковиках? Я в этом новичок, только вникаю).


  1. ilya_pu
    01.02.2016 10:59

    Перевод статьи с англ. языка и его публикация с указанием первоисточника является копипастом?

    Если только машинный :) На самом деле, любой очеловеченный перевод — это самостоятельный текст (вспомнить переводы того же Гарри Поттера — авторизованный литературный и народный фантазийный, оба имеют право на существование). Вообще под копипастом понимается текст, полученный через <Ctrl-C> + <Ctrl-V>, то бишь скопировал там — вставил здесь. Разногласия возникают тогда, когда скопированный текст перед вставкой подвергается некоторой обработке — вопрос в том, какая должна быть глубина обработки текста, чтобы он мог считаться оригинальным.
    В плане переводов тоже можно стать нарушителем авторских прав — если на переводимое произведение (например, техническую статью) не получить разрешение на перевод (эта тема, помнится, много раз обсуждалась, вкратце результат таков: авторы зачастую передают издателям все права, издатели часто не знают, как ими распорядиться, либо же называют ценники — от приемлемых до совершенно неадекватных; переводы зарубежных авторов в большинстве своём делаются энтузиастами на свой страх и риск).