Самая ужасная страшилка для желающих разместить написанный компьютером контент на своих сайтах — санкции поисковых систем. Нас тоже в свое время пугали тем, что сайт с неуникальными и /или сгенерированными текстами, будет плохо индексироваться или что он вообще попадет под бан. При этом точных требований к текстам никто нам сказать не смог. Вообще тема уникального контента и его роли в продвижении сайтов больше похожа на оккультные знания. Каждый следующий «специалист» обещает на своей странице открыть страшную правду, но правда так и не открывается, а суть многих дискуссий на форумах сводиться к тому, что, скажем, Яндекс, распознает сгенерированный контент с помощью магии. Не такими словами, но смысл в этом.

Поскольку недавно к нам обратились заказчики с задачей создать описаний для товаров на сайте, мы решили подробнее изучить этот вопрос. Какие алгоритмы существуют для определения автоматически написанных текстов, какие свойства должен иметь текст чтобы не быть распознанным как веб-спам, и какие средства могут его генерировать?

В последние годы уникальный текст (и вообще текст) стал распространенным инструментом, который SEO-специалисты рекомендуют для продвижения сайтов в поисковых системах. Совсем в последние годы, владельцы сайтов поняли, что заказывать написание текстов людям достаточно накладно, ведь цены на авторские тексты во все времена находились в диапазоне $1-$3 за 1000 знаков. Понятно, что владельцу интернет-магазина даже со скромным ассортиментом в 3-4 тыс наименований надо заплатить за тексты от 300 000 рублей, причем трата это не разовая, поскольку ассортимент имеет тенденцию обновляться. Естественно, на страницах сайтов появились автоматически сгенерированные описания товаров.

Как на самом деле поисковая система распознает автоматически сгенерированный контент...
… этого мы конечно не знаем. Но, общий принцип метода тайны не составляет, и обратившись к первоисточникам можно сделать некоторые обоснованные выводы о границах возможного. Начнем с того, что на сайте научных публикаций Яндекса имеется статья с многообещающим названием «Поиск неестественных текстов» [1]. Там сказано примерно следующие “в неестественном тексте должно быть нарушено распределение пар [слов]… количество редких, нехарактерных для языка пар должно быть завышено по сравнению со стандартом, а количество частых пар – занижено”. Перед нами, таким образом, первая группа методов То есть, речь так или иначе идет о сравнении статистических параметров данного текста с параметрами «естественных» текстов. Помимо распределения пар, могут использоваться частоты n-грамм большего размера. В более современных работах [2] применяются также частоты n-грамм не самих слов, а частей речи, когда сначала каждому слову определяется часть речи (СУЩ-ПРИЛ-СУЩ-ГЛАГ), а потом подсчитывают частоты полученных n-грамм, и так далее.

Ясно, что самые примитивные описания, сгенерированные с помощью подстановки параметров товаров в шаблонный текст избегают этого фильтра по причине того, что исходный шаблон заготовлен человеком и, соответственно, имеет естественные характеристики. Это конечно, при условии, что в шаблоне приглажены соответствия родов и падежей, чтобы не получалось ничего вроде «Купить стиральная машина за 10399 рубля».

Генераторы на основе современных моделей языка, такие как нейросетевые модели языка, также весьма вероятно избегают этого фильтра, так как общее правило гласит «чтобы поймать текст сгенерированный некоторой моделью языка, надо использовать более совершенную модель языка». А более совершенная модель языка может быть в дефиците, и к тому же требовать огромных вычислительных затрат, так что ее использование для определения автоматических текстов в масштабах интернета просто будет нерациональным

Но генераторы на основе модели языка, примененные напрямую, генерируют тексты, лишенные смысла. Например, такие «Надежность водонагревателей «аристон» побеждает рейтинг бойлеров».

Поскольку владельцы интернет-магазинов как правило не хотят, чтобы водонагреватели побеждали рейтинги бойлеров, они предпочитают простые шаблонные тексты. Но и здесь есть некоторая потенциальная трудность.

Шаблонный текст не отличим от естественного до тех пор, пока он имеется в единственном экземпляре. Размноженные же, они становятся предметом второго класса методов определения машинных текстов. Суть метода в том, что все тексты, написанные на базе шаблона похожи друг на друга за исключением частей, куда вставляются параметры конкретного товара. Получается то, что называется в английской литературе ”near dublicates” — почти дубликаты. Поисковые системы умеют их определять [3], используя всем известный метод шинглов и его усовершенствованные варианты. Если же использовать дополнительно синонимайзер, то увеличится число маловероятных языковых конструкций и текст станет опознаваемым для первой группы алгоритмов [1]. Кроме того, существуют алгоритмы, специфически направленные против синонимайзеров — они убирают из текста все слова, для которых имеются синонимы в словаре, и сравнивают тексты по оставшимся словам [4].

Таким образом, алгоритмы распознавания машинно-генерируемых текстов являясь с одной стороны достаточно сложными, все же не содержат в себе никакой магии и сверхинтеллекта. При желании можно их воспроизвести для целей тестирования текстов, что затратно по времени, но в общем не сложно.

Философское отступление
Мы столкнулись с тем, что есть люди, считающие машинные тексты злом, засоряющим интернет и предназначенным для обмана пользователей. Но мы считаем, что это вряд ли правомочно относить к осмысленным текстам, описывающие конкретные товары по параметрам. Ведь эти тексты содержат фактически верную информацию о товаре. Размещая на странице такой текст мы обозначаем ее содержимое для поисковой системы, поэтому это не является обманом поисковых систем или покупателей.

Практика: Насколько хороши машинные тексты?
Принимая во внимание вышеизложенное, мы остановились на гибридном методе генерации текстов. В нем, сначала базовый каркас текста генерируется с помощью заданной вручную грамматики (подробнее в предыдущей статье), а затем сверху применяется нейросетевой анализатор, натренированный на определение мест, где можно вставить или удалить определенные классы слов без потери смысла. Необходимость создания порождающей грамматики вручную конечно удорожает стоимость решения, но все равно она остается на порядок меньшей, чем заказ текстов копирайтеру. Теперь собственно по качеству.
Читабельность:

«Смеситель для раковины Grohe Allure 19386000 из новой коллекции Allure, стоимостью всего 5800 рублей. Скрытый монтаж обеспечивает повышенное удобство эксплуатации и, конечно, установки. Cистема GROHE SilkMove позволяет обеспечить исключительно легкое движение рычага. Специальное покрытие, произведенное по технологии StarLight создает долговечность и сохраняет хороший вид изделия на протяжении долгих лет. Вертикальный монтаж с двумя монтажным отверстиями весьма удобен и не должен вызвать трудностей. Величина выноса излива здесь равна 220 мм. Больший размер выноса приводит к тому, что использовать изделие становится намного проще. Все изделие в общем имеет вес равный 1,955 кг. Минимальное давление для данной модели равняется 1 бар. В подключении к электричеству нет необходимости. Бесплатная доставка и надежное, проверенное годами, качество широко известного всем немецкого бренда — главные причины купить смеситель Grohe Allure 19386000».

Конечно, это не великое литературное произведение, но явных огрехов нет. Определить, что текст сгенерирован автоматически трудно, даже для человека.
Уникальность:
a) Глобальная уникальность. Суть глобальной уникальности в том, чтобы текст был уникален относительно всех других текстов, имеющихся в интернете на момент публикации.

Для проверки глобальной уникальности мы использовали известный сервис text.ru (для целей объективности, в этой статье мы приводим результаты анализа со сторонних сервисов, а не данные наших алгоритмов).



Как видно, с глобальной уникальностью нет никаких проблем. Сервис жалуется на орфографию, но при рассмотрении ошибки связаны с тем, употреблением слов ”Allure”, “StarLight” и других специфических терминов, которые сервис не знает. Примечание: это данные до размещения текстов на сайте заказчика. Сейчас, естественно, эти тексты можно обнаружить там.

б) Локальная уникальность. Как мы уже говорили, слишком похожие тексты могут быть сочтены поисковой системой дубликатами друг друга, что может выдать их искусственное происхождение. Для этого мы использовали сервис, размещенный на сайте backlinkmanager (другие реализации сравнения с помощью алгоритма шинглов дают похожие результаты)



Два текста про очень похожие модели с совпадающими параметрами сходны всего на 5%, причем в значительной степени сходство обусловлено упоминанием названия товара «Смеситель для мойки Grohe Alira”. Будем считать это хорошим результатом, ведь есть не так много способов по разному описать один и тот же набор параметров товара.

Индексация поисковыми системами
Индексация машинно-генерируемых текстов была проверена нами ранее на примере сайта reviewdot.ru. Страницы данного сайта не имеют уникального контента. Поэтому вначале этот сайт никак не хотел попадать в индекс Яндекса (из более чем ста тысяч страниц в индексе оказались около 1300 штук). Мы с этим упорно боролись, разместив сначала шаблонные тексты (число страниц в индексе выросло до 5000), потом использовав более сложные алгоритмы генерации, подобные рассмотренному выше. На сегодняшний день в индексе Яндекса около 70 000 страниц. Хотя что конкретно повлияло на ситуацию — наши усилия или изменения в алгоритмах Яндекса, нам неизвестно. Тем не менее, факт остается фактом — страницы, содержащие автоматически сгенерированные тексты успешно попадают в индекс поисковых систем. Несмотря на все опасения SEO специалистов, монстры не явились, что сожрать нас сайт не попал под санкции поисковых систем, хотя к тому имелись теоретические основания.



Причем в индексе не только страницы, но и конкретно автоматически сгенерированные тексты, в чем можно убедиться, введя фрагменты этих текстов в поисковую строку:


А значит, как минимум, машинно-генерируемый контент можно использовать для того, чтобы страница стала релевантной определенным запросам.

Конечно, надо заметить, что мы размещали не бессмысленные тексты, а тексты содержащие полезную пользователю информацию (reviewdot анализирует отзывы на товары, оставленные на разных сайтах и представляет пользователю краткую аннотацию об отмеченных плюсах и минусах).

Мы также провели сравнение времени нахождения пользователя на страницах с текстом.В результате этого обнаружилось, что тексты положительно сказались и на таком параметре, как время нахождения пользователя на странице. Видимо причина этого в том, что если человек видит на странице связный текст, содержащий нужные ему сведения, он начинает его читать, а чтение текста занимает некоторое время.

Заключительные замечания
На сегодняшний день тексты сданы заказчику и размещены на сайте (интернет-магазин сантехники g-online.ru), желающие могут ознакомится и с ними тоже. Пока что мы можем сделать выводы, что сгенерированные тексты могут быть сделаны достаточно сходными с «естественными», и при правильном подходе к делу они не влияют на сайт отрицательно. Сгенерированные тексты могут улучшить индексацию страниц сайта, и сделать страницы релевантными определенным запросам. Можно запрограммировать генератор на упоминание заданных ключевых слов или фраз в точно заданных процентных соотношениях от размера текста.

Литература
1. Е.А. Гречников, Г.Г. Гусев, А.А. Кустарев, А.М. Райгородский. Поиск неестественных текстов//Труды 11й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL’2009, Петрозаводск, Россия, 2009.
2. Aharoni, Roee, Moshe Koppel, and Yoav Goldberg. Automatic Detection of Machine Translated Text and Translation Quality Estimation//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 289–295, Baltimore, Maryland, USA, June 23-25 2014.
3. G. S. Manku, A. Jain, and A. Das Sarma. Detecting Near-duplicates for Web Crawling. In Proceedings of the 16th WWW Conference, May 2007
4. Zhang, Qing, David Y. Wang, and Geoffrey M. Voelker. «Dspin: Detecting automatically spun content on the web.» NDSS, 2014.

Комментарии (31)


  1. olen
    30.11.2015 16:16
    +4

    Для людей такие тексты бесполезны. Лучше прочитать хороший копипаст (взятый с сайта производителя, например), чем такое.

    Есть, также, грамматические неточности:
    > Специальное покрытие, произведенное по технологии StarLight создает долговечность…
    Пропущена запятая после StarLight, «создает долговечность» — неправильно.


    1. terryP
      01.12.2015 01:34

      Лучше прочитать хороший копипаст (взятый с сайта производителя, например), чем такое.

      Вообще, нормальные магазины платят копипастерам и рерайтерам на ручную генерацию уникального текста (пересказ чужого текста, перевод или реальное придумывание) одновременно оптимизированного для пользователей и для поисковиков. Это со одной стороны дает уникальные тексты, с другой хорошую конверсию и имидж. Причем не сказать что на это требуются какие-то нереальные деньги… А автогенерация… выглядит ещё хуже чем кривой страшный дизайн за три копейки на вроде бы супер пупер интернет магазине.


      1. Durham
        01.12.2015 12:37

        (100 руб за 1000 знаков) * 10 000 товарных позиций = 1000 000 руб. На выходе примерно такое же качество. Может для вас это небольшие деньги. Но для большинства небольших и начинающих интернет магазинов это неподъемная сумма. И, кстати, вы читали статью? Тексты о которых идет речь в статье не оптимизированы для поисковиков, туда не вставлены поисковые запросы или ключевые слова.


        1. terryP
          01.12.2015 16:32
          +1

          1) расценки на 1000 знаков в среднем несколько раз ниже,
          2) в приведенном вами примере не 1 тысяча знаков,
          3) у каждого начинающего магазина 10000 товарных наименований?
          4) (и самое главное) на самом деле, в уникальном описании товара на 1 тыс. знаков на 10 тыс. наименований смысла мало, так как поисковики прекрасно знают что описания товаров не уникальны и не обращают на это внимания (посмотрите описания сотовых телефонов с их характеристиками они почти везде одинаковые), да описание товара из трех строчек (как у вас выше) все равно будет уникальным, так как на сайте будут ещё цены, условия доставки, наличие на складе, цвета в наличии. Этого более чем достаточно для того чтобы такое описание поисковик посчитал уникальным. Соответственно, делать уникальные тексты имеет только для избранного товара в виде достаточно большой статьи (например, в виде обзора нового телефона). При этом уникальный текст это лишь 1% от того что нужно сделать для продвижения этого товара и, естественно, тут нет никакого смысла экономить.


          1. Durham
            01.12.2015 17:49
            +1

            1. Средняя цена на заново написанный текст не ниже. Можно найти дешевле, но хуже качеством. Можно найти даже дороже.
            2. В приведенном примере 946 знаков — на 50 знаков меньше. И я кстати нигде не говорил, что там ровно 1000, это вы придумали сами. Можно генерировать текст любой длины
            3. Много магазинов не имеют своего склада, они делают карточки многих товаров и заказывают по необходимости.
            4. Мы не сами придумали эту задачу, люди с ней обращаются, значит для них смысл есть. Они считают, что уникального описания от товара не требуется, но страницы на которых есть уникальное описание ранжируются выше. Как на самом деле — это во многом вопрос веры. Я в статье нигде не говорю о том, какой именно смысл в текстах для продвижения, я показал определенные факты, которые точно можно установить. Все остальное вы самостоятельно додумали, не вижу смысла с этим спорить


    1. DarthVictor
      01.12.2015 11:06

      взятый с сайта производителя

      Как будто на сайте производителя текст будет лучше.
      Ну правда, что можно написать полезного про смеситель, кроме размера резьбовых соединений?


    1. Durham
      01.12.2015 12:39

      На сайте производителя по указанным товарам нет описаний отдельных товарных позиций, пригодного для вставления на сайт. Есть pdf про коллекции в целом, где долго и пространно написано про все на свете, извлечь из него полезную информацию еще сложнее, чем из сгенерированного описания.


      1. Durham
        01.12.2015 12:43

        А в описания, мы еще вставили предложения о том, что товар может не подойти если вам нужно то-то или у вас нет того-то. Такого среди типичных рекламно-восхваляющих текстов в магазинах я вообще не видел. Ну и что лучше?


  1. copyhold
    30.11.2015 16:25
    -5

    Конечно бесполезны для людей, потому что эти тексты для роботов предназначены.
    Очень полезная статья, спасибо.


  1. Gorthauer87
    30.11.2015 18:15
    +6

    В итоге в интернете и так огромная прорва информации, так ещё такими методами будет 100500 похожих текстов, которые будет сложно разбирать глазами, поисковик то с ними не справится, его всякие умные seoшники обманывают.
    Я всегда думал, что роль seo это просто сделать так, чтобы роботу было удобнее парсить текст и находить там нужную для него информацию. Не не превращать интернет в свалку похожих текстов.


    1. Durham
      30.11.2015 18:49
      -2

      Вы видите вопрос однобоко. Представьте, что пользователь вводит специфический запрос, включающий ряд требуемых свойств товара. Как поисковик понимает, какую страницу ему показать? Только по тексту, который там есть. Картинки, диаграммы и прочее поисковики интерпретировать пока не умеют. Таблица параметров, если они не релевантны запросам, мало помогают. А вот текст, содержащий нужные слова прямо говорит о том, что эта, и именно эта страница нужна. Если текст на странице составлен правильно, то эта страница будет показана по целевым запросам, и только по ним — что и есть цель продвижения любого магазина, и интересы пользователей и владельцев сайта в данном случае совпадают. Не имеет значения сколько текстов всего в Интернете, если эти тексты отвечают на строго определённые вопросы.


      1. VenomBlood
        01.12.2015 00:05
        +3

        Когда вижу сайт с автогенеренным описанием — сразу закрываю и ничего не покупаю, т.к. доверие падает ниже плинтуса. Да и засорять интернет не нужно, правильно поисковики делают что банят подобные сайты. Продвижение должлно быть честным, а не выбиванием в топ путем замусоривания текста ключевыми словами.


      1. terryP
        01.12.2015 01:28

        интересы пользователей и владельцев сайта в данном случае совпадают

        Нет, если я набираю «товар такой-то отзывы», «товар такой-то характеристики», то я не хочу читать автогенерируемые описания для роботов. Вообще, если магазин не может заплатить три копейки за заказ у копирайтера нормального человеческого описания товаров о каком доверии может идти речь?

        Нагенерить кучу описаний не сложно, но этим не выйти в топ поисковика. Потратить кучу денег на рекламу и продвижение и иметь конверсию ниже плинтуса и риск блокировки поисковиками магазина по ручным жалобам пользователей? За такую жадность можно даже не втрое заплатить, а значительно больше…


        1. Durham
          01.12.2015 12:30
          -1

          1. Когда вы видите сайт с автоматически сгенерированным описанием, то в 80% случаев вы не знаете что смотрите на автоматическое описание. Реально, нельзя отличить шаблон в который подставлены значения, от написанного вручную текста, не посмотрев два десятка описаний. И даже тогда не всегда это возможно. Вам может казаться, что вы знаете, что написал автомат, а что человек, но на практике это не так. Более того, то что вы считаете автогенерацией, часто на самом деле продукт «творчества» копирайтера.

          2. Что такое «честное продвижение»? Заказать людям оптимизированный текст за 100 руб/1000 знаков это более честно? Если в магазине 10 000 товарных позиций, то цена вопроса 1 млн руб. Это не совсем 3 копейки. 10 млн. знаков это порядка 5000 страниц, больше того, что один человек может написать в разумное время. Итог: мы потратили 1 млн. рублей, 20 человек месяц занимались, в общем-то, бессмысленной работой, и получили на выходе… примерно тоже самое качество автомата, если не хуже. Ибо 500 штук одинаковых описаний — на 100 уже глаза свернулись в трубочку и пошел авторский бред. А еще потом кто-то должен все это прочитать, чтобы проверить. Чтобы исключить тексты вида «Поскольку до этого места никто читать не будет, напишу что товар этот ужасный, а работа меня достала». В общем, там, где вы видите честность, я вижу бессмысленную трату денег, человеческих сил, с сомнительным результатом. А еще, это дело неподъемное для начинающего предпринимателя без капитала. В поисковом ранжировании сайт такого нового магазина будет внизу, потому что он не может заплатить 20 копирайтерам 1 млн. Это честно?.. И вообще размещение текстов описаний на своем сайте это самое честное, что можно сделать. Не заказть 10 000 постов на форумах и в соц. сетях о том какой магазин хороший. Не разместить 1000 заказных отзывов о магазине.

          3. Когда я вижу автоматическое описание, я знаю, что оно по крайней мере с высокой вероятностью описывает действительные характеристики товара, а не содержит фантазии составителя на тему. Все четко, ясно и по делу. Для меня это важнее. Здравомыслящий человек не будет жаловаться на такой текст, даже если он как-то догадается, что его писал автомат. Я пришел за информацией, я получил информацию. Какая мне разница как эта информация получилась, если написано понятно и по делу? Это же не марковским генератором заполнена страница.

          В общем, понятно, что бы я не написал, все равно будут недовольные, нежелающие вникать в суть дела и желающие заклеймить автогенераторы и тех кто их делает позором. Да у нас у всех есть аллергия на переоптимизированные тексты, на перечни ключевых слов, на генераторы порождающие текст на основе марковских цепей и иже с ними. Но, прежде чем написать гневный комментарий, пожалуйста, прочитайте статью, прочитайте все выжеизложенное и на секунду задумайтесь. Ведь здесь речь не об этом.


          1. terryP
            01.12.2015 16:42
            +1

            тут дан ответ.
            1,3) Даже по вашему примера, видно что человек не напишет «не требует подключенния электричества» для раковины и т.п. ерунды, хотите помочь клиенту, дайте ширину, длину, вес, цвета, кол-во на складе, цену и условия доставки. Это уже сделает объявление уникальным для поисковика. А автогенерация трех строчек никакой пользы не принесет.
            2) ответил выше,

            В целом, проблема даже не в том что автогенерация все равно мешает пользователям, чтобы вы не говорили, а в том что автогенерация, в том виде как приведено у вас, мало полезна, Есть способы заработка на автогенерации, но это не шаблонные описания в интернет магазине. ИМХО.


            1. Durham
              01.12.2015 17:29

              Речь не про раковину, а про довольно дорогие смесители для раковины, часть моделей имеют электронное управление и требуют подключения к электричеству, в виде подключения к сети или в виде батарейки поэтому эта информация важна. Вы пишите критику, не дав себе труда разобраться в вопросе.


          1. VenomBlood
            03.12.2015 05:07
            +2

            Автоматическое описание — это чушь собачья для 95% товаров, включая технику. Да даже ручное художественное описание — не особо имеет смысл. Смысл имеет табличка: разрешение, размеры, вес, глубина цвета и т.д.. Список параметров составляется на категорию товаров. И после этого по этим параметрам прикручивается фильтрация и пользователи довольны.

            А по поводу «честного продвижения» — вы хоть свои тексты читали? «это наиболее важные причины купить смеситель… прямо сейчас» — это по вашему не грязный SEO текст? Такой текст сразу вызывает отвращение и ощущение крайней бедности и низкопробности магазина, и что в случае проблем этого магазина не достучишься. 90% текста — вода и маркетинговый буллшит.


            1. Durham
              03.12.2015 11:49
              -2

              Автоматическое описание — это чушь собачья для 95% товаров

              Статистика показывает, что наличие текстового описания повышает не только время нахождения пользователя на странице, но и вероятность того, что он далее перейдет по другим ссылкам на странице, таким как «отзывы о товаре», «доставка товара», «как купить товар» и подобным. Никакое количество абстрактных и предвзятых рассуждений о том, что это «чушь собачья» не может изменить наблюдаемой закономерности. Даже если тут напишут 50 комментариев, что текстовое описание товара никому не нужно, от этого ничего не изменится. Каждый, кто не верит, что это так, может провести собственный опыт и убедиться на практике. Я даже не буду рассуждать, почему люди предпочитают карточки товара с описанием — нафантазировать можно много всего, и «за» и «против». Но, достаточно, что такой факт есть.

              это наиболее важные причины купить смеситель… прямо сейчас»

              Это довольно стандартный маркетинговый прием, может быть не очень хороший, но к SEO прямо не имеющий отношения — такой оборот часто можно видеть в бумажных материалах, для которых SEO не имеет смысла по определению. Можно говорить, что это «нечестный» маркетинговый прием, или что наоборот, это плохо написано и не вызывает желания купить товар, но это уже совсем другая тема. В приведенных примерах никаких усилий не было приложено для поисковой оптимизации текстов.

              Не верите? SEO текст выглядел бы примерно так: «Думаете как купить смеситель онлайн? В нашем интернет-магазине сантехники лучшие цены на смеситель для раковины. Вы можете видеть на фото бесконтактный кран для умывальника...». И так далее, цепляем один за другим запросы разными словами. Вот это был бы SEO текст.


              1. VenomBlood
                03.12.2015 22:07
                +1

                Статистика показывает что воруя можно заработать деньги. Гиперболизированно но суть та же — можно еще недобросовестной рекламой обманывать людей — тоже деньги будут. Вопрос же в честности и не использовании грязных приемов. К слову табличка с основными данными намного полезнее и пользователь останется на сайте где есть удобный поиск по параметрам и описание значимых характеристик более охотно чем на сайте с таким маркетинговым буллшитом. Конечно маркетинговый буллшит лучше просто названия товара + цены, наверное, но чисто на субъективном уровне.

                Ну к счастью мало помалу поисковики борются с этим и банят такие сайты в выдаче.


                1. Durham
                  04.12.2015 12:58
                  -2

                  К слову табличка с основными данными намного полезнее и пользователь останется на сайте где есть удобный поиск по параметрам и описание значимых характеристик более охотно чем на сайте с таким маркетинговым буллшитом


                  Учитывая наблюдаемый результат, что пользователь охотнее остается на сайте со сгенерированными текстами, нежели на сайте с табличкой, и предполагая ваш тезис верным, остается сделать вывод, что тексты не содержат «маркетинговый буллшит».

                  Вообще, спорить с вами бесполезно — как только у вас кончаются аргументы против, вы незаметно переводите тему на другую. Сначала говорили, что тексты предназначены для роботов а не для людей, что они нечитабельны для человека. Теперь не устраивает, что тексты рекламного характера и побуждают людей к покупке. Второй тезис никак не следует из первого, более того, эти тезисы не совместимы. Так мы дойдем до того, что автоматические тексты вредны, потому что расходуют электричество и способствуют глобальному потеплению.

                  В статье я задал простые вопросы:
                  1. Можно ли создавать автоматические тексты, которые не попадают под санкции поисковых систем?
                  2. Считают ли пользователи автоматические описания полезными?
                  3. Улучшают ли уникальные описания ранжирования интернет-магазина в поиске?
                  Я мог бы, подобно многим, придумать ответы и к ним объяснения. Типа «мне кажется, что таблица полезнее, значит всем так кажется». Вместо этого я поставил определенные опыты, чтобы получить настоящие ответы:
                  1. Да
                  2. Вероятно да, считают
                  3. Данных в пользу этого не выявлено

                  Результаты опытов я и изложил в статье, потому что они показались мне интересными. Да, факты противоречат внутренней картине мира многих комментаторов, что поделать у фактов есть такое свойство. Вообще для меня вполне естественно, что проще прочитать краткое, просто написанное описание, чем копаться в длинной таблице непонятных параметров. Описание дает еще и объяснения, обращает внимание на важные моменты и оно не является обманом, поскольку точно соответствует техническим параметрам изделия.

                  Возможно, в нынешнем виде описания не идеальные, там не очень много разъяснений, есть погрешности в предложениях, ненужные фразы. Но это шаг в правильном направлении — направлении повышения качества информации на сайте. Я не понимаю, почему эта простая мысль так трудна для восприятия, но видно что-то так сильно засело в общественном сознании. И вместо обсуждения того, как сделать тексты лучше (разумного подхода), опять имеем массу бессмысленного негодования.


                  1. VenomBlood
                    05.12.2015 00:40
                    +1

                    Учитывая наблюдаемый результат, что пользователь охотнее остается на сайте со сгенерированными текстами, нежели на сайте с табличкой, и предполагая ваш тезис верным, остается сделать вывод, что тексты не содержат «маркетинговый буллшит».
                    Результаты исследования в студию. У меня есть куча контрпримеров к вашим словам.
                    Вообще, спорить с вами бесполезно — как только у вас кончаются аргументы против, вы незаметно переводите тему на другую.
                    Нигде не перевожу. У вас рекламные тексты, являющиеся мусором и созданные для повышения поисковых позиций, т.е. предназначены в том числе и для роботов, я бы сказал даже в первую очередь для роботов — потом уже чтобы доверчивым людям втридорога впаривать ерунду от магазина, которые при первой же проблеме испарится.

                    В статье я задал простые вопросы:
                    1. Можно ли создавать автоматические тексты, которые не попадают под санкции поисковых систем?
                    2. Считают ли пользователи автоматические описания полезными?
                    3. Улучшают ли уникальные описания ранжирования интернет-магазина в поиске?
                    Я мог бы, подобно многим, придумать ответы и к ним объяснения. Типа «мне кажется, что таблица полезнее, значит всем так кажется». Вместо этого я поставил определенные опыты, чтобы получить настоящие ответы:
                    1. Да
                    2. Вероятно да, считают
                    3. Данных в пользу этого не выявлено

                    1. — Можно, раз ИИ возможен то 100% можно. Но то что вы описали — это очень вряд ли, вопрос в том сколько человек пожалуется прежде чем вас вручную выкинут из поиска
                    2. Такие как у вас — менее полезны чем нормальная табличка. Конечно лучше чем просто картинка, но еще они по сути вредоносные так как через слово содержат «это лучшая причина купить прямо сейчас» и подобную маркетинговую дрянь
                    3. Уникальные качественные, а не маркетинговая абракадабра у которой даже падежи не согласуются

                    Вообще для меня вполне естественно, что проще прочитать краткое, просто написанное описание, чем копаться в длинной таблице непонятных параметров.
                    Чушь. Фраза «давление 1 бар» и табличка «Давление: 1 бар» ничем не отличаются по «понятности». Только табличку можно сравнивать и фильтровать по ней. Если в табличке куча параметров которые непонятны — в описании они более понятными не станут очевидно.

                    И вместо обсуждения того, как сделать тексты лучше (разумного подхода)
                    Потому что надо выкинуть маркетинговый мусор из текстов, тогда бы и нападок небыло. А говорить что «Х — лучшая причина купить Y прямо сейчас в кредит» — «автоматическое описание» а не маркетингово-SEOшная дрянь может только слепой. Уберите это и будет отношение нормальное.


                    1. Durham
                      06.12.2015 15:06
                      -2

                      Я же говорил, нет смысла спорить. Сейчас это наглядно видно. Вы используете цитаты которых нет в генерируемых текстах: «Х — лучшая причина купить Y прямо сейчас в кредит» — вы придумали сами. Я должен это комментировать? «впаривать ерунду от магазина, которые при первой же проблеме испарится» — абсолютно голословное обвинение, еще и магазина вдобавок. Это мягко говоря не культурно — вы оскорбляете людей про которых ничего не знаете. Ну а фраза «Можно, раз ИИ возможен то 100% можно. » — это набор слов выдающий либо вопиющую некомпетентность в вопросе, или намеренный расчет на таковую аудитории. Искусственный интеллект это плохо очерченная область исследований алгоритмов, включающая кучу всего, и выражение «раз ИИ возможен» смысла не имеет. На сем диалог с вами я прекращаю.


                      1. VenomBlood
                        07.12.2015 00:12
                        +2

                        Завираетесь товарищ, завираетесь. Вот это чьи слова? Хоть статью свою прочитайте перед тем как врать.

                        «Бесплатная доставка и, конечно, надежное, проверенное временем, качество популярного немецкого бренда — это наиболее важные причины купить смеситель для мойки XXX именно сейчас».

                        Под ИИ конечно имелся ввиду сильный ИИ — это очевидно из контекста.


                1. Durham
                  04.12.2015 13:07
                  -2

                  Ну к счастью мало помалу поисковики борются с этим и банят такие сайты в выдаче
                  , кстати говоря, не делают поисковики этого. Они не имеют к этому средств, а часто и желания. В плане того, что сайты содержащие информацию рекламного характера, или даже неверную информацию, не блокируются, и даже не опускаются в выдаче. Если к примеру, ввести запрос «как заработать на онлайн казино», вы не получите ответ, что «заработать на казино нельзя, это может только хозяин казино». Вы получите много «инструкций» как за 10 мин играя в онлайн рулетку получить кучу денег. Это природа поиска — вы получаете то, о чем спрашивали. Вот это действительно проблема, над которой надо думать.


                  1. VenomBlood
                    05.12.2015 00:32
                    +2

                    Понижаются в выдаче сайты которые имеют релевантность ниже чем та за которую себя выставляют (как сайт из вашей статьи). «как заработать на онлайн казино» — тут релевантных результатов по сути и нету, отсеивать 99% мусора из выдачи — тяжело. В случае с вашим сайтом — релевантные результаты есть по запросам, и мусора отсеивать надо не так много.
                    Касательно конкретно понижения мусора который вы продвигаете — ну попробую написать жалобу в поисковики, может и отреагируют.


  1. gusev
    30.11.2015 21:50
    +2

    Сколько в итоге получается стоимость одного текста и/или 1000 знаков?
    Возможно, ли получить на текущей технологии «похожего качества» текст, но для информационных запросах с плотным топом ПС, как пример запрос «как залить фундамент»
    Берем топ 10 Яндекса по запросу распаршиваем получаем 10 корпусов методом автоматического перефразирования
    1. research.microsoft.com/en-us/downloads/607D14D9-20CD-47E3-85BC-A2F65CD28042/default.aspx
    2. aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_%28State_of_the_art%29
    только для русского языка


  1. oleg0xff
    30.11.2015 23:00
    +2

    сайт не попал под санкции поисковых систем, хотя к тому имелись теоретические основания
    А не боитесь что представители яндекса вас почитают и вручную добовят в бан?


    1. ServPonomarev
      01.12.2015 07:35
      +2

      Это не спортивно. Пусть допиливают свой детектор.


    1. Durham
      01.12.2015 13:18
      +1

      Я не знаю, какую угрозу представляет пользователям сайт reviewdot.ru – его смысл собирать отзывы по всему интернету и делать из них выжимку – показывать главные плюсы и минусы. Да, результат приводит к тому, что на сайте проблема с уникальным контентом, на само по себе дело полезное. Конечно, в Яндексе могут посчитать иначе, но надежда на здравый смысл. Мы не скрываем то, что мы делаем, если кто-то считает, что это не правильно – ну так тому и быть.

      Вообще, как мне кажется, история с reviewdot поучительная. Вначале мы сделали просто обобщение с использованием цитат из исходных отзывов. Вроде бы дело полезное и нужное. Людям, которых мы спросили нравилась эта функция – можно было видеть подводные камни многих товаров, казавшихся хорошими на первый взгляд. Я сам выбирал стиральную машину для покупки используя раннюю версию алгоритма, и до сих пор доволен выбором.

      Но развивать такой сайт оказалось невозможно – страницы не индексировались – содержимое ведь не уникальное. И нет разницы, что подборка имеет самостоятельную ценность. Специалисты по SEO посоветовали заказать уникальных статей на нереальную кучу денег и еще ряд подобных мер.

      Мы начали развивать генератор уникальных текстов, чтобы обойти проблему и заниматся другими проектами. Постепенно reviewdot отошел на второй план и остался как хобби, и как удобная испытательная площадка. Сейчас посещаемость подросла и индексация улучшилась, но поезд ушел. А могло бы получится реально полезное дело.

      Но поисковики же всегда хорошие, а авторы неуникального/автоматического текста всегда плохие, а борцы за чистоту интернета всегда правы. Вот так…


  1. skusnov
    01.12.2015 12:09
    +1

    Отличный научный эксперимент!
    Проблема может оказаться только в будущем, если поисковики усовершенствуют механизмы распознавания сгенерённых текстов. Хотя если начать генерить тексты по одному алгоритму для сайтов массово, тогда санкции вероятны ещё быстрее.
    ИМХО, система будет жить и эффективно работать, пока она малораспростронена.
    Скажите, а в Гугле проблемы с индексацией страниц были?


    1. Durham
      01.12.2015 12:57
      +1

      Спасибо на добром слове. Нет в Гугле вообще нет таких проблем, даже не особо уникальные страницы нормально проиндексировались. Впечатление такое, что разработчики Гугла намного меньше озабочены вопросом уникальности текста. Что, возможно, имеет под собой основания – качество поиска от этого сильно не страдает, зато не создается нездоровый ажиотаж вокруг уникального контента.