Всем привет! Меня зовут Михаил Шумовский, я редактор медиа Unisender и нейроэнтузиаст: плотно погрузился в тему год назад и даже завел Telegram-канал про нейросети в маркетинге.
Если кто-то последние полгода-год искал авторов для своих проектов, точно видел странные отклики. В которых где-то после двоеточий шли большие буквы, а где-то были очень странные формулировки и слова. Я тоже столкнулся с такой ситуацией — люди пишут текст с помощью нейросети и отправляют его как есть (в надежде, что заказчик дурачок и будет платить просто так, хе-хе).
Стал разбираться и попробовал десятки сервисов для проверки «человечности» текста. Рассказываю, как вычислить сгенерированный текст, и что будет с контентным проектом, если там будет сплошной «нейрокопирайтинг».
Почему нельзя публиковать сгенерированные тексты
Глобально причины 3.
1 — поисковые системы негативно относятся к сгенерированному контенту. Например, Google уже удаляет из выдачи или пессимизирует сайты со сгенерированным контентом. В результате сайт теряет посетителей, клиентов и доход от рекламы.
В исследовании Originality рассказывали, что все деиндексированные сайты в 100% случаев содержали признаки использования ИИ для генерации контента.
2 — нейросети врут. Точнее, галлюцинируют. Это значит, что они придумывают несуществующие факты и цифры и уверяют, что это правда. Причина простая: в «мозгах» нейросети заложено, что она обязана помогать людям и должна делать это любыми способами. В итоге, когда в ее базе нет ответа на конкретный вопрос, она придумывает ответ, чтобы помочь человеку.
Для примера я попытался найти исследование о вреде компьютерных мышей (я не знал, есть ли такое исследование). И бот его нашел!
3 — пользователи не любят сгенерированный контент. А теперь следите за руками: нейросети не придумывают контент → они перерабатывают существующий → 80% информации в интернете — это вода → нейросети перерабатывают воду и выдают ее же. Поэтому проблема не в том, что нейросети плохо пишут. А в том, что они перерабатывают сомнительные тексты и создают такие же.
Чтобы не навредить репутации и сайту, контент нужно проверять на ИИ. Для этого есть специальные сервисы, которые анализируют материалы и оценивают вероятность генеренки. Для тестирования таких сервисов я сгенерировал текст про инвестирование через управляющие компании. Проверять буду две версии: полностью сгенерированную и отредактированную вручную.
Полные версии можно посмотреть в отдельном Google-документе.
Crossplag
Ссылка: https://app.crossplag.com/individual/detector
Вычисляет нейросеть: да, но если текст не редактировали.
Простой сервис, который работает без регистрации. Устроен просто: загружаете текст объемом до 3000 слов и нажимаете на «Check».
Сервис сканирует текст и ищет детали, которые могут выдать нейронку. А потом дает заключение: текст написан человеком, AI или это микс.
Я загрузил 2 текста, оба из них нейронка посчитала человеческими.
Потом я проверил текст по частям и в первой же проверке Crossplag на 100% посчитал текст сгенерированным. Это был текст, который я не редактировал:
Отредактированный текст тоже оказался сгенерированным:
Я пошел дальше и проверил часть этой статьи в Crossplag. И она тоже оказалась сгенерированной, хотя ее я писал руками. Честно!
Вывод — Crossplag нельзя верить. Большие тексты он считает человеческими, а маленькие — сгенерированными.
Но есть и плюс. Я проверил еще один плохо написанный большой текст и нейронка не ошиблась, посчитала его сгенерированным.
Стоимость. Если тоже хотите протестировать сервис, платить не придется. После регистрации дают 10 кредитов на проверку текстов. Но пока что после проверок кредиты не снимаются.
GPTZero
Ссылка: https://gptzero.me/
Вычисляет нейросеть: да, но если текст плохо написан. Все, что считает на 50% человеческим и ниже можно считать сгенерированным. А все, что считает сгенерированным на 30% и выше, должно насторожить. Возможно, текст действительно писали с нейронкой.
Сервис работает как и Crossplag: вставляем текст до 5000 символов и нажимаем на «Scan». Через пару секунд появится результат и 3 раздела проверки: «Result», «Deep Scan», «Sources».
На вкладке «Deep Scan» можно проверить, какие именно фрагменты текста сгенерированы нейросетью, а какие слова встречаются чаще остальных. На вкладке «Sources» сервис покажет, с какими референсами совпадает текст.
Полностью сгенерированный текст сервис посчитал на 30% нейросетевым. Уже лучше, чем результат Crossplag.
А вот отредактированный текст сервис посчитал нейросетевым на 37%.
Ему не понравились некоторые подзаголовки и предложения, которые не были отредактированы.
Ради теста я снова проверил текст, который вы сейчас читаете и он оказался сгенерированным на 26%. Сервису не понравился подзаголовок и вводное слово «точнее».
В общем, на GPTZero нельзя положиться на 100%. Но к нему можно прислушаться и проверить, какие именно части текста он считает сгенерированными.
Стоимость. Бесплатно можно проверить статьи размером до 5000 символов. Чтобы проверить большой текст, придётся оформлять подписку за $15 в месяц.
PR-CY
Ссылка: https://pr-cy.ru/tools/ai-content-detector/
Вычисляет нейросеть: да. Но лучше справляется с небольшими текстами.
Это отечественный сервис, который неплохо распознает нейронный текст. Возможно, причина как раз в том, что его учили сканировать тексты на русском языке и поэтому он лучше понимает, как мы пишем.
По стандарту я сначала загрузил в сервис большой сгенерированный текст. Тот сказал, что текст, вероятно, на 43% нейросетевой. И при этом написал, что текст, скорее всего, нейронкой не создан.
Отредактированный текст он тоже посчитал человеческим. Вероятность нейронки — 35%. (Не зря редактировал).
Раз по большим текстам сервис вычислить нейронку не может, проверяю короткие.
Получилось! Короткий сгенерированный текст нейронка на 69% посчитала ненастоящим.
А отредактированный — на 21%.
Получается, PR-CY лучше остальных сервисов понимает, где текст полностью сгенерирован, и его заключениям можно верить. Но я человек мнительный, поэтому снова загрузил текст, который вы сейчас читаете. И вот что получилось.
Нейронка не ошиблась и сказала, что текст точно писал человек. Вывод — PR-CY можно доверять, но проверять нужно небольшие фрагменты текста.
Стоимость. После регистрации дают 10 лимитов, которых хватит на проверку около 9 тысяч символов. Докупить лимиты можно за 500 рублей — дадут 1000 штук.
Пока я писал этот текст, протестировал еще десяток AI-детекторов. Но они с задачами не справились и любые тексты считали на 100% человеческими. Поэтому их в подборку не брал, а оставил эти 3. К их заключениям хотя бы можно прислушиваться.
Как вручную проверить текст на генерацию
Нейронки это хорошо, но человеческий ум — круче. Поэтому лучший способ вычислить генерацию — проанализировать текст самостоятельно и думать как нейронка.
Давайте разберемся на конкретном примере. Только в этот раз — на примере текста про маркетинговый анализ.
Вроде бы текст грамотный, с фактурой и примерами. Но если присмотреться, сразу видно несколько недочетов:
Бот использует странные формулировки. Например, «это как магический кристалл, который показывает, что происходит…». Вряд ли живые специалисты используют такие сравнения.
Бот неправильно использует слова-связки. Слова-связки — это союзы, союзные слова и частицы. Обычно их используют в тексте, чтобы связать предложения между собой и не нарушить плавность повествования. Но если выбрать неправильную связку, плавность повествования нарушится. Например, бот написал: «Маркетинговый анализ помогает принимать верные решения, ведь он позволяет заглянуть…». В русском языке обычно так не говорят.
Бот пишет с большой буквы после двоеточия. По правилам русского языка после двоеточия нужно писать с маленькой буквы, если это не имя нарицательное или прямая речь. Именно эта деталь — любимый прием нейросетей. Они всегда пишут с большой буквы после двоеточия, пока не запретить им этого делать.
В целом все ошибки нейросети можно уместить в главные 4 пункта:
Много много воды и общих фраз — нейросети любят использовать много причастий, деепричастий и отглагольных существительных.
Много повторов одних и тех же слов, словосочетаний или принципов построения предложений.
Все новые строки начинаются с отглагольных существительных и заканчиваются двоеточием. Это главный признак того, что текст сгенерирован нейросетью.
В предложениях нет согласования. Нейросеть может написать: «текст для различных платформ — социальные сети…». Хотя правильно писать «текст для различных платформ — социальных сетей…».
Если тщательно проанализируете текст по ним, с большой вероятностью вычислите нейронный текст.
Бонус: как проверить текст с помощью нейросетей
Еще один вариант проверить текст — показать его нейросети и попросить проанализировать его. Для этого нужно отправить боту текст вместе с таким запросом:
Проанализируй этот текст и скажи, он сгенерирован нейросетью или нет. Принцип, по которому нужно проверить текст:
1) Много много воды и общих фраз — нейросети любят использовать много причастий, деепричастий и отглагольных существительных.
2) Много повторов одних и тех же слов, словосочетаний или принципов построения предложений.
3) Все новые строки начинаются с отглагольных существительных и заканчиваются двоеточием. Это главный признак того, что текст сгенерирован нейросетью.
4) В предложениях нет согласования. Нейросеть может написать: «текст для различных платформ — социальные сети…». Хотя правильно писать «текст для различных платформ — социальных сетей…».
Бот прочитает текст с точки зрения каждого пункта и сделает заключение. Работает способ не всегда, но в целом использовать его можно.
Например, полностью сгенерированный текст нейросеть вычислила:
При проверке сгенерированного и отредактированного текста ChatGPT удивил: он предположил, что текст был написан совместно с нейросетью, а потом его отредактировали.
Что в итоге
Нейронки пишут все лучше и лучше. И скоро их тексты будет сложно отличить от человеческих.
Но пока этого не произошло, нужно использовать проверку на ИИ. Если по тексту заметно, что он сгенерирован — стоит переделать, чтобы не рисковать позициями в выдаче и доверием поисковых систем. А если по тексту непонятно, что он сделан нейронкой, в нем есть иллюстрации или другой визуальный контент, комментарии живых людей, цитаты, ссылки на исследования и т.п. — можно не переживать. Такой текст будет полезен читателям и не смутит поисковые системы. Даже если для его создания тоже применяли нейросети.
На этом все. Теперь интересно узнать ваше мнение: какие еще детали выдают сгенерированные тексты, о которых я не упомянул в статье?
ednersky
Недавно на AT (на секундочку, ресурс, где люди публикуют свои произведения: рассказы, романы, итп) был тред о том, что стали проверять эти "проверяльщики" на то правильно ли они определяют "не сгенерирован ли текст AI".
Так вот, там несколько авторов засовывали в чекер свои тексты и им система говорила "они на 80-90% сгенерированы AI".
И вроде бы ничего, можно было бы сказать "это плохие авторы", но нет.
Это нейросети хорошие. Что такое нейросеть? Усреднение между N текстами, при том, что N стремится к бесконечности (или просто большое число). И рано или поздно отличить текст от нейросети от текста человека будет нельзя.
white-wild
Да в целом генерация нейросетями крутой инструмент, но нужно добавить самопроверку, чтобы не "галюцинировали".
ednersky
когда писатель придумывает нестандартный сюжет, художник — необычную картину, то все они эта
галлюционируют, вот