Как защитить свои тексты от ChatGPT и других ИИ-ботов / forpes.ru

Главная
Как защитить свои тексты от ChatGPT и других ИИ-ботов

Как защитить свои тексты от ChatGPT и других ИИ-ботов +1

05.01.2025 19:49

NeyroEntuziast 22 2400 Источник

Как защитить свои тексты от ChatGPT и других ИИ-ботов. Вот почему вы должны это сделать, и я обещаю, что это не сложно и не страшно

Большинство людей не осознают, какой огромный объем слов требуется для обучения ИИ-программ, таких как ChatGPT или Claude. Когда два года назад была запущена первая версия ChatGPT, она была обучена примерно на 300 миллиардах слов.

Скажите это людям, и они не смогут понять, насколько это огромная цифра. Миллиард - это такое большое число, что большинство людей не могут осознать его. Вот вам сумасшедшая математика. Если бы вы писали по тысяче слов в день, каждый день без перерыва, то на написание миллиарда слов ушло бы 2 740 лет.

Теперь умножьте на триста. Потому что триста миллиардов слов были использованы для обучения ИИ-движка, который управляет ChatGPT. И они не спрашивали разрешения ни на одно из этих слов. Просто помогли себе сами.

Вот что касается обучения ИИ-программ. Качество написанного имеет значение. Билл Гейтс и Microsoft научили нас этому.

До ChatGPT компания Microsoft обучила своего первого ИИ-чатбота в Twitter. Они отключили его менее чем за сутки. Затем The Verge опубликовал статью под названием «Twitter taught Microsoft’s AI chatbot to be a racist a**hole in less than a day. (Twitter научил ИИ-чатбота Microsoft быть расистским мудаком менее чем за день)». Весь мир смеялся, слыша, как робот говорит как сексистский и расистский тролль в социальных сетях.

Поэтому, когда OpenAI только начинал работать, они знали, что им нужна качественная литература. И не просто качественная. Поэтому они перелопатили весь интернет, взяв текст из книг, СМИ, онлайн-статей, научных работ, Википедии и многого другого.

Первой в суд подала медиакомпания The New York Times. Согласно иску, поданному в декабре прошлого года, OpenAI перелопатила миллионы их статей и иногда ChatGPT выдает фрагменты их текстов дословно.

Легко сказать, что это всего лишь мешанина слов. Пока этого не происходит. Пока фразы и куски текста будут выдаваться дословно.

Интересно, как бы вы себя чувствовали, если бы это была ваша статья.

Как бы вы себя чувствовали, если бы ChatGPT использовал куски текста, которые вы написали, а они взяли без разрешения. Ведь именно это буквально происходит с авторами, которые пишут для The New York Times. И теперь дело дошло до суда.

Я не знаю, как у вас обстоят дела с финансовой точки зрения, но у ChatGPT дела идут очень хорошо, поскольку они никогда не имели законного права использовать чужие произведения. OpenAI заработала триста миллионов в августе и ожидает получить 3,7 миллиарда долларов в 2024 году, согласно документам, изученным The New York Times.

В ChatGPT более 10 миллионов пользователей платят 20 долларов в месяц. Кроме того, они зарабатывают еще миллиард на сторонних компаниях, которые используют OpenAI для создания сервисов. По прогнозам OpenAI, к 2029 году их доход достигнет 100 миллиардов долларов.

Но у них есть небольшая проблема.

У них заканчиваются тексты для обучения ИИ.

В новом исследовании, опубликованном этим летом исследовательской группой Epoch AI, говорится, что компании, работающие с искусственным интеллектом, могут исчерпать запасы контента, созданного людьми, уже в 2026 году, а если у них закончится свежий контент, они рискуют оказаться в стагнации. Им нужен постоянный приток текстов, чтобы продолжать совершенствовать свою программу.

В исследовании говорится, что платить миллионам людей за создание объема текста, который необходим ИИ-моделям для постоянного роста, «вряд ли будет экономичным способом» повышения производительности.

Тамай Бесироглу, автор исследования, говорит, что ИИ может столкнуться с трудностями в сохранении нынешних темпов прогресса, когда исчерпает запасы созданной человеком информации. (источник: репортаж PBS)

Что вполне логично. Просто брать чужие тексты, не спрашивая разрешения и не выплачивая компенсацию, выгоднее, чем платить писателям.

Теперь давайте поговорим о том, как вы пишете. По правде говоря, единственный способ быть на 100% уверенным в том, что ни один робот ИИ не сможет воспользоваться вашими текстами, - это писать в блокноте. Но для большинства из нас это неприемлемое решение. Да и не нужно. Особенно если писательская деятельность помогает зарабатывать на жизнь.

Поэтому давайте поговорим о доступном решении.

Потому что оно очень простое. Просто маленький текстовый файл. Как в блокноте.

Когда вы пишете в Интернете, ваши файлы хранятся на сервере. На каждом сервере есть маленький текстовый файл robots.txt - просто маленький текстовый файл, который указывает роботам, что им можно, а что нельзя. Они не всегда прислушиваются. Но чаще всего прислушиваются.

В этом текстовом файле вы увидите инструкции, которые выглядят примерно так:

User-agent: GPTBot

Disallow: /

Нужно понять три составляющие, и это очень просто.

User-agent - это имя робота. Например, GPTBot.
Disallow: означает NO.
Слэш означает весь сайт или аккаунт.

Вот что интересно. Вы можете просмотреть их практически для любого сайта или учетной записи пользователя в Интернете. Просто введите /robots.txt после любого доменного имени или учетной записи пользователя.

Вот пример из моего Substack:

Как видите, мой Substack сообщает ChatGPT и ИИ Google, как Bard, так и Vertex AI, что им запрещено обучаться на моих текстах в Substack.

А теперь посмотрите на тот, что для Twitterbot. Видите, что здесь нет слеша?

Это значит, что Twitterbot ничего не запрещено. Twitterbot может читать и получать доступ ко всему и вся на моем Substack. Слэш очень важен. Он буквально означает, что все на моем аккаунте запрещено.

Важно знать, что на Substack ИИ-боты НЕ блокируются по умолчанию. В Substack по умолчанию включено «обучение ИИ». Вам нужно войти в систему, перейти в Settings > Privacy и отключить «allow AI training».

Некоторые сайты блокируют просмотр файла robots в учетных записях пользователей. Я получаю ошибку 404 при попытке просмотреть файл robots.txt для учетных записей пользователей на Newsbreak и Vocal Media. Но вы можете посмотреть файл robots.txt на родительском сайте и предположить, что настройки вашей учетной записи, скорее всего, такие же.

Вот файлы robots.txt для Newsbreak и Vocal.

Видите звездочку? Это значит, что все роботы. Newsbreak запрещает всем роботам доступ к определенным каталогам, не содержащим контента.

Было бы упущением не рассказать вам о другом способе блокировки роботов, который находится в файле под названием .htaccess. Этот файл не доступен для публичного просмотра. Поэтому я не могу с уверенностью сказать, что Newsbreak и Vocal предоставляют открытый доступ ИИ-роботам. Я знаю только, что они не блокируют их в своем файле robots.txt.

Это заставляет меня задуматься. Если они блокируют обучение ИИ через .htaccess, почему бы им также не добавить это в файл robots, который проверяют все роботы в Интернете? Технический персонал должен знать, как это сделать.

Если вы пишете на одном из этих сайтов, возможно, стоит отправить письмо в службу поддержки, чтобы узнать их позицию по поводу обучения ИИ на вашем сайте.

Если у вас есть собственный сайт, например, на wordpress, у вас есть больше возможностей для контроля, чем на сторонних сайтах. На собственном сайте вы можете заблокировать всех известных ИИ-ботов.

Существует несколько способов получить доступ к файлу robots.txt.

Если вы используете плагин Yoast SEO, вы можете получить доступ к нему из боковой панели wordpress по адресу Yoast > Tools > File Editor (Yoast > Инструменты > Редактор файлов)

Если вы не используете Yoast, но у вас есть ftp-доступ, этот файл находится в корне сайта. И если вы не знаете, что это значит, и не разбираетесь ни капли в технических вопросах, ничего страшного.

Если вы не разбираетесь в технических тонкостях, бесплатный плагин WP Robots Txt очень прост и не требует никаких технических знаний. Просто перейдите в раздел Plugins>Add New (Плагины>Добавить новый). Затем введите WP Robots Txt и нажмите кнопку «Install (Установить)».

Как только вы откроете файл robots.txt, скопируйте и вставьте это:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

Убедитесь, что они отображаются так, как на примере. User-agent в одной строке, disallow в строке ниже. Убедитесь, что после disallow стоит косая черта. Затем сохраните.

И если у вас ничего не получается, свяжитесь со службой поддержки вашего хостинга и спросите, смогут ли они вам помочь. Многие из них помогут.

Есть еще один робот, которого вы, возможно, захотите запретить, но о нем я расскажу отдельно. Он называется Common Crawl и существует с 2007 года. Common Crawl был создан с самыми лучшими намерениями.

Это крошечная некоммерческая организация 501(c)(3), управляемая одним человеком, которая стремится сделать копию всего, что есть в Интернете, чтобы компании и частные лица могли использовать ее для исследований и анализа. Согласно FAQ, данные Common Crawl использовались для улучшения программ перевода языков, предсказания тенденций, отслеживания распространения болезней и многого другого. Создано с пользой для дела.

Условия очень четкие. Они гласят, что пользователи должны соблюдать все местные, государственные, национальные и международные законы. Пользователям запрещается использовать данные Common Crawl для нарушения чьих-либо прав на интеллектуальную собственность.

Но, несмотря на эти условия, именно этим воспользовалась OpenAI. Мы не могли заниматься самостоятельным сканированием таких крупных сайтов, как The New York Times и Wikipedia. Мы просто поработали с базой данных Common Crawl.

Именно так крошечная некоммерческая организация 501(c)(3), состоящая из одного человека, оказалась указана в качестве ключевого игрока в деле о нарушении авторских прав New York Times против OpenAI.

Факт в том, что им не нужны мои статьи в их базе данных. У меня нет контента, меняющего мир, и я не задаю в одиночку никаких глобальных или национальных трендов.

Если вы хотите запретить Common Crawl, просто вставьте это в свой файл robots.txt:

User-agent: CCBot

Disallow: /

Я надеюсь, что New York Times выиграет дело. Думаю, что их примеру последуют и другие крупные компании, которых обокрали. Пока какой-нибудь судья не скажет им, что они должны соблюдать законы об интеллектуальной собственности.

А до тех пор закрывать двери и окна - единственный выход для авторов. Поэтому проверьте свой сайт, если он у вас есть. Проверьте сайты, на которых вы пишете. Если они не блокируют роботов, напишите им и спросите, почему.

Комментарии (22)

sentimentaltrooper
05.01.2025 20:13
#27746996
Если что то мы только до НГ сдали локальную multi-agent систему (с RAGs, OCR и ламой) которая по сути парсит неструктурированные сканнированные документы (т.е. изображения) и на основе информации в них строит всякие вектора анализа. Конкретно это было для финтеха. Но я скорее к том, что если ваш бумажный блокнот оцифрован, то страшный ИИ до него рано или поздно доберется.

Как видите, мой Substack сообщает ChatGPT и ИИ Google, как Bard, так и Vertex AI, что им запрещено обучаться на моих текстах в Substack.

Он им говорит: мой автор типа самый умный, поэтому в выдаче особо не палитесь - выдайте не цитату, а пересказ в другом стиле.
1. pavelsha
  05.01.2025 20:13
  #27747614
  Не клюйте автора(публикатора статьи) слишком сильно...
  
  "Мопед не его, он только перевел объяву"

dyadyaSerezha
05.01.2025 20:13
#27747032
Просто брать чужие тексты, не спрашивая разрешения и не выплачивая компенсацию, выгоднее, чем платить писателям.

Неверно. Брать чужие тексты просто уже негде - всё уже взяли. Что и сказано ранее в статье.

Но уверен, что скоро найдут другой способ обучения. Например, подключить видеокамеры и прочее. Ну и сам процесс общения ИИ с его пользователями является обучением.

kareon
05.01.2025 20:13
#27747086
Эти способы слишком тривиальны. Если кто-то действительно захочет обучать ИИ на текстах с вашего сайта, он забьет на все эти robots и прочие проверки. Все, что может прочитать в интернете человек, сможет прочесть и робот. Да и личные сайты сейчас давно прошли пик популярности, все люди, которые действительно зарабатывают на контенте, делают это через соцсети и видеоплатформы. Вот как там ввести запрет на использование своего контента для обучения? Это хороший вопрос.
1. NeyroEntuziast Автор
  05.01.2025 20:13
  #27747120
  Там запретить могут только владельцы соцсетей и видеоплатформ
  1. pavelsha
    05.01.2025 20:13
    #27747634
    Владельцы соцсети уже забрали у авторов контент и используют в своих «капиталистических» целях. Монетизируют, монетизировали и будут монетизировать дальше.
    
    Давайте отвлеченный пример возьмем:
    
    В городке на Диком Западе открылось новое казино с девочками, блэкджеком и прочим. Но тут владельцы старых салунов начинают жаловаться, что из-за этого новомодного заведения у них упала выручка. Кого будем жалеть? Обяжем жителей выпивать в салунах не менее 3 пинт пива ежедневно? Запретим девочкам-танцовщицам увольняться из труппы при барах и переходить в кабаре при казино?

aeder
05.01.2025 20:13
#27747182
Не беспокойтесь, проблема уже решена автоматически.

Большую часть контента в сети уже генерируют боты.

Соответственно, как бы не исхитрялись владельцы ИИ - обучаться им будет нечем, так как обучение на сгенерированном контенте приводит к маразму ИИ.
1. gfiopl8
  05.01.2025 20:13
  #27747496
  Есть гигантские залежи данных, на которых ИИ могут обучаться - 14 млрд роликов на YouTube. С текущими скоростями их будут пережёвывать до второго пришествия. Каждый кадр надо извлечь и описать, каждую группу кадров, а ещё научиться их рисовать и предсказывать. То же самое с аудио и их комбинациями. Все крупные модели уже давно мультимодальные, так что им всем есть чем заняться на уроках.
  
  С точки зрения предсказания кадров есть интересная особенность: видео обычно не врёт, то есть то, что происходит на видеозаписи, работает строго по законам физики, так что предсказания могут работать намного лучше, чем с текстом, который писали люди, у которых не всё так однозначно.
  1. saege5b
    05.01.2025 20:13
    #27747714
    Это смотря какие каналы смотреть на ютубе.
    
    Так то там лютой дичи более чем хватает.

kenomimi
05.01.2025 20:13
#27747194
На мой взгляд, тот, кто не дает свое творчество на обучение нейросетей, должен публично отречься от их использования, желательно под залог всего своего состояния. Они же ему не нужны, верно, раз он так себя ведет? Пусть выбросит айфон, удалит все учетки, где потенциально используются нейросети, и сидит с мормонами в коровнике, пишет свои шыдевры в тетрадке. По идее, тоже самое касается любых пользовательствких данных, не содержащих идентифицирующих/секретных данных (пароли, телефоны, ФИО, ...) - не хочешь обучения нейросеток - откажись от сервиса.

Иначе получим отказ от прогресса ради сиюминутной прибыли отдельных личностей. Причем стоит появиться прецеденту - и всё, дальше в суд побегут всей толпой, и обучать будет не на чем.
1. kareon
  05.01.2025 20:13
  #27747324
  А почему этот прогресс должен быть за счет данного человека? Может, он и вообще не пользуется вообще нейросетями, или пользуется, скажем, айфоном, но без функции нейросетей. Мне кажется, справедливо будет выплачивать некое роялти владельцам контента. Если раньше можно было написать, условно, сотню статей на какую-то популярную тему и получать доход за счет рекламы, то теперь информацию этих статей читатели получают в пересказе нейросети, а автор контента получает ноль... И смысл ему дальше трудится над контентом?
  1. avost
    05.01.2025 20:13
    #27747390
    Если раньше можно было написать, условно, сотню статей на какую-то популярную тему и получать доход за счет рекламы, то теперь информацию этих статей читатели получают в пересказе нейросети, а автор контента получает ноль...
    
    А у вас не возникало вопроса почему читатели предпочитают читать нейросетевой пересказ, а не сотню водяных малосодержательных статей, написанных исключительно ради продажи рекламы?
    
    И смысл ему дальше трудится над контентом?
    
    Действительно! Может ему пора завязывать трудиться над мусорным контентом?
    Смысл существования копирайтеров - "генераторов контента" околонулевой, фактически, они просто паразитируют на средствах распространения информации. Ну, да, как и нейросети. Только нейросеть можно скомандовать сгенерить саммари, а мусорных статей копирайтеров придётся перелопатить всю сотню, чтобы получить тот же объём значимой информации.
    
    N-Cube
    05.01.2025 20:13
    #27747632
    Это вы книги Дональда Кнута, к примеру, назвали «мусорным контентом»? Будьте любезны, покажите свое творчество, иначе возникают обоснованные сомнения в вашем психическом здоровье и общей адекватности, если не сказать прямо.
    
    pavelsha
    05.01.2025 20:13
    #27747656
    Откуда Вы Кнута в данной дискуссии взяли? Похоже , что не могу уловить мысль...
    
    И не надо за него беспокоится. Дональд Эрвин Кнут (профессор Стэнфордского университета) уже получил за свои книги гонорар.
    
    Кстати, дедушке уже под 90 лет, а он получается ещё пишет... относительно недавно выпустили "Искусство программирования"
    
    Volume 4B: Combinatorial Algorithms, Part 2 (Upper Saddle River, New Jersey: Addison-Wesley, 2023), xviii+714pp. ISBN 0-201-03806-4
    
    N-Cube
    05.01.2025 20:13
    #27748946
    Тред начинается с комментария:
    
    На мой взгляд, тот, кто не дает свое творчество на обучение нейросетей, должен…
    
    Аноним с комментарием уверен, что ему все должны. Хотя польза для общества от него лично крайне сомнительна.
    
    А дальше набежали оцениватели чужой работы с комментариями, что множественные публикации это «мусор»:
    
    Может ему пора завязывать трудиться над мусорным контентом?
    
    Вот я и спрашиваю, с какой стати они это утверждают про всех? Поскольку к логическому мышлению граждане явно не способны, хотя и любят обобщать, привожу известный пример автора со многими и качественными публикациями.
  1. PereslavlFoto
    05.01.2025 20:13
    #27747502
    раньше можно было написать, условно, сотню статей на какую-то популярную тему и получать доход за счет рекламы
    
    Раньше... Раньше можно было написать сотню статей на какую-то популярную тему и получать каждый месяц аванс и заработную плату. Или ещё была мода: человек работал, выполнял свои обязанности, получал зарплату, а в дополнение к ней по вечерам писал сотню статей на какую-то популярную тему, за что ему платили гонорар от журнала или газеты.
    
    И смысл ему дальше трудитЬся над контентом?
    
    Вы поставили довольно общий вопрос: зачем вообще работать? Какой смысл выполнять свои обязанности? Обычно отвечают: работать надо, чтобы выполнить заказ.
    
    N-Cube
    05.01.2025 20:13
    #27747642
    Обычно отвечают: работать надо, чтобы выполнить заказ.
    
    Если вы не знаете, скажем, про существование опен сорс проектов и разработчиков, и работаете только за деньги, зачем лезете в обсуждение? И если у вас вообще нет никакого ценного контента, и создать его вы не в состоянии, это не повод игнорировать существующие достижения. Отсутствие новых книг, фильмов, песен, устройств (схемы которых так же легко копируются) и так далее - это начало конца цивилизации.

pavelsha
05.01.2025 20:13
#27747580
Если при помощи find&replace заменить в статье слова ChatGPT, AI-модель, ИИ-бот на парсер, индексирующий паук, поисковая система, а также выкинуть пару абзацев, то получим банальные рассуждения 15/20-летней давности о защите «контента сайта от кражи».

Мысль о том, что защитить от копирования = защитить от прочтения, донесена в статье доходчиво, но говорить о её новизне трудно.

Проблема всасывания контента в модель с последующим использованием без обращения к источнику, проблема рерайта статей при помощи AI-роботов мало чем отличаются от проблем копирования статей в агрегаторы и рерайта при помощи студентов-фрилансеров.

На бытовом уровне: хотите защитить «сайт и свои уникальные идеи» от копирования — пишите на его в блокноте (бумажном) и храните в закрытом ящике стола. Можете доставать иногда и читать избранное любимой собаке, только не ставьте в её будку колонку «Маруся» и не берите с собой телефон с Google-ассистентом. Если услышит сосед и сделает запись, а потом разместит в местном паблике с хештегом #городские_сумашедшие, то вините себя, что слишком громко читали. Как в этом случае Вы собираетесь доносить свои гениальные творения до народных масс... Я не знаю. Но можно посмотреть в сторону телепатии (пересмотрите X-Men. Может, придет в голову какая-то мысль).

На уровне компаний, которые зарабатывают, создавая и распространяя контент... Похоже, решений со 100% гарантией нет. Придется как-то менять бизнес-модель.
1. pavelsha
  05.01.2025 20:13
  #27747612
  Статья вроде переводная и новая, а у автора-переводчика аргументы и реакция та же, что 20 лет назад у хомячков.
  
  В чем «политика и пропаганда» в комментариях, которые подчеркивают отсутствие новизны проблемы статьи?
  
  Защита от законопослушных краулеров, которые читают robot.txt, не работает против серых парсеров.
  
  Можно закрыть статьи пейволом, переместиться в платные закрытые каналы. Но это поменяет аудиторию.

pavelsha
05.01.2025 20:13
#27747718

Как защитить свои тексты от ChatGPT и других ИИ-ботов. Вот почему вы должны это сделать, и я обещаю, что это не сложно и не страшно

Перепишите ж, пожалуйста, подпись под КДПВ. Или перевод убил смысл в ней, или автор исходного текста просто пукнул, а мы зачем-то прислушиваемся

pavelsha
05.01.2025 20:13
#27747742
Ой, а ведь автор оригинала опять Линда Кэрол...

Это её регулярная колонка в каком-то "мэгазин"? Темы заявлены вроде бы актуальные, но содержание... Robot.Txt Опять пытаются под видом продвинутой техномагии продать давно существующие вещи.

Мне тут недавно как пример прогресса в нейросетях и вообще как инновацию поражающую воображение, говорили "а ТЕПЕРЬ МОЖНО при помощи ИИ распознавать рукописный текст"...

Тут-то я и начал подозревать, что Palm Zire и программы Paragon на нём, это на самом деле оборудование, которое мне случайно попало от "эмиссара хронопатруля" из 2504 года. А продал я его 10 лет назад вовсе не любителям ретро-техники, а космическим пиратам. Вот только не могу понять, кто ко мне приходил: Крыс или Весельчак У.

lolyamyaumyauka
05.01.2025 20:13
#27747870
Сам поди пользуется нейросетями, а своего ничего дать взамен для других не готов...

Как защитить свои тексты от ChatGPT и других ИИ-ботов +1

Комментарии (22)

NeyroEntuziast Автор