Двойные стандарты AI: «Мы возьмем ваши книги, а вы не трогайте наши токены» / forpes.ru

Главная
Двойные стандарты AI: «Мы возьмем ваши книги, а вы не трогайте наши токены»

Двойные стандарты AI: «Мы возьмем ваши книги, а вы не трогайте наши токены» +9

02.06.2026 08:32

Seigfried 8 5700 Источник

Все помнят Эрика Шмидта. Бывший CEO Google, ныне AI-евангелист. В апреле 2024 года он зачитал стендап-лекцию студентам Стэнфорда. Коротко суть. Если пилите AI-стартап, то не парьтесь с копирайтом. Скачайте всё, что нужно для тестовой модели. А если выстрелит, ну наймите юристов, они отмажут. «Если продукт никому не нужен, то и не важно, что вы украли весь контент».

Видео быстро удалили. Но осадочек, как говорится, остался.

Шмидт просто озвучил то, о чём в Кремниевой долине шепчутся в курилках. А индустрия между тем живёт по простому правилу: наше — это святое, ваше — это fair use.

Чужие книги — топливо для наших моделей

OpenAI, Anthropic, Meta, Google, все они кормили свои нейросети датасетами, в которые запакованы миллионы копирайтных книг, статей, видео и картинок. Юридическое обоснование: «общедоступная информация» и «добросовестное использование» (fair use).

При этом никто не спрашивал авторов. Никто не платил им ни цента.

Вы думаете, они не понимают, что творят? Ещё как понимают. В 2021 году, за год до выхода ChatGPT, CEO Anthropic Дарио Амодей написал внутренний меморандум «Экономическая модель компенсации создателям данных» (документ недавно рассекретили в суде). Текст предельно честный: AI — это «всё более экстрактивный концентратор богатства». Создатели контента будут «ворчать» или «злиться», когда это осознают. И чтобы они не мешали прогрессу, Амодей предлагал отстегнуть им «долю прибыли от модели» или даже дать акции компании. «Это отлично вписывается в нашу публично-благотворительную ориентацию», — писал он.

Сегодня Anthropic в суде с пеной у рта доказывает, что использование копирайтных книг — это fair use. То есть, авторам ничего не причитается. Компания от комментариев отказалась. Очень удобно.

А вот наши выходные данные трогать запрещено

И тут начинается самое интересное.

Откройте пользовательское соглашение ChatGPT. Найдите пункт про запрет использовать выходные данные бота для разработки конкурентных моделей. Такие же пункты есть у Anthropic, Google и xAI.

Перевожу с юридического на человеческий: Мы можем тренироваться на любой вашей интеллектуальной собственности — книгах, постах, коде, рецептах борща. Вы не можете тренироваться на том, что сгенерировали мы.

Почему? Потому что наши выходные данные — это наша интеллектуальная собственность. А ваши входные данные — это «общедоступная информация».

Вы уловили логику? Её нет. Есть только рыночная власть.

Открытость? Нет, не слышали

Meta позиционирует свои Llama-модели как «открытые». В мире open source это обычно означает: забирай, изучай, модифицируй, распространяй. Но когда сторонние энтузиасты выложили копии моделей Meta в открытый доступ, компания якобы разослала требования их удалить. (Meta не ответила на запрос журналистов.)

То есть, открытость существует, пока мы контролируем процесс. Как только контроль уходит, вместе с ним открытость заканчивается.

А сами-то свою IP защищают ого-го

Самое смешное (или скорее — печальное), что Кремниевая долина никогда не была наивным идеалистом в вопросах интеллектуальной собственности. Скорее наоборот.

А художникам, писателям и разработчикам открытого ПО остаётся только кусать локти. Они не могут поставить DRM на свою книгу после того, как она вышла в бумаге. Они не могут заставить ChatGPT верифицировать лицензию перед тем, как скормить туда «Войну и мир».

Ирония судьбы

Пиратство, от которого индустрия страдала в 90-е и 2000-е (помните Napster, торренты, крякнутый Photoshop?), теперь стало её основным методом заправки. Разница только в том, что раньше пиратили подростки для себя, а теперь этим озадачились мультимиллиардные корпорации для доминирования на рынке.

Эд Ньютон-Рекс, бывший VP по аудио в Stability AI, уволился в ноябре 2023-го и написал в X: «Не важно, что там с fair use — это законодательство не создавалось с учётом генеративного AI. Я просто не понимаю, как нынешние практики тренировки могут быть приемлемы в обществе, где экономика креативных индустрий построена на копирайте».

Он основал некоммерческую организацию Fairly Trained, которая сертифицирует AI-модели, обученные на честно приобретённых данных. Пока таких моделей единицы. Потому что честный подход проигрывает по скорости.

Что в сухом остатке?

AI-компании требуют для себя максимальной свободы (fair use для всего подряд) и максимальной защиты (никакого тренинга на наших выходных данных). Шмидт сказал вслух то, что другие думают про себя: украсть, а потом отмазаться. Вопрос только в том, получится ли.

Если авторы не смогут защищать свой труд, они перестанут его создавать. Или уйдут в тень. И тогда AI будет тренироваться сам на себе. Мы уже видели, чем это кончается (коллапс модели).

Разработчики тоже находятся в этой цепочке. Ваш open-source код, ваши статьи, ваши туториалы, всё это уже скормлено GPT и Llama-3. А когда вы попробуем натренировать свою модель на выходных данных ChatGPT, вас забанят по ToS.

Так что мораль стара как мир: если вы не платите за продукт, то вы и есть продукт. Только сейчас вы даже не продукт. Вы — бесплатная кормовая база для корпоративных нейросетей.

А у них, знаете ли, «информация хочет быть свободной». Но только чужая.

Комментарии (8)

johnsonbabe
02.06.2026 10:31
#30053858
Доказать я этом не могу, но я уверен они тырят закрытый исходный код своих клиентов поэтому и работать с кодом они стали чуть лучше это вписывается в их картину мира. Исходники из инета они скормили на самом первом этапе когда учили модели на данных из интернет архива. Потом они стырили книги и это их улучшило в тексте что то же улучшило их недавно в коде ) Поэтому я думаю они скоро могут уперется в стену. Их качество росло за счёт качества ворованного контента, они уже все спёрли . Качественного контента для обучения больше нет.

johnsonbabe
02.06.2026 10:31
#30054052
Довольно интересное лицензионное соглашение

Нашел там такое у опенаи

Учитывая вероятностную природу машинного обучения, использование наших Сервисов в некоторых ситуациях может привести к Выходным данным, которые неточно отражают реальных людей, места или факты.

А некоторые доказывают что это уже давно не предсказательной механизм. Кому верить.

У антропика воистину шикарное соглашение самая гуманная компания. Они запрещают использовать их иишечку для разработки чего бы то ни было конкурирующего с любыми их продуктами.
1. Seigfried Автор
  02.06.2026 10:31
  #30057704
  Да, лицензионные соглашения AI-компаний отдельный жанр корпоративной поэзии. OpenAI честно признаётся что их модель может "неточно отражать реальных людей", то есть галлюцинировать, прямо в пользовательском соглашении. Это как производитель лекарства пишет в инструкции "иногда не работает".
  
  Антропик, как в том анекдоте, "мы пойдем другим путём". Они позиционируют себя как самую этичную компанию, но при этом запрещают использовать Claude для конкурентных разработок. Классика: "мы за открытость, но только в одну сторону."
  
  Что касается "предсказательный механизм или нет", тут скорее вопрос маркетинга чем технологии. Называть это как угодно, суть не меняется: система предсказывает следующий токен на основе статистики. Остальное ~~развод для приезжих~~ нарратив для инвесторов.

PereslavlFoto
02.06.2026 10:31
#30054100
Они не могут поставить DRM на свою книгу после того, как она вышла в бумаге.

Потому что права на бумажную книгу (обычно) принадлежат не автору, а издателю.

Они не могут заставить ChatGPT верифицировать лицензию перед тем, как скормить туда «Войну и мир».

Права на ВиМ не могут быть лицензированы, потому что вообще не существуют.
1. Seigfried Автор
  02.06.2026 10:31
  #30057740
  Именно в этом парадокс. Система авторского права создавалась чтобы защищать авторов, но на практике защищает издателей. Конечно, Толстой уже не получит ничего, равно как и его наследники. Зато издательство, которое выпустило очередное академическое издание с предисловием на 10 страниц, защищено.

PereslavlFoto
02.06.2026 10:31
#30054106
AI-компании требуют для себя максимальной свободы (fair use для всего подряд) и максимальной защиты (никакого тренинга на наших выходных данных).

Именно по этой схеме всегда работали СМИ, научные и учебные издательства. Пришлось специально вводить в закон статью, которая окоротит их.
1. Seigfried Автор
  02.06.2026 10:31
  #30057714
  История повторяется с удивительной точностью. Каждая новая индустрия сначала захватывает чужое под флагом "прогресса и общественного блага", а потом выстраивает крепостные стены вокруг своего.
  
  Издательства десятилетиями переиздавали народные сказки, фольклор и общественное достояние и при этом яростно защищали собственный копирайт. Теперь AI-компании обучаются на всём что создало человечество за тысячи лет и называют это fair use.
  
  Разница только в масштабе и скорости. То, что у издательств занимало десятилетия, здесь происходит за годы.
  
  Успеет ли законодательство на этот раз, вопрос, конечно, риторический.
  1. PereslavlFoto
    02.06.2026 10:31
    #30058998
    Обучение действительно является нормой. Все мы учились в вузах, однако не хотим платить авторам учебников за каждый наш поступок.

Двойные стандарты AI: «Мы возьмем ваши книги, а вы не трогайте наши токены» +9

Чужие книги — топливо для наших моделей

А вот наши выходные данные трогать запрещено

Открытость? Нет, не слышали

А сами-то свою IP защищают ого-го

Ирония судьбы

Что в сухом остатке?

Комментарии (8)

johnsonbabe

johnsonbabe

Seigfried Автор

PereslavlFoto

Seigfried Автор

PereslavlFoto

Seigfried Автор

PereslavlFoto