Все помнят Эрика Шмидта. Бывший CEO Google, ныне AI-евангелист. В апреле 2024 года он зачитал стендап-лекцию студентам Стэнфорда. Коротко суть. Если пилите AI-стартап, то не парьтесь с копирайтом. Скачайте всё, что нужно для тестовой модели. А если выстрелит, ну наймите юристов, они отмажут. «Если продукт никому не нужен, то и не важно, что вы украли весь контент».

Видео быстро удалили. Но осадочек, как говорится, остался.

Шмидт просто озвучил то, о чём в Кремниевой долине шепчутся в курилках. А индустрия между тем живёт по простому правилу: наше — это святое, ваше — это fair use.

Чужие книги — топливо для наших моделей

OpenAI, Anthropic, Meta, Google, все они кормили свои нейросети датасетами, в которые запакованы миллионы копирайтных книг, статей, видео и картинок. Юридическое обоснование: «общедоступная информация» и «добросовестное использование» (fair use).

При этом никто не спрашивал авторов. Никто не платил им ни цента.

Вы думаете, они не понимают, что творят? Ещё как понимают. В 2021 году, за год до выхода ChatGPT, CEO Anthropic Дарио Амодей написал внутренний меморандум «Экономическая модель компенсации создателям данных» (документ недавно рассекретили в суде). Текст предельно честный: AI — это «всё более экстрактивный концентратор богатства». Создатели контента будут «ворчать» или «злиться», когда это осознают. И чтобы они не мешали прогрессу, Амодей предлагал отстегнуть им «долю прибыли от модели» или даже дать акции компании. «Это отлично вписывается в нашу публично-благотворительную ориентацию», — писал он.

Сегодня Anthropic в суде с пеной у рта доказывает, что использование копирайтных книг — это fair use. То есть, авторам ничего не причитается. Компания от комментариев отказалась. Очень удобно.

А вот наши выходные данные трогать запрещено

И тут начинается самое интересное.

Откройте пользовательское соглашение ChatGPT. Найдите пункт про запрет использовать выходные данные бота для разработки конкурентных моделей. Такие же пункты есть у Anthropic, Google и xAI.

Перевожу с юридического на человеческий: Мы можем тренироваться на любой вашей интеллектуальной собственности — книгах, постах, коде, рецептах борща. Вы не можете тренироваться на том, что сгенерировали мы.

Почему? Потому что наши выходные данные — это наша интеллектуальная собственность. А ваши входные данные — это «общедоступная информация».

Вы уловили логику? Её нет. Есть только рыночная власть.

Открытость? Нет, не слышали

Meta позиционирует свои Llama-модели как «открытые». В мире open source это обычно означает: забирай, изучай, модифицируй, распространяй. Но когда сторонние энтузиасты выложили копии моделей Meta в открытый доступ, компания якобы разослала требования их удалить. (Meta не ответила на запрос журналистов.)

То есть, открытость существует, пока мы контролируем процесс. Как только контроль уходит, вместе с ним открытость заканчивается.

А сами-то свою IP защищают ого-го

Самое смешное (или скорее — печальное), что Кремниевая долина никогда не была наивным идеалистом в вопросах интеллектуальной собственности. Скорее наоборот.

А художникам, писателям и разработчикам открытого ПО остаётся только кусать локти. Они не могут поставить DRM на свою книгу после того, как она вышла в бумаге. Они не могут заставить ChatGPT верифицировать лицензию перед тем, как скормить туда «Войну и мир».

Ирония судьбы

Пиратство, от которого индустрия страдала в 90-е и 2000-е (помните Napster, торренты, крякнутый Photoshop?), теперь стало её основным методом заправки. Разница только в том, что раньше пиратили подростки для себя, а теперь этим озадачились мультимиллиардные корпорации для доминирования на рынке.

Эд Ньютон-Рекс, бывший VP по аудио в Stability AI, уволился в ноябре 2023-го и написал в X: «Не важно, что там с fair use — это законодательство не создавалось с учётом генеративного AI. Я просто не понимаю, как нынешние практики тренировки могут быть приемлемы в обществе, где экономика креативных индустрий построена на копирайте».

Он основал некоммерческую организацию Fairly Trained, которая сертифицирует AI-модели, обученные на честно приобретённых данных. Пока таких моделей единицы. Потому что честный подход проигрывает по скорости.

Что в сухом остатке?

AI-компании требуют для себя максимальной свободы (fair use для всего подряд) и максимальной защиты (никакого тренинга на наших выходных данных). Шмидт сказал вслух то, что другие думают про себя: украсть, а потом отмазаться. Вопрос только в том, получится ли.

Если авторы не смогут защищать свой труд, они перестанут его создавать. Или уйдут в тень. И тогда AI будет тренироваться сам на себе. Мы уже видели, чем это кончается (коллапс модели).

Разработчики тоже находятся в этой цепочке. Ваш open-source код, ваши статьи, ваши туториалы, всё это уже скормлено GPT и Llama-3. А когда вы попробуем натренировать свою модель на выходных данных ChatGPT, вас забанят по ToS.

Так что мораль стара как мир: если вы не платите за продукт, то вы и есть продукт. Только сейчас вы даже не продукт. Вы — бесплатная кормовая база для корпоративных нейросетей.

А у них, знаете ли, «информация хочет быть свободной». Но только чужая.

Комментарии (4)


  1. johnsonbabe
    02.06.2026 10:31

    Доказать я этом не могу, но я уверен они тырят закрытый исходный код своих клиентов поэтому и работать с кодом они стали чуть лучше это вписывается в их картину мира. Исходники из инета они скормили на самом первом этапе когда учили модели на данных из интернет архива. Потом они стырили книги и это их улучшило в тексте что то же улучшило их недавно в коде ) Поэтому я думаю они скоро могут уперется в стену. Их качество росло за счёт качества ворованного контента, они уже все спёрли . Качественного контента для обучения больше нет.


  1. johnsonbabe
    02.06.2026 10:31

    Довольно интересное лицензионное соглашение

    Нашел там такое у опенаи

    Учитывая вероятностную природу машинного обучения, использование наших Сервисов в некоторых ситуациях может привести к Выходным данным, которые неточно отражают реальных людей, места или факты.

    А некоторые доказывают что это уже давно не предсказательной механизм. Кому верить.

    У антропика воистину шикарное соглашение самая гуманная компания. Они запрещают использовать их иишечку для разработки чего бы то ни было конкурирующего с любыми их продуктами.


  1. PereslavlFoto
    02.06.2026 10:31

    Они не могут поставить DRM на свою книгу после того, как она вышла в бумаге.

    Потому что права на бумажную книгу (обычно) принадлежат не автору, а издателю.

    Они не могут заставить ChatGPT верифицировать лицензию перед тем, как скормить туда «Войну и мир».

    Права на ВиМ не могут быть лицензированы, потому что вообще не существуют.


  1. PereslavlFoto
    02.06.2026 10:31

    AI-компании требуют для себя максимальной свободы (fair use для всего подряд) и максимальной защиты (никакого тренинга на наших выходных данных).

    Именно по этой схеме всегда работали СМИ, научные и учебные издательства. Пришлось специально вводить в закон статью, которая окоротит их.