Технологические гиганты OpenAI, Google и Meta* в погоне за онлайн-данными для обучения своих новейших систем искусственного интеллекта готовы на всё: игнорировать корпоративные политики, менять собственные правила и даже обсуждать возможность обхода законов об авторском праве.

Одним из самых вопиющих примеров стали действия исследователей OpenAI в Сан-Франциско. Они разработали инструмент для транскрибирования видео с YouTube, чтобы собрать огромный массив разговорных текстов для развития ИИ. Некоторые сотрудники OpenAI выражали обеспокоенность тем, что такой шаг может нарушать правила YouTube, которые запрещают использовать видео платформы для "независимых" приложений. Однако в итоге команда во главе с президентом компании Грегом Брокманом, который лично участвовал в сборе данных, расшифровала более миллиона часов видео. Полученные тексты были загружены в GPT-4 - одну из самых мощных языковых моделей в мире, лежащую в основе чат-бота ChatGPT.

Эта история наглядно демонстрирует, насколько отчаянной стала гонка за цифровыми данными, необходимыми для прогресса ИИ. Ради заветных терабайтов информации технологические компании, включая OpenAI, Google и Meta*, готовы срезать углы, игнорировать внутренние политики и балансировать на грани закона. Расследование New York Times показало, что эти ИТ-гиганты всерьез обсуждали возможность обхода авторских прав ради пополнения своих баз данных.

В Meta*, которой принадлежат Facebook* и Instagram* , менеджеры, юристы и инженеры всерьез рассматривали вариант покупки издательства Simon & Schuster, чтобы заполучить большой объем книг. Они также обсуждали идею собирать защищенные авторским правом данные по всему интернету, даже если это грозило судебными исками. По их мнению, переговоры о лицензировании с издателями, авторами, музыкантами и новостной индустрией заняли бы слишком много времени.

Google, как и OpenAI, расшифровывал видео с YouTube для получения текстовых данных, потенциально нарушая авторские права создателей контента. Кроме того, в прошлом году компания расширила свои условия использования сервисов. Одной из причин этого изменения, по словам сотрудников отдела конфиденциальности и внутренних документов, стало желание получить возможность анализировать публично доступные файлы Google Docs, отзывы на Google Maps и другие онлайн-материалы для использования в своих ИИ-продуктах.

Эти примеры показывают, что новости, художественные произведения, посты на форумах, статьи из Википедии, компьютерные программы, фотографии, подкасты и фрагменты фильмов стали настоящей "цифровой кровью", питающей бурно развивающуюся индустрию искусственного интеллекта. Создание инновационных систем напрямую зависит от наличия достаточного объема данных для обучения ИИ мгновенной генерации текстов, изображений, звуков и видео, неотличимых от созданных человеком.

Объем данных имеет решающее значение. Ведущие чат-боты обучались на массивах цифровых текстов, включающих до трех триллионов слов - примерно вдвое больше, чем хранится в Бодлианской библиотеке Оксфордского университета, которая собирает рукописи с 1602 года. По словам исследователей ИИ, наиболее ценными являются высококачественные данные, такие как опубликованные книги и статьи, тщательно написанные и отредактированные профессионалами.

Долгие годы интернет с такими сайтами, как Википедия и Reddit, казался неиссякаемым источником данных. Но по мере развития ИИ технологические компании стали искать новые резервуары информации. Google и Meta, имеющие миллиарды пользователей, ежедневно генерирующих поисковые запросы и посты в соцсетях, во многом ограничены законами о конфиденциальности и собственными политиками в плане использования этого контента для обучения ИИ.

Ситуация становится критической. По прогнозам исследовательского института Epoch, уже к 2026 году технологические компании могут исчерпать все качественные данные, доступные в интернете. Гиганты индустрии потребляют информацию быстрее, чем она производится.

"Единственный практичный способ существования этих инструментов - это возможность обучать их на огромных объемах данных без необходимости лицензирования", - заявил Сай Дамл, юрист, представляющий интересы венчурной компании Andreessen Horowitz, в ходе публичной дискуссии об авторском праве. "Необходимый объем данных настолько огромен, что даже коллективное лицензирование не сможет решить проблему".

Технологические компании настолько жаждут новых данных, что некоторые из них разрабатывают "синтетическую" информацию. Речь идет не об органическом контенте, созданном людьми, а о текстах, изображениях и коде, генерируемых самими ИИ-моделями. Иными словами, системы учатся на том, что создают сами.

OpenAI заявила, что каждая ее ИИ-модель "имеет уникальный набор данных, который мы тщательно подбираем, чтобы улучшить их понимание мира и оставаться глобально конкурентоспособными в исследованиях". Google отметила, что ее модели "обучаются на некотором контенте YouTube" в рамках соглашений с авторами, и что компания не использует данные из офисных приложений вне экспериментальной программы. Meta* подчеркнула, что "агрессивно инвестировала" в интеграцию ИИ в свои сервисы и имеет миллиарды публично доступных изображений и видео из Instagram*  и Facebook* для обучения своих моделей.

Для создателей контента растущее использование их произведений ИИ-компаниями стало поводом для исков о нарушении авторских прав и лицензировании. The New York Times подала в суд на OpenAI и Microsoft за использование защищенных авторским правом новостных статей без разрешения для обучения чат-ботов. OpenAI и Microsoft заявили, что использование материалов было "добросовестным" и разрешенным законом, поскольку оригинальные тексты были трансформированы для другой цели.

Более 10 000 торговых групп, авторов, компаний и других организаций направили свои комментарии по поводу использования творческих работ ИИ-моделями в Бюро авторских прав США - федеральное агентство, готовящее рекомендации по применению копирайта в эпоху ИИ.

Режиссер, актриса и писательница Джастин Бейтман заявила Бюро, что ИИ-модели используют контент, включая ее книги и фильмы, без разрешения и оплаты. "Это крупнейшая кража в истории Соединенных Штатов, точка", - подчеркнула она в интервью.

"Масштаб решает все": Как одна научная статья разожгла аппетит к данным

В январе 2020 года теоретический физик из Университета Джонса Хопкинса Джаред Каплан опубликовал новаторскую статью об ИИ, которая разожгла аппетит технологических гигантов к онлайн-данным. Его вывод был однозначен: чем больше информации, данных - "цифровой крови" ИИ-систем, будет использовано для обучения большой языковой модели (ключевой технологии чат-ботов), тем лучше будут её результаты. Подобно тому, как студент становится образованнее, прочитав больше книг, ИИ-алгоритмы могут точнее распознавать паттерны в тексте и давать более точные ответы, впитав больше данных.

"Все были поражены тем, что эти закономерности, которые мы называем "законами масштабирования", оказались столь же точными, как и те, что мы наблюдаем в астрономии или физике", - отметил доктор Каплан, опубликовавший статью в соавторстве с девятью исследователями OpenAI (сейчас он работает в ИИ-стартапе Anthropic).

Лозунг "Масштаб решает все" быстро стал боевым кличем для всей индустрии ИИ, ознаменовав начало безудержной гонки за данными, этой "цифровой кровью" для алгоритмов. Исследователи, которые раньше довольствовались относительно скромными публичными базами данных вроде Википедии или Common Crawl (архива из более чем 250 миллиардов веб-страниц, собираемого с 2007 года), осознали, что в новую эпоху этой информации катастрофически мало. Если до статьи Каплана датасеты с 30 000 фотографий с Flickr считались ценным ресурсом, то теперь ИИ-системам требовались терабайты текстов, изображений и другого "топлива" для развития.

Когда в ноябре 2020 года OpenAI представила GPT-3, эта модель была обучена на рекордном на тот момент объеме данных - около 300 миллиардов "токенов" (по сути, слов или частей слов). Впитав эту гору информации, система начала генерировать тексты с пугающей точностью, создавая блог-посты, стихи и даже компьютерные программы.

Гонка за "цифровой кровью" только начиналась. В 2022 году лаборатория DeepMind, принадлежащая Google, провела эксперимент с 400 ИИ-моделями, варьируя объем обучающих данных. Лучшие результаты показали системы, питавшиеся еще большим объемом информации, чем предсказывал Каплан. Модель Chinchilla "выпила" 1.4 триллиона токенов.

Но и этот рекорд вскоре был побит. В прошлом году китайские исследователи представили Skywork - ИИ-модель, обученную на 3.2 триллиона токенов из английских и китайских текстов. А Google анонсировала систему PaLM 2, проглотившую умопомрачительные 3.6 триллиона токенов - настоящее море данных.

Алгоритмы-вампиры вошли во вкус. И теперь уже ничто не могло остановить их ненасытную жажду информации, столь необходимой для развития ИИ...

Высасывая данные из YouTube: Как OpenAI переступила черту

В мае Сэм Альтман, генеральный директор OpenAI, признал, что запасы ценной информации в интернете скоро иссякнут под натиском ИИ-компаний, одержимых идеей масштаба. "Этот ресурс не бесконечен", - заявил он в своей речи на технологической конференции.

Альтман знал, о чем говорит. В OpenAI исследователи годами собирали данные, очищали их и скармливали ненасытным алгоритмам, превращая в топливо для обучения языковых моделей. Они выкачивали код с GitHub, поглощали гигантские базы шахматных партий, анализировали школьные тесты и домашние задания с сайта Quizlet. Но к концу 2021 года эти источники истощились, рассказали восемь человек, знакомых с ситуацией в компании.

OpenAI отчаянно нуждалась в новой информации для своего ИИ следующего поколения - GPT-4. Сотрудники обсуждали идеи транскрибировать подкасты, аудиокниги и видео с YouTube, создавать данные с нуля с помощью других ИИ-систем и даже покупать стартапы, накопившие большие объемы цифрового контента.

В итоге OpenAI создала инструмент распознавания речи Whisper, чтобы извлекать тексты из YouTube-роликов и подкастов, рассказали шесть человек. Однако правила YouTube запрещают не только использовать видео в "независимых" приложениях, но и получать доступ к контенту платформы "любыми автоматическими средствами (такими как роботы, ботнеты или скраперы)".

Сотрудники OpenAI понимали, что вступают в серую зону закона, но считали, что обучение ИИ на этих видео - это "добросовестное использование". Грег Брокман, президент компании, лично участвовал в сборе роликов с YouTube и скармливал их Whisper, став одним из создателей инструмента.

В прошлом году OpenAI выпустила GPT-4, модель, обученную на более чем миллионе часов видео, которые Whisper извлек с YouTube и превратил в бесценный ресурс для развития ИИ. Команду разработки GPT-4 возглавлял лично Брокман.

Некоторые сотрудники Google знали о практиках OpenAI, но не препятствовали им, так как сам Google использовал транскрипты YouTube-видео для обучения своих ИИ-моделей, рассказали два человека, знакомых с ситуацией. Такой подход мог нарушать авторские права создателей контента. Если бы Google попытался предъявить претензии OpenAI, это могло вызвать общественный резонанс и привести к скандалу вокруг методов самого техногиганта.

Алгоритмы продолжали безнаказанно высасывать данные из YouTube, превращая видео в топливо для развития ИИ, невзирая на правила платформы и вопросы этики. Жажда информации, разожженная гонкой за лидерство в сфере ИИ, оказалась сильнее угрызений совести и страха перед законом.

Как Google может использовать ваши данные: Изменения в политике конфиденциальности

В прошлом году Google внес изменения в свою политику конфиденциальности для бесплатных потребительских приложений. Согласно новой формулировке, компания использует информацию для улучшения сервисов, разработки новых продуктов, функций и технологий, которые приносят пользу как самим пользователям, так и обществу в целом.

Особое внимание было уделено использованию общедоступной информации для обучения языковых моделей ИИ и создания продуктов вроде Google Translate, чат-бота Bard и облачных ИИ-сервисов. Это дало Google гораздо более широкие возможности для сбора и анализа данных в целях развития искусственного интеллекта.

Однако эти изменения вызвали вопросы у членов команды по конфиденциальности. В августе двое из них обратились к менеджерам, чтобы прояснить, сможет ли Google начать использовать данные из бесплатных потребительских версий Google Docs, Google Sheets и Google Slides. По их словам, они не получили четких ответов.

Мэтт Брайант, представитель Google, заявил, что изменения в политике конфиденциальности были сделаны для ясности и что компания не использует информацию из Google Docs или связанных приложений для обучения языковых моделей "без явного разрешения" пользователей. Он уточнил, что речь идет о добровольной программе, которая позволяет пользователям тестировать экспериментальные функции.

"Мы не начали обучение на дополнительных типах данных на основе этого изменения формулировки", - подчеркнул Брайант.

Тем не менее, обновленная политика конфиденциальности дает Google гораздо больше пространства для маневра в плане использования пользовательских данных для развития ИИ. И хотя компания отрицает, что уже применяет информацию из своих офисных приложений для обучения языковых моделей, сама возможность такого использования вызывает вопросы у экспертов по конфиденциальности.

Ясно одно: в гонке за лидерство в сфере ИИ техногиганты готовы использовать все доступные ресурсы, и данные миллионов пользователей - слишком лакомый кусок, чтобы его игнорировать. Вопрос лишь в том, насколько далеко Google и другие компании готовы зайти в погоне за прогрессом, и сумеют ли они найти баланс между развитием технологий и защитой приватности своих клиентов.

Жажда данных и этические дилеммы: Как Meta* борется за лидерство в сфере ИИ

Марк Цукерберг, глава Meta, годами инвестировал в развитие искусственного интеллекта. Однако когда в 2022 году OpenAI выпустила свой чат-бот ChatGPT, Цукерберг внезапно осознал, что его компания отстает в гонке ИИ-вооружений. По словам трех нынешних и бывших сотрудников, он немедленно начал оказывать давление на своих подчиненных, требуя в кратчайшие сроки создать чат-бот, способный превзойти детище OpenAI. Руководители и инженеры получали звонки от босса в любое время дня и ночи.

Но уже к началу прошлого года Meta* столкнулась с той же проблемой, что и ее конкуренты: нехваткой данных для обучения ИИ. Ахмад Аль-Дахле, вице-президент компании по генеративному ИИ, сообщил руководству, что его команда использовала практически все доступные в интернете англоязычные книги, эссе, стихи и новостные статьи для разработки своей модели. Без расширения массива данных Meta* не сможет догнать ChatGPT, подчеркнул он.

В марте и апреле 2023 года лидеры бизнес-подразделений, инженеры и юристы Meta* практически ежедневно собирались, чтобы найти решение проблемы. Одни предлагали платить по 10 долларов за книгу, чтобы получить полные лицензионные права на новые произведения. Другие обсуждали возможность приобретения издательства Simon & Schuster, выпускающего книги таких авторов, как Стивен Кинг.

Но звучали и более радикальные идеи. Сотрудники говорили о том, что уже обобщали книги, эссе и другие произведения из интернета без разрешения правообладателей. Они всерьез рассматривали возможность и дальше "высасывать" защищенный авторским правом контент, даже если это грозило судебными исками. Один из юристов предупредил о "этических" проблемах, связанных с использованием интеллектуальной собственности без ведома и согласия авторов, но его слова были встречены гробовым молчанием.

Цукерберг требовал найти решение любой ценой. "Возможности, которые Марк хочет видеть в нашем продукте, мы сейчас просто не в состоянии обеспечить", - признал один из инженеров.

Несмотря на то, что Meta* управляет гигантскими социальными сетями, у компании не было достаточного объема пользовательских постов, пригодных для обучения ИИ. Многие пользователи Facebook* удаляли свои старые публикации, а сама платформа не располагала к созданию длинных текстов, подобных эссе. К тому же, после скандала 2018 года, связанного с передачей данных пользователей компании Cambridge Analytica, занимавшейся профилированием избирателей, Meta* была вынуждена ввести ограничения на использование информации о своих юзерах.

В недавнем обращении к инвесторам Цукерберг заявил, что миллиарды публично доступных видео и фотографий на Facebook* и Instagram*  представляют собой массив данных, превосходящий Common Crawl (базу из сотен миллиардов веб-страниц, используемую для обучения ИИ). Но хватит ли этого, чтобы догнать и обогнать конкурентов?

В своих внутренних обсуждениях топ-менеджеры Meta* признавали, что OpenAI, судя по всему, использовала защищенные авторским правом материалы без разрешения. И хотя некоторые сотрудники поднимали вопросы об этичности такого подхода и справедливой оплате труда авторов, общий вывод был таков: Meta* может последовать этому "рыночному прецеденту", так как получение лицензий от множества правообладателей займет слишком много времени.

"Единственное, что отделяет нас от уровня ChatGPT - это буквально объем данных", - заявил на одном из совещаний Ник Грудин, вице-президент по глобальному партнерству и контенту. По его мнению, Meta* может опереться на решение суда по делу "Гильдия авторов против Google" от 2015 года. Тогда Google отстояла свое право сканировать, оцифровывать и каталогизировать книги в онлайн-базе, доказав, что использовала лишь фрагменты произведений, трансформируя их и создавая новый продукт, что подпадает под принцип "добросовестного использования".

Однако этические вопросы никуда не исчезли. Как рассказал один из сотрудников, даже на встрече с участием Криса Кокса, главного директора по продуктам Meta, никто не озаботился тем, насколько честно и правильно использовать творческий труд людей без их ведома и согласия.

Похоже, в Meta* решили идти по стопам OpenAI и Google, не считаясь с правами авторов. Гонка ИИ-вооружений набирает обороты, и все средства хороши в борьбе за лидерство. Но сумеет ли Марк Цукерберг найти баланс между жаждой прогресса и этикой? Или погоня за "цифровой кровью" для ИИ-моделей окончательно затмит в его империи все моральные ориентиры? Пока страсти вокруг ИИ накаляются, нам остается лишь гадать, какие еще границы готовы переступить техногиганты в стремлении к технологическому превосходству.

Искусственные данные: Выход из кризиса или путь в никуда?

В то время как Meta* и Google лихорадочно ищут новые источники "цифровой крови" для своих ненасытных ИИ-моделей, Сэм Альтман из OpenAI предлагает иной подход к решению надвигающегося кризиса данных.

По его мнению, которое он озвучил на майской конференции, компании вроде OpenAI в конечном итоге начнут обучать свои алгоритмы на текстах, сгенерированных самим ИИ - так называемых синтетических данных. Идея проста: если ИИ-модель способна создавать правдоподобные тексты, то она может сама производить дополнительную информацию для своего развития. Это позволит разработчикам создавать все более мощные системы, не завися от защищенных авторским правом материалов.

"Как только мы преодолеем горизонт событий синтетических данных, и модель станет достаточно умной, чтобы генерировать качественную информацию, все будет в порядке", - заявил Альтман.

Однако концепция синтетических данных, хотя и не нова, таит в себе немало подводных камней. Исследователи бьются над этой проблемой годами, но создать ИИ, способный эффективно обучать самого себя, оказалось очень непросто. Модели, которые учатся на собственных результатах, рискуют попасть в замкнутый круг, где они лишь усиливают свои причуды, ошибки и ограничения.

"Данные для этих систем - как тропа через джунгли, - говорит Джефф Клун, бывший исследователь OpenAI, ныне преподающий информатику в Университете Британской Колумбии. - Если они будут обучаться только на синтетической информации, то рискуют заблудиться в этих дебрях".

Чтобы избежать этой ловушки, OpenAI и другие компании изучают возможность совместной работы двух разных ИИ-моделей. Одна система генерирует данные, а вторая оценивает их качество, отделяя зерна от плевел. Впрочем, исследователи расходятся во мнениях, насколько эффективным окажется такой подход.

Но топ-менеджеры ИИ-индустрии уже мчатся вперед на всех парах. "Все должно быть в порядке", - уверенно заявляет Альтман.

Возможно, синтетические данные действительно помогут техногигантам преодолеть кризис "цифровой крови" и вывести ИИ на новый уровень. Но не приведет ли погоня за искусственным разумом, способным воспроизводить самого себя, к непредсказуемым последствиям? Не заблудятся ли наши ИИ-помощники в дебрях собственных алгоритмов, оторвавшись от реальности и потеряв связь с миром людей?

Цена прогресса в эпоху ИИ

Гонка за "цифровой кровью" и стремление к созданию все более мощных ИИ-систем ставит перед человечеством непростые вопросы. Готовы ли мы пожертвовать приватностью, авторскими правами и этическими принципами ради технологического прогресса? Сможем ли мы сохранить контроль над своими творениями, когда они начнут воспроизводить сами себя? Опасность потерять ориентиры в цифровых джунглях искусственного интеллекта еще никогда не была столь реальной. Но одно можно сказать наверняка: мир уже никогда не будет прежним. Мы стоим на пороге новой эры, где границы между человеческим и машинным интеллектом становятся все более размытыми. И только от нас зависит, сумеем ли мы направить эту революцию в нужное русло и извлечь из нее максимум пользы для всего человечества.

Причем каждый из нас может внести свой вклад в эту дискуссию - делитесь своими мыслями в комментариях и ставьте оценки этой статье, ведь именно наши с вами комментарии повлияют в конечном счете на обучение какой-нибудь языковой модели.

Я рассказываю больше о нейросетях и делюсь иллюстрациями у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке.

*Meta и соцсети компании Facebook и Instagram признаны экстремистскими и запрещены в РФ.

Комментарии (84)


  1. Neu256
    07.04.2024 20:53

    Рано или поздно информация закончиться во всех возможный истоников. И к этому времении ИИ будет обучаться у другого ИИ для получения данных. Всё как у нас, людей, люди обучают людей, так и ИИ будет обучать ИИ.


    1. awkwardsocialist
      07.04.2024 20:53
      +8

      Вполне возможно, что так оно и будет. Но наверное даже забавно будет наблюдать за тем, как нейросети учатся на галлюцинациях своих сородичей :)


      1. wazzard
        07.04.2024 20:53
        +3

        а потом забавно будет наблюдать за последствиями галлюцинаций, когда факты заменяться выдумкой и вот мы уже живем в мире, который построил DataGOD, ведь так будет написано в галлюнопедии. А авторские права и законы не писаны для богов.


      1. Ivan22
        07.04.2024 20:53

        интересно будет почитать какие новые теории заговора может придумать ИИ


    1. raamid
      07.04.2024 20:53

      Я думаю, что источником данных для обучения будет сам ИИ. Точнее его реальная практика. Машины с автопилотом уже есть. Сельскохозяйтвенные роботы, домашняя прислуга, торговля, образование. Причем ИИ будет не просто собирать данные, а и получать фидбек от людей в реальном времени.


      1. Yuriy_75
        07.04.2024 20:53

        А что, звучит неплохо. Сделать 1 млн роботов-слуг, они в день будут получать порядка 1 млн фидбеков. При этом данные централизовано обрабатываются, то есть есть шанс, что один робот учтет ошибку другого робота.

        Но прям сейчас не получится. Маск своих Опитимусов обещал через 3-5 лет. А нужно прям сейчас...


    1. engine9
      07.04.2024 20:53
      +1

      А не получится положительная обратная связь и "шиза" на выходе?


    1. Yuriy_75
      07.04.2024 20:53
      +1

      Люди получают обратную связь от своих действий в реальном мире. Именно поэтому реальный опыт и ценится выше теоретических знаний.

      Если обратной связи нет - это средневековая схоластика. Сначала был студентом, учил богословие. Потом стал преподавателем, стал других студентов учить богословию.


    1. kuza2000
      07.04.2024 20:53

      И к этому времении ИИ будет обучаться у другого ИИ для получения данных. Всё как у нас, людей, люди обучают людей, так и ИИ будет обучать ИИ.

      Не будут они учить друг друга. Им доступно копирование, в отличии от людей)

      https://habr.com/ru/articles/806047/


  1. ArLeKiN_O_o
    07.04.2024 20:53
    +5

    Кажется надо сходить к ребятам работающим на БАК и других ускорителях или например к астрономам. Думаю у них то данных с лихвой должно хватать. И это явно будет более полезным чем хай гуголь поставь кипятитсья чайник.


  1. Politura
    07.04.2024 20:53
    +12

    Столько экспрессии, стенаний и глупых ярлыков, а так и не понятно, чтож плохого в том, что нейросетки обучают на больших объемах данных.


    1. timonin Автор
      07.04.2024 20:53
      +12

      Проблема не в том, что их обучают на больших данных. Проблема в том, что эти данные зачастую принадлежат пользователям, у которых большие компании, которые создали эти нейросети, разрешение либо не спросили, либо не оставили вариантов.

      Вот представьте, жил-был некий Иннокентий, и была у него, скажем, дочка, и Иннокентий на утреннике в школе записал как она рассказывает стихи собственного сочинения в ее уникальном стиле со сцены, и выложили на ютуб, поделиться с друзьями и родственниками.

      А через год Иннокентий увидел стихи "похожие до степени смешения" на упаковке бутылки водки, предъявили претензию производителю, он предъявил претензию брендинг агентству которое делало упаковку, а оно призналось что использовало нейросеть ChatGPT6 для создания креативов, а та в свою очередь обучалась незаконно на данных с ютуба, и в том числе конкретно и видео Иннокентия, хотя он такого разрешения не давал и в жизни этого не хотел.

      Пример конечно дикий, но наглядный.


      1. MountainGoat
        07.04.2024 20:53
        +14

        Большинству плевать, кто там что перегенерил. Остро встал вопрос, который вообще-то обсуждали уже 20-30 лет назад: в Интернете нельзя по-умолчанию защищать авторские права. Потому что большая часть контента в Интернете создаётся пользователями, которых не интересуют эти самые права. Этот контент не содержит ни указаний авторства, ни лицензии на использование.

        А теперь вопрос стоит ребром: или отменять авторские права в том виде, как они есть сейчас, или ИИ будет только у корпораций, потому что они с их баблом могут отбрехаться от любых нарушений.

        Если кто не хочет, чтобы его стихи использовали - пусть явно об этом укажет. А лицензией по умолчанию должно быть что-то вроде CC-BY. И у создателя ИИ в файлике - список всех ников в Интернете, кто хочет - может почитать.


        1. riv9231
          07.04.2024 20:53
          +1

          Хорошо, тогда и веса модели должны быть доступны публично. Вот Мета - молодцы, несмотря на всю их рептилойдность, выпустили llama, llama2 и сейчас, похоже, готовятся опубликовать (я очень надеюсь на это), веса llama3.


        1. Captain_in_the_Green_Hat
          07.04.2024 20:53
          +1

          Полностью поддержу.

          Если сочинил стих и не хочешь ... - держи его в себе. Открыл в инете рот, продекламировал, тогда какие претензии, что кто-то запомнил и продекламировал переиначив?

          компания использует информацию для улучшения сервисов, разработки новых продуктов, функций и технологий,

          Хорошая формулировка, юристы недаром едят хлеб. Информацию использовали все всегда и давно. Поглядел куда клиент мышкой тычет, поправил интерфейс. Почитал, что он пишет, переделал текст. Робот занят тем же самым


      1. Politura
        07.04.2024 20:53
        +11

        По моему ChatGPT6 в вашем примере притянут за уши. Более вероятно это мог бы быть поэт Вася, работающий в оном брендинг агентстве, который увидел стихи в ютуб-ролике когда-то. И может быть даже начисто забыл об этом, поэтому уверен, что придумал их сам. Ну или сознательно использовал чужие стихи, не важно.

        Почему никто не поднимает панику, изза того, что другие поэты слушают чужие песни?


        1. SuharkovMP
          07.04.2024 20:53
          +4

          "Мы такие чистые да гордые, пели о душе, да всё плевали в нее" - Алиса, альбом Сумерки (1991 год)

          "В этой пьяной стране есть для каждого кнут, здесь поют о душе и в нее же плюют" - Ария, альбом Ночь короче дня (1995 год).

          Как думаете, Пушкина украла часть текста у Кинчева (Панфилова)? Пора паниковать?


          1. Politura
            07.04.2024 20:53
            +2

            Вот-вот. В советской эстраде были перепетые западные пестни и даже, вроде, наоборот тоже что-то было. Киркорова вообще королем римейков называли. Почему все эти борцы с нейросетями до сих пор не борются за то, что запретить людям слушать пестни, чтоб они их потом злонамеренно не крали?


        1. CamiiLuT
          07.04.2024 20:53

          >Более вероятно это мог бы быть поэт Вася

          Если это сделал поэт Вася - то всё норм, за исключением если скопировал почти слово в слово. Это глубоко ошибочно приравнивать в правах ИИ и людей. ИИ это механизм, а вот память людям редактировать пока что закон не позволяет.


          1. qw1
            07.04.2024 20:53

            Если это сделал поэт Вася - то всё норм

            Так не должно быть. Экспертиза должна независимо установить, не опираясь на показания Васи, есть тут плагиат или нет. Иначе Вася всегда будет говорить, что сам сочинил, а не через ЧатГПТ. И что с этим делать?


            1. c0r3dump
              07.04.2024 20:53
              +1

              А как они будут это устанавливать? Ведь одни и те же научные открытия бывает совершаются разыми людьми независимо, а похожие истории встречаются в эпосах разных народов. Также и похожие мелодии часто сочиняют разные люди не зная друг о друге, сомневаюсь, что со стихами и рифмами дело обстоит иначе, в конце концов рифм к тому или иному слову в каждом языке конечное количество, стихи пишутся часто на актуальные проблемы в обществе, и чем больше населения - тем больше шанс совпадения. То, что кто-то выложил в сеть раньше во-первых не значит, что он это раньше сочинил, например, услышал выступление уличного поэта, что не удосужился выложить свои стихи в сеть, позаимствовал рифму, разместил в интернете. Через месяц уличный поэт разместил свою, и теперь он - плагиатор? Называть плагиатом просто за совпадение попахивает презумпцией виновности. Скорее всего придётся просто пересмотреть систему прав на контент в принципе.


        1. Batalmv
          07.04.2024 20:53

          Почему никто не поднимает панику, изза того, что другие поэты слушают чужие песни?

          Если они их КУПИЛИ - проблем нет. Пусть слушают. А вот если нет - сорян


      1. xirahai
        07.04.2024 20:53
        +4

        Разумнее обнародовать всеобъемлющий дисклэймер, что выкладывая любую информацию в сеть - она будет использована кем угодно и как угодно. Что собственно в реальности и происходит. Тогда несметная масса проблем сразу исчезнет. А ставшие из-за этого невостребованными юристы по авторским правам, и граждане паразитирующие за счет авторских отчислений смогут принять участие в производстве материальных благ для человечества.


        1. vikarti
          07.04.2024 20:53

          дисклэймер ГДЕ?

          Вот у меня на моем peertube сервере выложен мой ролик, на страничке сервера прямо указано что если вы используете контент - вы обязаны либо заплатить мне 100500 ISK либо (ну например) поработать ротиком на коленях :). Бонусом - прям в HTTP-заголовках отдается X-COPYRIGHT: и текст (на русском) что если используете данный контент то соглашаетесь со всеми условиями по ссылке а если не соглашаетесь - не продолжайте.

          Федерация peertube - включена. Ваш бот гулял по сети и сграбил ролик (вообще через другой peertube сервер, peertube так умеет). И использовал. Я прихожу требовать от вас выполнение обязательств.

          Как?Вы не HTTP-заголовки в ответах ни даже ToS? Для вас же еще в 2011 сняли обучающий ролик (замаскированный под серию 1501 SouthPark'а) почему так делать не надо


          1. xirahai
            07.04.2024 20:53

            Ваша ошибка в том, что выложив ролик в сеть в общий доступ, вы продолжаете считать его своей неприкосновенной собственностью. Не надо проецировать законы материального мира на сферу информации. Это не то же самое что мобильник лежащий у вас на столике в кафе, который если сопрут - у вас его не станет. В отличие от материальных вещей, информацию вы не потеряете если ее скопирует себе кто-то другой. Поэтому в информационной среде законы должны быть совсем другие, прежде всего не мешающие техническому прогрессу.


            1. vikarti
              07.04.2024 20:53

              А ваша - в том что вы посчитали что это общий доступ.

              Там указаны условия же -:).

              Либо да - надо менять полностью законы, и не только про авторское права потому что есть еще и дополнительная сложность, допустим что законы про авторские права изменены но ролик у меня на сервере - в общем случае нарушает какие то другие законы (о защите частной жизни например или о защите детей от педофилов террористов или он просто 18+) при этом у меня есть право это игнорировать в данном случае но вот права передавать другим такие права - нет (и я этого не делаю), вы ролик используете и нарушаете. Будете вешать на меня ответственность? А на основании чего? Получается надо весь соответствующий набор законов править.


              1. xirahai
                07.04.2024 20:53

                Именно в общий доступ, т.к. практически всё выложенное вами в сеть на не принадлежащие вам сервера, со временем может стать доступным кому угодно. Исключением могут быть разве что услуги платного сервера, с владельцем которого заключается полноценный договор о безопасном хранении данных. И то как показывает жизнь, не всегда помогает)

                Принятые в обществе законы о защите детей, частной жизни, против терроризма, и тд вполне могут распространяться и на сеть, примерно также как и на бумажные СМИ. Речь была только об абсурде разросшемся вокруг идеологии авторских прав и копирастии.


                1. vikarti
                  07.04.2024 20:53

                  В случае с моим примером - речь именно про принадлежащий мне сервер. Да, отдающий другим данные, на определенных условиях.

                  И если законы о защите частной жизни детей от террористов у нас по прежнему в силе - то как тогда разруливать ситуации когда размещение мной - их не нарушает а вами - нарушает? Будем вас судить?


                  1. qw1
                    07.04.2024 20:53

                    Как получилось, что вы не нарушаете, а ваш пользователь нарушает. Вы в разных юрисдикциях? Даже если так, нет никакой проблемы со скачиванием (кроме копирастической, которую и предлагают отменить). Пользователь посмотрел запрещённый ролик, осудил, пошёл дальше - в чём проблема? Вот если он начал его "использовать" - делать ремиксы, распространять, это уже другое.


      1. vikarti
        07.04.2024 20:53

        А разве с текущими законами - это не личные половые трудности производителя? И платите компенсации или еще как договаривайтесь. Можете регрессный иск подать брендинг агенству но это уже не проблемы Иннокентия с его дочкой а проблемы производителя водки.

        Почему это должно поменяться?


      1. Kenya-West
        07.04.2024 20:53
        +4

        Проблема в том, что эти данные зачастую принадлежат пользователям

        Нет. Ни в одном лицензионном соглашении крупного Web 2.0 сервиса данные де-юре не принадлежат пользователю.

        Вот представьте, жил-был некий Иннокентий

        Приятно услышать что-то про себя.

        записал как она рассказывает стихи собственного сочинения в ее уникальном стиле со сцены, и выложили на ютуб

        Это ошибка. Зря.

        обучалась незаконно на данных с ютуба, и в том числе конкретно и видео Иннокентия, хотя он такого разрешения не давал

        Давал, когда начал пользоваться YouTube.

        Ну, что вы, как дети малые, ей-богу... Ваши данные - где бы в интернете вы их ни опубликовали - почти никогда вам не принадлежат.


        1. vikarti
          07.04.2024 20:53

          Давал, когда начал пользоваться YouTube.

          И это может не значить ничего. При этом возможно в законах его страны есть жесткая норма что такие разрешения - недействительны в его случае (он в принципе недееспособный) либо у него есть право его отозвать по желанию (например у несовершеннолетних такое право обычно есть (voidable contract), контрактов по принуждению это тоже обычно касается).


    1. Batalmv
      07.04.2024 20:53

      Авторские права на эти данные, вроде ж в статья явно указали?


  1. Nurked
    07.04.2024 20:53
    +18

    Главный вопрос - ЗАЧЕМ?

    Оно мне надо?

    Ожидание:

    Как должен выглядеть мир с ИИ
    Как должен выглядеть мир с ИИ

    Реальность в том, что вы так удачно нагенерировали вот в этой картинке:

    Молодец, буратинко, нагенерил.
    Молодец, буратинко, нагенерил.

    Если почитать, что делает Самсунг, например, https://account.samsung.com/membership/policy/privacy то тут только в пору ржать без остановки. Вам на телефоне предоставляется отличный сервис, который ИИ всё что угодно. Но по факту, это всё что угодно просто грузится в генеративные модели для обучения этих моделей.

    А что они делают с этой информацией? Там дальше написано. Реклама и маркетинг.

    Каждая аппка обзавелать новой кнопочкой "ИИ". Только толку от этого вообще никакого. Иногда я могу запихнуть что-то в ЧатГПТ и попросить выжимку. Или поискать в ГПТ вместо поисковика.

    Иногда я генерю монотонный код на ГПТ, но особой помощи в дебаге он не приносит. Простые кейсы можно раздебажить самому, а сложные он дебажит через жопу.

    Иногда запихиваю в него логи линуска, когда рушится какой-то драйвер, и иногда он мне говорит какой драйвер рухнул. Тогда я патчу.

    Но, вот пример из реальной жизни. Жене надо прочитать документ в 100 страниц. Документ на английском. Я хочу его по-русски. Ура! Мы живём в мире помощников! "Щас всё устрою, дорогая" - говорю я и жёстко обламываюсь. Документ - это PDF. Надо сохранить разметку и картинки.

    После 20 минут лазания в интернетах, я обнаружил, что ни платная подписка на ГПТ, ни Копайлот нисколько не помогают. Есть какие-то сайты, на них просят 10 баксов за 100 страниц перевода. И сайты зареганы в китае, непонятно что за модель они пользуют.

    Когда я сижу на работе, я ищу ПО для распознавания инвойсов. Прям так я пошёл и нашёл что-то. Microsoft Document Intelligense как-бы работает, то в реале не больше 80% успеха. После гугления на целый день, я обнаружил, что какая-то контора готова со 100% вероятностью распознавать инвойсы за приличные деньги. Они просто используют Microsoft Document Intelligense для 80% распознаваний, а остальное пропускают через кучу индусов.

    Собственно говоря, о том же и новости про Амазон и их автоматические магазины.

    Все эти "Открытые" ИИ нихрена не открытые. Ими владеют те, у кого мощности и данные. У нас есть гугл, майкрософт, опенэйай, и ещё пара игроков. И всё. И никто из них не будет использовать ИИ для того, чтобы делать что-то, кроме зарабатывания денег.

    Нас, как баннерами, облепят голосовыми помощниками и AI ассистентами, в которых развернётся ожесточённая борьба за первое место в поисковой выдаче. Ведь, в отличие от гугла, где у второго места будет хоть какая-то конверсия, то на "найди мне аптеку" мой ассистент будет отвечать только одним пунктом. Тебе не предложат выбор аптек. Тебя просто направят в аптеку.

    Чего мы хотим - ИИ для чего-то крутого и полезного.

    Что мы имеем - ИИ для продажи и повышения конверсии, и ничего особо другого.

    ИИ никогда не захватит мир и не начнёт войну. Он будет просто ходить по пятам за человечеством и впаривать новую банку спама тому или другому.

    Мне кажется, что вот этот древний ролик Монти Пайтона про Спам намного лучше отражает реальность ИИ.


    1. MountainGoat
      07.04.2024 20:53
      +12

      Кратко: автор не смог найти программу для перевода PDFок с сохранением форматирования. Поэтому в мире уже ничего хорошего больше никогда не будет, всё пропало.


      1. Klochko
        07.04.2024 20:53
        +6

        Хорошего и без подводных камней, пожалуй да, не будет. Ведь действительно, все скатится к ИИ продавцу, который к тому же четко знает все твои слабости и болевые точки и может втюхать любой товар с вероятностью в 98%, либо подкинуть в нужный момент товар который ты с вероятностью 100% купишь. Нихрена хорошего я в этом не вижу.

        Как и в DeepFake технологиях. Уже сейчас политехнологи во всю это тестируют, вбрасывая фейки и замеряя настроения общества. А завтра какой-то политик что-то эдакое ляпнет, а если нужно откатится — свалят на deepfake.

        Я уже молчу о том, что в первую очередь произойдет милитаризация ИИ технологий. Информационные войны, ИПСО различные, кража личностей и продаваны роботизируемые.

        Но у меня складывается ощущение, будто никто не видит или не хочет видеть, к чему все это катится. Никто не будет вкладывать астрономические суммы в ИИ просто так. Гуглы, openai и прочие, не из любви к тех.прогрессу это делают.

        Запретбук уже не раз прихватывали за причинные места за то, что соц.сеть манипулирует общественным мнением. За однобокую подачу информации, за двойные стандарты и т.д ИИ сделает это все еще эффективнее. И будут боты которые задают настроение в комментариях и другие ИИ приблуды, что бы ты видел все положительное про условного Байдена и не капли хорошего про условного Трампа. А это только начало.

        Никто не создает ИИ из альтруизма, за этим стоят конкретные задача поставленные конкретными ведомствами. Манджорни и чат гпт просто открыли доступ к своим наработкам, ограниченным. Что бы люди дообучали эту фиговину, плюс сети учатся определять поведение людей, их характер и т.д Если ты что-то получаешь бесплатно — значит ты и есть товар.

        Так что лично я совершенно никакого оптимизма не испытываю по отношению к ИИ.


        1. wifage
          07.04.2024 20:53
          +1

          ИИ это просто инструмент. Как его используют люди, дорвавшиеся до власти, это другой вопрос. Идеально людей вообще отлучить от власти. Власть ИИ точно хуже не будет.


        1. rg_software
          07.04.2024 20:53
          +2

          В некотором смысле это не так уж и плохо. Мы по умолчанию привыкли доверять обзорам в интернете, комментариям на форумах, статьям в газетах и прочим проявлениям "разума толпы". В большинстве случаев это действительно работало, но эксплуатировать подобное доверие можно было тривиально.

          Если же мы будем жить в мире, где все знают, что случайно взятая статья -- это продукт работы бота, а ролик -- дипфейк, то со временем выработается какой-никакой иммунитет. Ну вот вы говорите, "политик ляпнет". А когда он не ляпает -- он от себе говорит или спичрайтер написал, пояснив, что именно так выгодно сказать? Или в рекламе девушка в белом халате витамины показывает -- это типа медсестра или просто актриса, которую зачем-то в халат облачили?

          Такого рода штуки используются десятилетиями, если не веками, и работают ровно потому, что они не являются частью нашей реальности в бытовом общении. Мы привыкли, что говорим то, что думаем сами (а не спичрайтер напел), а девушка в халате действительно медсестра. Вот давно пора учиться не хватать "Запретбук" за места, а просто игнорировать то, что там написано.


          1. Yuriy_75
            07.04.2024 20:53

            Хм, ну и кому же верить? Статьям в рецензируемых журналах? А если и там "заказуха"?
            Свой опыт, к сожалению, очень ограничен...


            1. rg_software
              07.04.2024 20:53
              +1

              Как вариант, в перспективе будет некое "доверие лейблу" за неимением лучшего. Вы идёте в книжный магазин и видите кучу белых книжек со зверюшками, и на всех большая надпись O'Reilly. А кто автор? Да так, мелким шрифтом в углу. Кого волнует. Есть логотип издателя и зверюшка, значит, примерно понимаем, что нас там ждёт.


        1. 0x6b73ca
          07.04.2024 20:53

          Люди не замечают ничего потому что в той или иной степени являются эгоистами, к примеру есть у меня друг которому не важно какие там авторские права нарушаются и какие последствия за собой это повлечет, пока его это не касается (так он думает) и он может пользоваться чатгпт то ему абсолютно всеравно что там происходит в мире, и почему то я уверен что он такой далеко не один


      1. Ssandarss
        07.04.2024 20:53

        ну попробуй у ИИ выпросить инструкцию к конкретной модели железа какого нибудь, не шибко распространенного. Я пытался к фаерволлу соник волл. Все что может ИИ дать общую инструкцию что делать, а то как реализовать конкретный запрос на конкретном по (потому что от версии к версии кнопки меняются, разделы меняются и .тд. а мануалов в интернете нет, а производитель все нужные шаги не описывает) то по итогу ИИ вообще ничего не может, а тем более сказать что делать если эта общая инструкция не совпадает. А если у тебя мультивендорная среда и у производителя А какая то функция названа АУ, а в производителя Б та же функция названа БУ, то ИИ вообще сойдет с ума т.к. для него это две разные вещи


        1. MountainGoat
          07.04.2024 20:53

          То есть, если ИИ не может то, что не могут люди ("мануалов в интернете нет") - то ИИ вообще ничего не может?

          Hidden text


          1. Ssandarss
            07.04.2024 20:53

            да круто, найти инфу на сайте вендора же только ИИ может, хотя по сути то что говорит копилот это только компиляция той информации что содержится на выбранных им сайтах, на первых страницах поиска и никаких добавочных интеллктуальных данных не содержит. И, если другой человек не написал ранее пост по нужной тебе теме, то никакой ИИ новую информацию не принесет. конкретно в этом примере сложность была в том, что в мануале соник вол не было инфы о том что надо еще роуты настроить, а не только вкладку впн и объекты настраивать. И ИИ обладая "всеми знаниями о фаерволах" соотнести и дополнить ответ не смог


          1. Nurked
            07.04.2024 20:53

            Ну ладно, я вот, например, специалист в NEC SV 9500. У меня есть сертификат. Попробуйте, выудите эту инфу из ГПТ.


  1. SadOcean
    07.04.2024 20:53

    Ну, веселье только начинается.

    Ироничен вопрос с материалами, учитывая, что в гонке участвуют китайцы, которых такие мелочи часто не волнуют


  1. sgvr
    07.04.2024 20:53

    Почему бы не предоставить возможность обучения на "контенте" общения с реальными пользователями? Была бы возможность, я бы лично влил новой информации.


    1. timonin Автор
      07.04.2024 20:53
      +1

      Даже профессия такая есть ИИ тренер, специальные люди отвечают так, как надо отвечать и поправляют ИИ, но на самом это происходит и так, под каждым сообщением ИИ есть палец вверх и вниз, эти данные потом могут использоваться для файтюнинга моделей.


      1. sgvr
        07.04.2024 20:53

        При прямом вопросе (речь идет о бесплатном copilot, который вроде как с gpt4), о том, что есть ли у него возможность обучения на пользователях или нет, заявляет - категорически нет. Типа все данные имеют актуальность на 21 год.


  1. LinkToOS
    07.04.2024 20:53

    По косвенным признакам можно понять, что у ИИ-генераторов серьезные проблемы с сокрытием источников данных, которые пакуются в базу данных при обучении. Авторы часто узнают в "сгенерированных" творениях ИИ свои работы. Не получается изменить исходники настолько, чтобы при выдаче они стали неузнаваемыми авторами, но при этом не превращались в галлюцинации. Сэм Альтман придумал способ уйти от претензий - рассказать сказку о "синтетических данных". То есть о том, что ИИ совсем не использует сторонние данные, а весь контент для собственного обучения синтезирует сам, и все совпадения случайны.

    "запасы ценной информации в интернете скоро иссякнут под натиском ИИ-компаний". "стали настоящей "цифровой кровью", питающей бурно развивающуюся индустрию искусственного интеллекта".
    "Алгоритмы продолжали безнаказанно высасывать данные из YouTube, превращая видео в топливо для развития ИИ".

    Можно человеческим языком написать, для чего конкретно этих данных недостаточно, и почему требуется еще больший объем, или даже постоянный поток?
    Эти вычурные выражения - "кровь", "топливо", "иссякнут запасы информации", "высасывают данные" - ничего не объясняют, а только запутывают.


    1. timonin Автор
      07.04.2024 20:53

      Данные нужны для создания еще более умного искусственного интеллекта. В статье есть ссылка на работу, в которой описана зависимость интеллекта ИИ от количества данных, на которых он обучался. Будет еще больше данных - будет еще более умный ИИ.


      1. Arlekcangp
        07.04.2024 20:53
        +1

        Но что эти данные дадут нового? Ведь по сути основные закономерности в самих языках такие модели давно выучили.(а если нет, то их алгоритм обучения надо признать не эффективным, т к правила любого языка по содержанию в них информации куда меньше всех этих террабайтов) Они умеют связно генерировать текст по любой теме. Пусть даже в форме галлюцинаций, но синтаксически и орфографически верный. Т е дополнительные данные могут дать только то, чего не было до этого в обучающей выборке - разные узкие области в науке, культуре или допустим, какой-то слэнг или языки программирования. Но обучать огромную модель, что бы загрузить в неё узкую тему - это путь в никуда. Во многом здесь лежат источники фаинтюнинга, когда основная модель "замораживается", а обучается только маленький слой поверх. Это конечно моё не авторитетное мнение, но набор данных надо скорее сокращать, чем увеличивать. Болтовня в соц сетях нового не содержит по определению. Как кстати и генерация самих моделей, если только их не перекроят так, что они наконец научатся делать индуктивные рассуждения и искать закономерности в данных по настоящему, как это делает человек. Но этого нельзя сделать оставаясь в рамках обычного трансформера. А пока движения в этой области очень мало. И я думаю, что корпорации не способны сделать этот шаг. Потому что жадность ослепляет. Если такое будет сделано, то на уровне исследователей из научной среды и не факт, что скоро. А включение данных самой модели в обучающую выборку, да ещё безконтрольно (это может произойти, если брать данные просто из интернета) точно прямой путь к переобучению. Включение же узкоспециализированных маленьких датасетов в общий "котёл" не даст нужного качества обучения. Уже слышал о подходе, когда моделе скармливают данные в определённой очерёдности и добиваются лучших результатов, чем просто в случайном порядке. Это на мой взгляд доказательство не верности подхода класть все данные в одну обучающую выборку. Наоборот, нужно сейчас оптимизировать полученные большие модели с точки зрения их потребления ресурсов и возможности дообучения. В идеале должна быть "растущая" сеть, которая увеличивает количество связей в ходе своего обучения, которое происходит постоянно. Начиная с маленького корпуса данных, сеть должна познавать новые данные и обобщать закономерности в них постепенно. Именно так происходит у человека. И пока даже концепции такой в современных архитектурах не просматривается. Обучить сеть на огромном корпусе за раз можно, но получится совершенно иное от желаемого - просто ещё один вид интеллектуальной поисковой машины. Это и видно на результатах, если отбросить хайп.


        1. Apxuej
          07.04.2024 20:53

          Насколько я понял из того, что я слышал от Альтмана и Суцкевера в различных интервью и подкастах OpenAI пробуют реально всё. Все стандартные подходы, подходы которые существуют только в теории, хаки, трюки, какие только можно придумать - если что-то показывает хоть какую-то полезность они это применяют. Поверьте всё, что Вы потенциально можете придумать или где-то слышали - они не только придумали и тоже слышали, но и, почти наверняка, попробовали. Думаю команда в Meta или Deepmind исповедуют похожую стратегия.


  1. Barnaby
    07.04.2024 20:53
    +3

    Иронично, что автор обвиняя корпорации во всех смертных грехах при обучении ИИ накидал в статью нейрокартинок :)


    1. sasha_semen
      07.04.2024 20:53
      +3

      Не удивлюсь, что и сама статья - переработанная генерация. Я вообще подумал что это перевод.


  1. knagaev
    07.04.2024 20:53

    Интересно, что почти одновременно опубликована статья на вполне уважаемом ресурсе, которая практически как близнец этой. Но всё-таки отличается и, в том числе, автором - кто у кого подрезал?

    https://3dnews.ru/1102879/the-new-york-times-v-pogone-za-novimi-dannimi-razrabotchiki-ii-ne-gnushayutsya-perestupat-cherez-etiku-i-zakoni


    1. wepp
      07.04.2024 20:53

      Оба у New York Times. Только местный ссылку дал по тексту, а в конце попиарил себя.


  1. xirahai
    07.04.2024 20:53
    +4

    Законы придуманы людьми, и зачастую они несут абсурдные бессмысленные ограничения, противоречащие здравому смыслу. Не нахожу ничего плохого в том, что для развития технологий обходятся мягко говоря не совсем технически рациональные законы, такие как авторское право. Ведь если копнуть поглубже, чел придумавший что-либо уникальное, учился и набирался опыта у разных людей. А закон почему-то не подразумевает поделиться с ними авторскими доходами. Если же это внедрить, то еще больше разрастется штат контролирующих и юридических органов, не участвующих в производстве материальных благ для человечества. Может лучше двигаться в сторону отказа от всякой непродуктивной дичи, без пользы прожигающей несметные ресурсы. Лучше законы привести в соответствие с техническими реалиями, чем усугублять ситуацию абсурдными попытками зарегулировать в изживших себя правилах.


    1. Apxuej
      07.04.2024 20:53
      +1

      Я не могу для себя определиться с авторским правом. Мне сложно представить капиталистическую страну совсем без авторского права - допустим я хочу продавать какую-ту штуку/результат моего труда. Допустим ценность именно в небольшой модификации/улучшении которое я внёс. Я начинаю продажи и на следующей неделе эту модификацию копируют крупные игроки на рынке. Теперь у меня нет перед ними никаких преимуществ, только недостатки связанные с маленьким размером моего предприятия. Довольно деморализующее для меня положение дел - вряд ли я вообще затею дело, если не будет никаких гарантий. Такое происходит и сейчас, но если ты всё сделал правильно у тебя есть возможность получить вознаграждение - через суд или лицензию. Это относиться не только к чисто материальным продуктам, но и к фильмам, книгам, коду и даже к фотографиям и изображениям.

      Полное отсутствие авторского права оттолкнёт многих, но не всех. Наличие хотя бы программ с открытым исходным кодом подтверждает, что прогресс будет идти, даже несмотря на то, что люди способные к созданию инноваций не получат материального вознаграждения. Очевидно, однако, что скорость прогресса сильно замедлится. Если бы все страны одномоментно отошли бы от капиталистической модели - это могло бы сработать, однако одна или несколько стран принявшие законы уничтожающие авторское право - обречены на поражение в конкурентной борьбе - замедление скорости экономического роста прежде всего из-за отсутствия стимула/мотивации (лишь малый процент населения готов к по-настоящему бескорыстным поступкам) и отток мозгов и крупных предприятий из страны - если это разрешается законами страны. Т.е. наличие даже нескольких стран с капиталистической моделью и защитой авторского права способно отравить всю систему.

      В идеальном мире, где основные блага производятся полностью автоматизированной цепочкой производств и где эти блага распределяются в объёмах не ниже, но и не выше определённых рамок для каждого индивида, может полностью отсутствовать понятие авторского права как мы его видим сейчас. Т.е. человек всё ещё может быть вознаграждён обществом за его вклад, но не может воспользоваться карающими институтами государства для того, чтобы ограничить других людей в возможности использовать результаты своего труда по их усмотрению. Т.е. нет и не может быть оправдания, что авторское право нужно тебе, чтобы выживать и кормить семью - всё это и гораздо более этого уже гарантированно планетарными системами производства и распределения.

      А в настоящем я, пожалуй, больше за, чем против авторского права.


      1. xirahai
        07.04.2024 20:53
        +1

        Капитализм себя изжил больше ста лет назад, существуя с тех пор только за счет грабежа колоний и эксплуатации народов в своих или других странах. Без притока материальных благ извне, он потерял способность развиваться и улучшать жизнь общества. По сути это глобальная паразитическая система, в которой меньшинство живут за счет отъема благ у большинства. И система авторских прав работает в том же ключе, в большинстве случаев препятствуя прогрессу.

        Как разумная и полезная для развития общества альтернатива - автор конечно должен получать вознаграждение за рацухи, открытия, изобретения, гуманитарное творчество, и тд. Но это должно иметь хоть и крупную, но разумную и ограниченную во времени меру (скажем разовое вознаграждение), чтобы не становиться источником дальнейшего паразитического существования как отдельных лиц, так и целых корпораций. И не должно тянуть за собой слишком большую свиту чиновников, юристов, и прочих причастных лиц, по сути не производящих благ для общества, но пожирающих заметную их часть.


  1. engine9
    07.04.2024 20:53
    +1

    Думаю, что основной бедой станет гиперцентрализация капитала в руках основных ИТ гигантов, т.к. все подсядут на их сервисы и бабки всего мира будут оседать у них, а люди и целые экономические отрасли будут зависеть от их инструментов.


    1. MountainGoat
      07.04.2024 20:53

      Ну борцы за авторское право на каждый чих в Интернете сейчас изо всех сил стараются сделать, чтобы было именно так.


  1. Wizard_of_light
    07.04.2024 20:53
    +1

    Потом они поймут, что вокруг море информации - реальный мир, а начальным тренером нейросети может быть менее обученная нейросеть. Вот тогда всё и начнётся.


  1. Kulibinson
    07.04.2024 20:53

    Ну, суть в том, что википедия, реддит и прочие цифровые медиа - поставщики мусорных данных, генерируемых косноязычными имбецилами.


  1. savostin
    07.04.2024 20:53

    Был бы благодарен ИИ, который выжмет воду из этой человеческой «крови» воды.


  1. Leo999
    07.04.2024 20:53
    +1

    Использование текстов любых произведений для обучения ИИ моделей, путём извлечения из текстов токенов (слов, сочетаний слов, т.п.) очень трудно назвать нарушеним авторских прав. В больших текстах двух любых аторов всегда можно найти совпадающие слова или сочетания слов. Никто не считает это нарушением авторских прав.

    Ведь тексты авторов, которые боятся за свои права, используются не для создания другиз произведений, а совсем для других целей.

    ТТогда почему бы не назвать нарушением аторских прав чтение книги и запоминание интересных мест читателем? Или ещё вариант - я взял книгу, поехал на дачу, стало холодно, дров не оказалось, и я сжег эту книгу в печке, стобы согрется. То есть полностью использовал это произведение. Нарушил ли я авторские права?

    Короче, все стенания авторов о нарушении их прав - это просто желание содрать деньги с богатых компаний.


  1. Olia22
    07.04.2024 20:53

    За ИИ будущее.Понятно что без жертв в науке ничего не получится.Делайте выводы,какими приложениями и браузерами пользоваться.И будет вам счастья;)


  1. Lexicon
    07.04.2024 20:53
    +3

    Чуток разочаровывает, как много хайпа люди, в первую очередь на хабре поднимают вокруг "за ИИ будушее". Блин, так проблема в том, что мегокорпы украдут все данные на свете, закроют все данные на свете и "ограничат ИИ для широкой публики" по требованиям правительств и без.


    1. SparkyJoyteon
      07.04.2024 20:53

      как было с системой поиска по лицу раньше, в какой-то момент компания продалась правительству и полностью закрыла функционал для сторонних юзеров


  1. Nick0las
    07.04.2024 20:53

    Два вопроса, один по поводу авторских прав, второй к создателям ИИ.

    1. Естественый селовеческий интеллект за всю свою жизнь способен принять на вход порядка 10^9 токенов. И этого вполне хватает чтобы базово обучиться и научиться добывать информацию. Может у тех кому всех книг мира не хватает проблемы м подходами?

    2. А почему никто не хосет предъявить какие-либо требования в нарушении естественному интелекту т.е. человеку за то что он обучается на данных созданных другими людьми, а не просто их потребляет?


    1. Yuriy_75
      07.04.2024 20:53

      Вообще-то раньше люди книги и журналы покупали. Таким образом, за "данные созданные другими людьми" было принято платить.


      1. vikarti
        07.04.2024 20:53

        Библиотеки


        1. Yuriy_75
          07.04.2024 20:53

          Библиотеки книги приобретают. Так что в данном случае тоже оплата есть, только платит государство.


          1. qw1
            07.04.2024 20:53
            +2

            Васян, выложивший DVD на торренты, тоже не украл его, а честно приобрёл.


            1. Yuriy_75
              07.04.2024 20:53
              +1

              Только вот выложенным на торрент может пользоваться неограниченное число людей параллельно. А книгой в библиотеке - только один человек одновременно.


              1. qw1
                07.04.2024 20:53

                Аргумент, который тыщу раз разбирался. Допустим, делаем ПО "Цифровая библиотка", которое отслеживает, сколько пользователей одновременно смотрят фильм/читают книгу. Покупаем например 10 копий фильма, и пользователи смотрят их, занимая очередь, не более 10 одновременно. Думаете, у копирастов не будет претензий к этой схеме? Как бы не так.


                1. Yuriy_75
                  07.04.2024 20:53

                  Ну да, точка зрения копирастов не во всем совпадает со здравым смыслом.

                  Что не означает, что полностью противоположная точка зрения будет со здравым смыслом полностью совпадать.


                  1. qw1
                    07.04.2024 20:53

                    Так, по здравому смыслу, сколько раз нужно платить автору?

                    Фиксированное число раз (в пределе - 1 раз, и экземпляр произведения пошёл по рукам), или за каждый просмотр каждым человеком платить заново (модель, когда купить произведение нельзя, но можно купить 1 просмотр)?


                    1. Yuriy_75
                      07.04.2024 20:53

                      По здравому смыслу - автору востребованных произведений нужно платить столько, чтобы у него была возможность заниматься созданием таких произведений.

                      В текущей реальности - для видео уже полно вариантов с абонементом (библиотека, ага) , когда за каждый из просмотров платить не надо.


                      1. qw1
                        07.04.2024 20:53

                        По сути, так сейчас и происходит. Копирасты 1 раз платят автору самый минимум, чтобы ему было интересно этим заниматься, а всю основную прибыль кладут себе в карман.


              1. vikarti
                07.04.2024 20:53
                +1

                Были попытки искуственно реализовать схему с одним пользователем цифрового контента, вообщем копирастам показалось мало.

                Ну и в библиотеках то может пользоваться один но вот только ксерокс там тоже обычно есть и вполне себе дают копировать и сотнями страниц (да - не бесплатно, тонер не бесплатный).


      1. qw1
        07.04.2024 20:53

        Вообще-то раньше люди книги и журналы покупали. Таким образом, за "данные созданные другими людьми" было принято платить

        Но есть нюанс. Если раньше купил журнал, и учись по нему сколько хочешь, то сейчас правообладатели думают, как бы с обученных моделей слупить денег больше, чем стоит 1 раз прочитать произведение, а то и вовсе запретить обучение.


    1. vikarti
      07.04.2024 20:53

      Есть ньюанс - базовая нейросеть настраивается эволюцией


  1. Zergboy
    07.04.2024 20:53

    Я, честно говоря, не понял сути истерики в статье... Точнее самой проблемы "нехватки" информации для обучения (я не беру сейчас тему авторских прав, как написали закон в одну сторону, так напишут и в другую).
    Ок, китайцы обучили свою сетку на 3,6 триллионах токенов. И? Так плохо учили, что нужно еще?
    Сравнение с кровью попахивает желтой прессой на мой вкус - информация не исчезает после ее потребления. В чем проблема-то? Эти 3.6 триллионов токенов никуда не делись. Или ИИ плохо учится и идет попытка объемом компенсировать кривость алгоритма? Или?
    я надеюсь, понятно выразил свой вопрос.