До 5 % новых статей «Википедии» содержат тексты от ИИ / forpes.ru

Главная
До 5 % новых статей «Википедии» содержат тексты от ИИ

До 5 % новых статей «Википедии» содержат тексты от ИИ +15

17.02.2025 21:48

atomlib 35 1900 Источник

Результат анализа детекторами GPTZero и Binoculars. Как выяснилось, до 5 % из 2 909 новых (от августа 2024 года) статей в англоязычной «Википедии» содержат значительные объёмы контента, который идентифицируется как написанный большими языковыми моделями. Для других языков эта доля ниже, но тоже ненулевая. Красным пунктиром задана доля в 1 % ложноположительных срабатываний, которые взяты из схожего анализа статей, написанных до релиза GPT-3.5

Исследователи Принстонского университета оценили новые статьи «Википедии» на «машинность». Сравнение до и после распространения больших языковых моделей показало, что почти 5 % материалов на английском языке содержат значительные объёмы текста, который писал искусственный интеллект. В других языковых разделах этот показатель ниже, но явление выражено и там.

30 ноября 2022 года компания OpenAI представила сервис ChatGPT, который немедленно популяризировал использование больших языковых моделей (БЯМ) для генерации контента. ChatGPT набрал 100 миллионов пользователей всего за два месяца. В январе 2023 года о планах использовать ChatGPT для генерации контента объявила медиакомпания BuzzFeed.

Насколько быстро ИИ завоевал популярность, настолько же быстро тексты от БЯМ стали синонимом низкокачественной писанины. Уже в марте 2023 статьи от робота Buzzy на BuzzFeed раскритиковали: тексты оказались неинформативными и алогичными, содержали повторы оборотов и часто употребляемые (до уровня речевых паразитов) словосочетания. Эти качества стали признаком такого контента, который на английском прозвали «slop».

«Slop» переводится как «помои» и в наши дни употребляется часто: термин претендовал на звание слова 2024 года по версии Оксфордского словаря. Как рассказывает «Википедия», в контексте искусственного интеллекта словом «slop» обозначают низкопробный или нежелательный цифровой контент, заполняющий социальные медиа, галереи фотографий и картин, выдачу поисковых машин и даже печатные книги.

Сама «Википедия» тоже страдает от «помоев». По крайней мере, статей от БЯМ появляется достаточно, чтобы потребовался отдельный проект WikiProject AI Cleanup для их поиска, редактирования и удаления. AI Cleanup был запущен группой энтузиастов осенью прошлого года. На данный момент страница проекта перечисляет десятки статей, подозреваемых на контент от БЯМ. Какой-либо более детальной статистики о размахе явления AI Cleanup не имеет. Проект признаёт наличие проблемы и предлагает с ней бороться, а не пытается оценить её серьёзность.

Собственную оценку доли «помоев» в «Википедии» предложили исследователи Принстонского университета Крестон Брукс [Creston Brooks], Самуэль Эггерт [Samuel Eggert] и Денис Песков [Denis Peskoff]. Если верить этому анализу, почти каждую двадцатую новую страницу в «Википедии» отчасти или полностью написал искусственный интеллект.

Обнаружить тексты БЯМ даже вручную нелегко, поэтому для этого анализа потребовались автоматизированные детекторы. Эффективность систем обнаружения БЯМ — спорный вопрос. Ещё в 2019 году оценить «машинность» текста удавалось с точностью в 73 % (arXiv:1905.12616), и в последующие пять лет качество работы моделей лишь росло. В 2022 году для обмана системы антиплагиата MOSS достаточно было по нынешним меркам примитивной модели GPT-J на 6 млрд параметров (arXiv:2201.07406).

Одновременно с этим любые проценты ошибки больно бьют по реальным людям. На основе таких детекторов пытаются оценивать, кто выполнял домашнюю работу, а кому сочинение писал ChatGPT. В последнее время в СМИ с примерами объясняют, почему в академической среде нельзя полагаться на такие детекторы. Исследования указали на проблему ещё раньше: в апреле 2023 года было показано, что коммерческие детекторы излишне часто реагируют на сочинения на английском от тех, для кого этот язык неродной (arXiv:2304.02819).

Впрочем, не всё потеряно: продукты этой сферы испытывают коммерческий спрос, поэтому их активно развивают. Часто для такого анализа задействуют как компаративный анализ (разнообразие лингвистических единиц, варьирование длины предложений и перплексию), так и лингвистический (повторения семантических смысловых единиц).

Авторы научной статьи по оценке «машинности» статей «Википедии» выбрали для своих целей два детектора, которые подходили по масштабу работ и точности:

Коммерческий детектор GPTZero. Продукт оценивает вероятность того, что текст был написан ИИ, полностью человеком или комбинацией ИИ и человеческого труда.

Поскольку это проприетарный продукт, он обладает фундаментальным недостатком: невозможно оценить методологию его работы, «подкрутить» его алгоритмы или сделать какие-то глубокие выводы о его эффективности для конкретной задачи. Конечно, на сайте GPTZero приводятся какие-то принципы работы, но без конкретики.

Изначально GPTZero поддерживал английский язык. В апреле 2024 года сервис покрыл потребности всей Северной Америки: было заявлено о поддержке испанского (второго по популярности в США после английского и основного языка Мексики) и французского, который имеет равный статус с английским в Канаде. Как пишут авторы анализа «машинности» Википедии, GPTZero в первую очередь предназначен для английского. Для текстов на других языках доля ложноотрицательных срабатываний может вырасти.

Наконец, заметный минус любого проприетарного коммерческого решения — цена. Авторы исследования суммарно потратили тысячу долларов на запросы к GPTZero. Бесплатных кредитов сервис, похоже, не давал. Научная статья за финансирование исследования благодарит лишь Адель Голдберг. Сам сервис с удовольствием цитирует исследование у себя на сайте как пример удачного применения детектора.
Метод Binoculars, который открыт, схема его работы хорошо известна, он используется на локально запускаемых моделях.

Брать именно Binoculars — вполне логичное и даже ожидаемое решение. В оригинальной научной статье про Binoculars в сравнении с другими продуктами заявлен хороший результат обнаружения выдачи ChatGPT на текстах из «Википедии».

Обнаружение сгенерированного ChatGPT текста в различных областях из датасета M4. По горизонтали: полнота, то есть доля положительных случаев, которые были обнаружены. По вертикали: точность, то есть сколько положительных ответов были правильными. arXiv:2401.12070
Метод Binoculars основан на оценке неожиданности единицы текста относительно предыдущего текста. Выглядит это как вычисление отношения логарифмов перплексии (показатель того, насколько строка неожиданно выглядит для модели ) и перекрёстной перплексии (насколько неожиданны предсказания токенов модели для модели ). Метод основан на том, что сама по себе перплексия — слабый показатель «машинности» текста, её нужно сравнивать с неожиданностью для другой модели.
$\begin{equation} B_{M1,M2}(s) = \frac{\log \text{PPL}_{M1}(s)}{\log \text{X-PPL}_{M1,M2}(s)} \end{equation}$
В реализации Binoculars для оценки «Википедии» в качестве моделей и брались Falcon-7B и Falcon-7B-Instruct. Выбор тоже оправдан: ссылаясь на доклад про эти БЯМ (arXiv:2311.16867), авторы анализа пишут, что среди прочего в датасет обучения моделей входили тексты из «Википедии». С другой стороны, это может вылиться в серьёзный недостаток: Binoculars даёт больше ложноположительных срабатываний в тех случаях, если «заряженные» в него модели обучались на фрагментах анализируемого текста.

Говоря проще, Binoculars укажет: конституцию США писала машина — очевидное ложное срабатывание. Так получится, поскольку исторический документ часто встречался в датасетах обучения и оттого для БЯМ предсказуем.

Для анализа были задействованы тысячи страниц «Википедии» на английском, немецком, итальянском и французском. Статьи выбирались случайно. В выборку не брали тексты короче 100 слов.

Язык	Старые (до марта 2022 года)	Новые (август 2024)
Английский	2965	2909
Немецкий	4399	3907
Итальянский	2306	3003
Французский	4351	3138

Для анализа команда сделала важное допущение: до марта 2022 года с помощью ИИ никто не писал, поэтому все дополнительные срабатывания в августе 2024 года — это плоды труда БЯМ. Хотя на тот момент уже существовали ныне кажущиеся примитивными БЯМ по типу GPT-2, уже 5 апреля Google выпустит PaLM, а ещё в марте (24 и 25, соответственно) были представлены SeeKeR и CODEGEN. Сами авторы анализа напоминают, что в апреле 2022 года была выпущена GPT-3.5, «докрученный» вариант которой к ноябрю начал обслуживать запросы ChatGPT.

В связи с этим возникли опасения, что старые (до марта 2022 года) страницы будут более выверенными из-за многих лет редактирований. На практике оказалось, что характеристика «большое число правок» у статьи слабо коррелирует с повышенной оценкой «машинности» текста, поэтому доля ложноположительных срабатываний у старых статей может быть даже завышена.

Нижняя граница получается по статьям, которые точно писали люди: по старым, до марта 2022. Затем этот процент вычитается из результата для статей от августа 2024 года. В общем-то, ничего нового в этом подходе нет: он уже встречался в опубликованном в мае 2024 года анализе, где таким методом выявляли частоту использования БЯМ в экспертных оценках научных публикаций (arXiv:2405.02150).

Оказалось, что из 2 909 новых статей в англоязычной «Википедии» 4,36 % (сырые 5,36 % минус 1 % ложноположительных срабатываний) содержат заметные объёмы текста, сгенерированные большими языковыми моделями. Если говорить о конкретных числах статей на английском, то GPTZero нашёл 156, Binoculars — 96. Мнения обоих детекторов совпали независимо друг от друга относительно 45 статей.

Даже простая статистика выявляет, насколько тексты от ИИ низкокачественные: в «подозреваемых» статьях мало ссылок на внешние источники. В таблице ниже сравниваются две группы: все новые статьи и только «подозреваемые». В последнем случае речь идёт о 207 статьях на английском, 174 — на французском, 249 — немецком, 206 — итальянском. Как и в остальных случаях, порог был задан так, чтобы уровень ложноположительных срабатываний составил 1 % для каждого из использованных инструментов.

Язык	Сносок на предложение		Внешних ссылок на слово
Язык	Только обнаруженные как ИИ	Все новые статьи	Только обнаруженные как ИИ	Все новые статьи
Английский	0.667	0.972	0.383	1.77
Французский	0.370	0.441	0.474	1.58
Немецкий	0.180	0.211	0.382	0.754
Итальянский	0.549	0.501	1.16	1.64

И Binoculars, и GPTZero соглашаются: 45 статей на английском точно писала машина. Многие из этих текстов были опубликованы одними и теми же википедистами. Большинство из этих 45 страниц были либо удалены, либо украшены плашками от модераторов, требующими добавить источники и предупреждающими читателя, что в статье может содержаться контент от больших языковых моделей.

Авторы анализа не отказали себе в удовольствии присмотреться к конкретным подробностям «машинных» статей и заглянуть в рутину функционирования «Википедии». Были выделены даже категории:

8 из 45 статей содержали откровенную рекламу. Часто в таких текстах источников попросту нет, кроме гиперссылки на внешний ресурс, который и рекламируется. В одном случае стояла ссылка на рекламу винодельни, и у этого видеоролика на YouTube было менее сотни просмотров. В другом рассказывалось про имение в Великобритании, где когда-то якобы жили известные личности.

Команда модерации «Википедии» активно находит и устраняет подобную рекламу.
Тексты от БЯМ используются в активных войнах правок. Ниже в истории вклада одного из участников «Википедии» красной рамкой выделены новые статьи, а зелёной — правки про конфликт в Дибре в первой половине XX века: «смешанные результаты» [mixed results] были исправлены на «победу».

Как видно, после нанесения поражения противнику в войне на Балканах нарушитель сел за статью про восстание в Дибре. Исторический трактат был готов уже через ¾ часа.

Даже без консультации историка очевидно, что автор правок и статей — албанский националист. Статья фокусируется на неудачах Югославии и никак не объясняет сербское или любое иное славянское присутствие на оспариваемых территориях. Действия Албании представлены как защита и сопротивление внешнему вторжению, что отражено даже в названии («восстание», хотя обычно этот конфликт называют войной)
Позднее модераторы удалили статью.
Часть срабатываний детекторов связана с машинным переводом. В поле зрения анализа попал один из топовых участников, который переводит статьи из французского раздела на итальянский язык, но при этом предупреждает о характере своих текстов у себя в профиле.

Авторы анализа помнят, что у википедистов машинный перевод — распространённая практика, но предупреждают о простоте, с которой БЯМ вносят неточности и предвзятости (arXiv:2302.09210).
Наконец, некоторые википедисты прибегают к БЯМ как инструменту для письма: они десятками выдают статьи на самые разнообразные темы — от видов змей и разновидностей грибков до кухни Индии и игроков в американский футбол. В одном случае исследователи даже натолкнулись на пользователя, который, похоже, «скармливал» в БЯМ некую книгу и размещал краткое содержание каждой главы.

Уникальна ли в этом отношении «Википедия»? В рамках дополнительного исследования анализ попытался ответить даже на этот вопрос.

Логично ожидать, что политические боты будут пользоваться БЯМ. Тем не менее это не так. Авторы исследования «Википедии» скачали с Kaggle датасет комментов с политизированных подреддитов (конфликт Израиля и Палестины, мнения о двух правящих партиях в США) и выбрали оттуда 3 000 образцов.

Лишь 1 % набрал в GPTZero оценку «машинности» выше 0,500. Научная работа приводит пример комментария, вызывающего подозрения. Он наполнен разнообразными характерными для темпа рассуждений БЯМ подытоживаниями, вводными фразами вида «важно отметить, что…» и смысловыми противопоставлениями по типу «хотя…, но…». Кроме того, комментарий написан в высокопарном книжном стиле, который вряд ли характерен для обывателя. Сложно не засомневаться, что пишет человек.

Хотя признание символического отказа от двухпартийной системы понятно, спор здесь заключается в практических последствиях голосования за третью партию. Крайне важно понять, что призыв голосовать за третью партию — это не только символический акт, но и стратегический шаг к более разнообразному политическому ландшафту со временем. Этот аргумент заключается в том, что голосование за кого-либо, кроме Байдена, увеличивает шансы Трампа на победу. Однако эта точка зрения предполагает бинарный результат, игнорируя возможное долгосрочное воздействие продвижения альтернативных голосов. Переход к многопартийной системе — это постепенный процесс, и для того, чтобы способствовать этому изменению, избиратели должны делать выбор, соответствующий их принципам. Более того, характеристика выбора между «скучным умеренным демократом» и «крайне коррумпированным, авторитарным республиканцем» как вопроса с высокими ставками подчёркивает необходимость более широких политических опций. Поддержка третьих партий сейчас может проложить путь к более представительной демократии в будущем, где избиратели не будут ограничены выбором наименьшего из двух зол. Хотя нынешние выборы могут казаться вопросом с высокими ставками, важно учитывать долгосрочную цель разрушения дуополии ради более здоровой демократии. Голоса за третью партию, вместо того чтобы быть просто протестами, могут быть стратегическими шагами к этим трансформативным изменениям.

Напротив, на удивление много «машинных» текстов оказалось среди пресс-релизов ООН. В 2024 году их было 20 %, в 2023 — 12,5 %, а для 2022 года детектору GPTZero не понравились всего 1,6 % пресс-релизов. Авторы исследования про «Википедию» для этих целей сравнили 8 326 пресс-релизов с 2013 по 2024 года от 60 команд ООН, которые регулярно размещают на подсайте вида {страна}.un.org обновления о своём государстве.

Рост «машинности» пресс-релизов ООН легко списать на автоматизированный перевод. Однако многие из авторов этих текстов имеют учёные степени вузов англоговорящих стран. В приложении научной статьи приводятся три таких проблемных пресс-релиза Белиза, Бангладеш и Туркменистана.

Препринт научной статьи «The Rise of AI-Generated Content in Wikipedia» опубликован на сайте препринтов arXiv.org (arXiv:2410.08044).

«Википедия» — далеко не исключение: тексты от нейросетей изменили весь Веб. Система антиплагиата Originality.ai ведёт статистику, согласно которой почти каждый пятый сайт содержит творчество БЯМ.

На регулярно обновляемом графике заметен стабильный рост после открытия ChatGPT в конце 2022 года и релиза семейства моделей GPT-4 в начале 2024. Наиболее заметный скачок произошёл после обновления поисковой машины Google в марте прошлого года. Сейчас 19,1 % сайтов из топ-20 поисковой выдачи Google содержат контент от БЯМ. «Википедия» на этом фоне со своими 4–5 % выглядит очень пристойно.

Доля обнаруженных сайтов с контентом от ИИ в топ-20 результатов поисковой выдачи Google. Originality.ai

Даже если наплевать на качество жизни людей, не стоит забывать: обучение БЯМ на контенте от других БЯМ ведёт к коллапсу, делает тексты более предсказуемыми (arXiv:2305.17493). Именно из-за загрязнения датасетов какая-нибудь Llama может представляться продуктом ChatGPT от OpenAI.

К сожалению, Интернет навсегда и безвозвратно поделился на два периода: до 2022 года, когда тексты писали только люди, и после, когда приходится сомневаться и перепроверять любой факт.

Комментарии (35)

ednersky
17.02.2025 23:53
#27934996
а знаете что? я вот обратил внимание, что за последние годы во многих статьях википедии появилось много очень математических формул. Причём часто даже без пояснений, какая буква в них что значит.

Периодами википедия выглядит вот так:

При этом, очевидно, что это всё противоречит смыслу энциклопедии, которая задумана для того, чтобы любой, даже неспециалист, заглянув, понял что к чему.

А тут даже в законы Ньютона помимо F=m*a понапихали всяких векторных d/dt и прочих сумм (ладно хоть там объяснение есть).

Так вот, размышлял я над этим феноменом, а потом подумал: А ведь ИИ учат прежде всего по википедии, а формулы - это сконцентрированный смысл.

Вероятно, формулами энциклопедию для того и наводняют, чтоб потом на ней учить ИИ?
1. NAGIBATOR-1999
  17.02.2025 23:53
  #27935050
  Ему бы просто скормили ландафшица.
1. Nuflyn
  17.02.2025 23:53
  #27936458
  Смыслу энциклопедии это не противоречит, просто можно дать информацию разного уровня, например вначале, условно, для школьников дать законы Ньютона с опытами с катающимися тележками, а потом дать ссылочку на статью "Лагранжева механика", где все хорошо проварьировать и вывести
  1. ednersky
    17.02.2025 23:53
    #27936468
    статья "Лагранжева механика" тоже должна быть понятна для неспециалиста
1. Zenitchik
  17.02.2025 23:53
  #27937536
  Да это всегда так было. Только в бумажных справочниках ещё и по ссылке приходилось вручную идти.
  
  А ведь ИИ учат прежде всего по википедии, а формулы - это сконцентрированный смысл.
  
  Сконцентрированный смысл нужен человеку. А ИИ - не факт, что способен на таком учиться (по крайней мере в настоящее время).
  
  всяких векторных d/dt
  
  А что Вы хотели там увидеть? Второй закон Ньютона - это и есть
  $\frac{d\vec p}{d t}=\Sigma_{i=1}^n \vec F_i$
  Только для школьников его попроще записывают.
  1. ednersky
    17.02.2025 23:53
    #27937958
    А что Вы хотели там увидеть? Второй закон Ньютона - это и есть
    
    нет, в этом месте Вы не правы.
    
    Здесь Вы (и авторы википедии) смешивают две РАЗНЫЕ вещи:
    
    второй закон Ньютона
    
    принцип суперпозиции, который даёт нам возможность складывать силы
    
    Школьники раньше изучали это как две разные вещи и это и педагогически правильно и по сути тоже правильно.
    
    NAGIBATOR-1999
    17.02.2025 23:53
    #27938392
    Можно сформулировать принцип суперпозиции?
    
    ednersky
    17.02.2025 23:53
    #27938496
    https://ru.wikipedia.org/wiki/Принцип_суперпозиции
    
    Википедия: При́нцип суперпози́ции — допущение, согласно которому результирующий эффект нескольких независимых воздействий есть сумма эффектов, вызываемых каждым воздействием в отдельности. Справедлив для систем или полей, которые описываются линейными уравнениями. Важен во многих разделах классической физики: в механике, теории колебаний и волн, теории физических полей[1].
    
    соответственно, вот эта правая часть формулы, что выше скопипастена - это реализация этого принципа и есть:
    
    Соответственно закон Ньютона конечно можно формулировать как
    
    ( F1 + F2 + F3 ) / m = a
    
    или
    
    F = m * (a1 + a2 + a3)
    
    но это будет сознательное замыливание сути, поскольку получается смешение двух разных понятий/принципов.
    
    NAGIBATOR-1999
    17.02.2025 23:53
    #27940054
    Нет в этом никакой сути.
    
    Zenitchik
    17.02.2025 23:53
    #27938928
    Школьники раньше изучали это как две разные вещи и это и педагогически правильно и по сути тоже правильно.
    
    Как бы не так. Школьники просто не записывали, что "равнодействующая всех сил" - это векторная сумма всех сил, но на словах им это говорили сразу.
    
    ednersky
    17.02.2025 23:53
    #27939014
    ещё раз: "равнодействующая" - это про суперпозицию.
    
    а закону Ньютона достаточно формулироваться относительно одной (в скобках: одной) силы. Ибо соединение его с принципом суперпозиции - это уже аналитическое действие.
    
    Ещё его можно соединять, например, с законом сохранения энергии. Мы же не будем сюда его тащить?
    
    Не будем. И не нужно! И вредно!
    
    Что характерно, старые учебники физики это не мешали. Ибо это было правильно не только с научной, но и с педагогической точки зрения.
    
    Zenitchik
    17.02.2025 23:53
    #27939128
    старые учебники физики это не мешали.
    
    Насколько старые? Я 1984 г.р. У нас в учебниках была "равнодействующая". Обозначалось буквой
    $\vec F$
    Ибо это было правильно не только с научной, но и с педагогической точки зрения.
    
    Чем докажете?
    
    ednersky
    17.02.2025 23:53
    #27939168
    в старых учебниках оно изучалось дважды: в шестом и девятом классах
    
    первое было в рассчете, что ученик не знает производных, дифференциалов и сумм
    
    емнип автор учебника Пёрышкин или Кикоин, 6 кл
    
    ps: у совр учебников автор тоже Пёрышкин, но совсем другой
    
    pps: принцип суперпозиции точно определялся отдельно
    
    а еще 1 закон ньютона определялся через понятие «действуют тела», и даже понятие «сила» вводилось тоже позже
    
    а в 9-10 классах могли уже с равноденствующей смешивать, да. и говорить об инерциальных системах отсчета
    
    но именно первый учебник формулировал так, чтоб понимал тот, кто не сталкивался с этим: для энциклопедии — просто идеально
    
    Zenitchik
    17.02.2025 23:53
    #27939694
    
    в старых учебниках оно изучалось дважды: в шестом и девятом классах
    
    первое было в рассчете, что ученик не знает производных, дифференциалов и сумм
    
    Ну да, так и есть. По-нашему (без 4 класса) - это седьмой.
    Но нам сразу прямо на физике объяснили, как рисовать схемы, как выбирать оси, как проектировать вектора на эти оси и как составлять уравнения в проекциях.
    
    Векторные операции как таковые не использовались, но формула в виде суммы векторов - писалась.
    
    ednersky
    17.02.2025 23:53
    #27939848
    Да объясняли векторную геометрию, но объясняли не в составе с законом Ньютона а рядом.
    
    вот нашёл учебник Кикоина, второй закон Ньютона, никакого принципа суперпозиции
    
    страница 94, Кикоин, Физика 8 кл
    И пусть и рядышком, но отдельно про равноденствующую и сложение сил:
    
    страница 95, Кикоин, Физика 8 кл
    
    А ещё само понятие равноденствующей дополнительно вводилось ещё в 6 классе (без законов Ньютона)
    
    страница 55, Пёрышкин, Физика 6 класс
    а в 9 или 10 классе это проходили снова и уже появлялись d/dt, импульсы итп. Тоже можно найти.
    
    PS: почему-то не смог найти за 8 класс Пёрышкина - в поиске постоянно путается не тот Пёрышкин, а тот, который современный учебник написал. Современный, кстати, много хуже - имеет много нестыковок и между собой и с математикой изучаемой параллельно.
    
    PPS: А вот первый закон Ньютона (или закон Галилея, как его в советское время ещё называли) сформулированный вообще до введения понятия Сила:
    
    страница 84, Кикоин 8 класс
    
    Zenitchik
    17.02.2025 23:53
    #27942030
    Да объясняли векторную геометрию, но объясняли не в составе с законом Ньютона а рядом.
    
    Её объясняли заранее, когда рассказывали про скорость.
    
    Поэтому, когда от кинематики переходили к динамике, школьники уже были готовы к сложению векторов и их проекциям.
    
    ednersky
    17.02.2025 23:53
    #27942086
    ну да, вот сформулировали первый закон Ньютона, а рядом понятия инерция и инертность.
    
    И учителя требовали формулировок того, другого и третьего как независимых друг от друга понятий. Несмотря на то, что все три понятия находятся около одного закона.
    
    Это вообще естественно для человеческого мышления - расчленять задачу на простые составляющие и разбираться с ними по отдельности.
    
    Поэтому у нас имеется отдельно закон Ньютона, отдельно понятие инерции и понятие инертности.
    
    У нас имеется другой закон Ньютона и отдельно понятия: силы, ускорения. Принцип суперпозиции, область применимости этого принципа и так далее.
    
    Что-то, разумеется, можно свободно смешивать. Но верну нас обратно: для чего нужна статья в энциклопедии? Для того же, для чего учебник: чтобы несведующий человек мог получить знания. А если в этой статье что-то не ясно, то там будут отсылки к более простым понятиям из которых это "неясное" состоит.
    
    Как-то так
1. ahabreader
  17.02.2025 23:53
  #27938114
  Плохой пример, это середина статьи про теорему Нётер, после разделов "1. Общие сведения, 2. Неформальная формулировка теоремы, 3. Краткая иллюстрация и обзор концепции 4. Исторический контекст".
  
  Но проблема есть. Чтобы статья не выглядела как шпаргалка для студента, нужны усилия. Больше редакторов - больше человеко-часов на статью (английская википедия качественнее).
  
  Там есть советы, как писать статьи ("от простого к сложному" и т.д.):
  https://ru.wikipedia.org/wiki/Википедия:ПРОЩЕ
  1. ednersky
    17.02.2025 23:53
    #27938290
    Плохой пример, это середина статьи про теорему Нётер
    
    в этой статье (если мы говорим об энциклопедии) доказательства вредят статье.
    
    их вообще нужно удалить и никогда не показывать.
    
    Должно было быть как-то вот так (скрин chatgpt):
    
    Плюс можно сказать о том, в чём смысл первой второй и так далее её теорем (несмотря на обилие формул, статья не раскрывает смысл и отличия всех её теорем).
    
    Ну на худой конец можно выписать КОНЕЧНЫЕ ФОРМУЛЫ, но при этом расписать что значит какая в них буква.
    
    А то, что есть - это антиэнциклопедия.
    
    ahabreader
    17.02.2025 23:53
    #27938328
    Мягкое и тёплое. Вывод ChatGPT подходит для начала статьи. Доказательства могут подходить для углублённой части статьи. Могут не подходить. В любом случае, это уже другой вопрос - он не касается вводной части статьи.
    
    ednersky
    17.02.2025 23:53
    #27938378
    смысл энциклопедии - распространение знаний от учёных к простым людям.
    
    в данном случае, получилась статья от математиков к математикам. Физика упомянута очень вскользь, то есть статья даже для физиков слабоинформативна.
    
    прямо классический случай, что "за деревьями не видно леса".
    
    ahabreader
    17.02.2025 23:53
    #27938448
    Но чем сложнее люди, тем дальше они будут углубляться. Критика направлена на преамбулу и первые разделы (мягкое), а в качестве примера показывает, насколько далеко заходит статья после них (тёплое). Поэтому пример плохой. Тем более, что преамбулу и первые разделы есть за что критиковать.
    
    ednersky
    17.02.2025 23:53
    #27938514
    Хорошо, я в целом не против формул в энциклопедии, и даже не против приведения вывода тех теорем с дивиргенциями. Но сперва теорема должна пояснять полную суть происходящего в минимально упрощённых терминах.
    
    а ворох буковок можно под spoiler'ы прятать или вообще выделять в отдельные статьи: математическое доказательство теоремы Нётер в данном случае.
    
    со ссылками из неё на понятия: "что такое дивиргенция?", "что такое интеграл?", "что такое лагранжиан?" и так далее.
    
    ahabreader
    17.02.2025 23:53
    #27938524
    Можно, кстати, посмотреть, как деградировала преамбула в погоне за наукообразностью: первая версия статьи в 2005.
    
    Где-то ещё была хорошая шутка про определения, когда статья начинается с угнетающей скобки на несколько строк, перечисляющей этимологию, даты, синонимы, источники на всё вышеуказанное... А что далеко ходить, вот: https://ru.wikipedia.org/wiki/Ломоносов,_Михаил_Васильевич
    
    Михаи́л Васи́льевич Ломоно́сов (8 [19] ноября 1711[2][3], Мишанинская, Архангелогородская губерния — 4 [15] апреля 1765[2][3], Санкт-Петербург[2][4][…]<---вот это особенно хорошо[8][9]) — ...
    
    Нужен баланс между точностью и доступностью, который там часто нарушается в пользу точности. Начинать статью не совсем точно, но доступно - это правильно, но, видимо, встречает там сопротивление.

dartraiden
17.02.2025 23:53
#27935002
В русском разделе в последние месяцы не раз обсуждалось (одно из последних обсуждений), что делать с текстами, сгенерированными ИИ. Предложения разнятся от "запретить полностью" до "пока мы презрительно морщим нос, Википедию вытеснят конкуренты, которые смогут заточить нейросеть под написание статьи на уровне опытного википедиста" (просто пока не нашлось никого, готового вложиться в это финансово, а как только кто-то займёт эту нишу, Википедии, скорее всего, придёт конец, т.к. у нейросети есть колоссальное преимущество - ей управлять несоизмеримо проще, чем сообществом из тысяч живых людей-редакторов, у каждого из которых свои интересы, своё мнение и видение, и которые устраивают километровые срачи и драмы из-за феминитивов, палестинской спермы, матерного слова и даже майонезной баночки, полной чуть более, чем наполовину)

Основная проблема с запретом состоит в том, что он бессмыслен. Если статья не содержит галлюцинаций, то отсутствует способ надёжно определить, что статью писал ИИ. Это будет такая же статья, какую написал бы обычный средний пользовватель. Собственно в упомянутом обсуждении один из участников привёл примеры статей, которые он написал с помощью нейросети. И эти статьи реально годные. Так что, как минимум, под присмотром опытного википедиста, который проверит отсутствие галюнов, нейросети уже могут создать качественную статью. Подытоживая: неважно кем создана статья. Важно то, насколько она соответствует правилам Википедии. Галлюцинировать могут и белковые участники, достаточно вспомнить миф о Джебраилове, вымышленного Генрика Батуту, китайские статьи про выдуманную историю России или (из недавнего) статью про события в Буче, в которой вандал заменил "Бучу" на "Русское Поречное", "ВС РФ" на "ВСУ" и в таком виде попытался залить (что привело, опять же, к драме, истерике в пропагандистских медиа и десисопе аж целого администратора, который сослепу не увидел, что это тупо копипаста с заменой названий и на кой-то чёрт полез подыгрывать пропагандистам)
1. Zenitchik
  17.02.2025 23:53
  #27937518
  Запретить нужно не нейросети, а тех, кто не проходит тест Тьюринга. Безотносительно природы объекта.
1. MaFrance351
  17.02.2025 23:53
  #27938234
  А ещё изобретатель тостера (какие-то студенты взяли и написали в качестве него имя своего товарища, после чего шутка вышла из-под контроля), англо-шотландская версия (которую написала некая личность, шотландского языка не знающая) и ещё многие приколы (кто-то рассказывал мне, как в школе создал там страницу с вымышленным философом, а при написании сочинения опирался на "его" мысли), а заодно и много того, что до сих пор никто не выявил..
  1. dartraiden
    17.02.2025 23:53
    #27938246
    Да, можно в этом плане рассматривать Википедию как опенсорсное ПО. Любой может внести какой-то бэкдор. И этот бэкдор будет висеть, пока его не заметят. Но альтернативы (проприетарное ПО или рецензируемая учёными энциклопедия) ещё хуже.
    
    PereslavlFoto
    17.02.2025 23:53
    #27939948
    Альтернативой — долгое время — была — Большая Российская энциклопедия!
    
    Zenitchik
    17.02.2025 23:53
    #27942036
    Вы её хоть раз лично видели?

rampler
17.02.2025 23:53
#27935476
Интересно, а LLM уже используют в качестве источников обучения статьи сгенерированные LLM ?
1. akdengi
  17.02.2025 23:53
  #27935748
  Есть синтетические датасеты и тот же DerpSeek скорее всего до обучался на ответах моделей OpenAI
  1. rampler
    17.02.2025 23:53
    #27935974
    DerpSeek скорее всего до обучался на ответах моделей OpenAI
    
    Исследование: обучение на сгенерированных данных может привести к коллапсу большой языковой модели / Хабр
    
    vvzvlad
    17.02.2025 23:53
    #27937652
    Ага, а есть еще такая штука как дистилляция

PereslavlFoto
17.02.2025 23:53
#27939944
до 2022 года, когда тексты писали только люди

Погодите, а как же копирайтеры? Разве до 2022 года не было копирайтеров?