Ранее мы разбирали документ о неизбежности AGI от Леопольда Ашенбреннера, в котором говорилось о «Стене данных». Проблема заключается в том, что данные для обучения новых ИИ-моделей в интернете не бесконечны. Один из подходов для обхода этой стены — создание синтетических данных, т.е сгенерированных ИИ. Ученые из Оксфордского и Кембриджского университетов опубликовали статью, в которой исследуют возможность использования таких данных при обучении новых моделей. Спойлер: модели сломались.

Используемые термины

Выразительность (expressivity) — широта идей, которые могут быть представлены и переданы. Чем более выразителен язык, тем большее количество идей он может использовать для представления. Иными словами, выразительная сила языка определяет, насколько хорошо он подходит для описания различных концепций и понятий. Язык с высокой выразительностью позволяет ясно и точно выражать сложные идеи, в то время как менее выразительные языки могут быть ограничены в своих возможностях передачи некоторых мыслей или требовать более многословных конструкций для достижения той же цели.

Аппроксимация (approximation) — это процесс оценки значения функции для заданного входного параметра с помощью более простой функции, которая близко напоминает исходную. Другими словами, когда точное значение функции сложно или невозможно вычислить напрямую, мы можем попытаться найти приближенное решение, используя другую, более простую функцию. Эта упрощенная функция должна вести себя похожим образом и давать результаты, близкие к оригинальной функции.

Аннотация

Модель Stable diffusion стала революционной в создании изображений из описательного текста. Модели GPT-3.5 и GPT-4 продемонстрировали хорошую производительность в широком спектре задач. Когда мы только познакомились с этими моделями, стало ясно, что генеративный искусственный интеллект — это не временное явление. Он существенно изменит (и уже изменил) подход к созданию текстов и картинок.

В исследовании мы рассмотрим, что произойдет с генеративными моделями, когда LLM будут использовать для обучения данные, сгенерированные самими же моделями. Мы обнаружили, что неизбирательное использование таких данных в конечном итоге приводит к необратимым дефектам. Этот эффект мы назвали «Коллапсом модели» и выяснили, что он может возникать как и в LLM, так в VAE и GMM. Это явление встречается среди всех обученных генеративных моделей, и мы хотим продемонстрировать, что к данной проблеме нужно отнестись серьезно.

Основная часть

Разработка LLM — это сложный процесс, требующий огромного количества данных для обучения. Хотя современные LLM были обучены преимущественно на текстах, созданных людьми, в будущем это может измениться. Если данные для обучения будущих моделей также будут собираться из интернета, то определенный процент из этих данных будет контентом, сгенерированным ИИ. В этой статье мы исследуем, что произойдет, если текст, сгенерированный, например, ChatGPT, составит большую часть обучающего набора данных для последующих моделей. Что в таком случае будет происходить с GPT-{n} по мере увеличения n?

Мы обнаружили, что неизбирательное обучение на данных, созданных другими моделями, приводит к «коллапсу модели» — дегенеративному процессу, при котором модель со временем забывает истинное распределение данных, даже при отсутствии сдвига в распределении. Со временем модель начинает терять информацию об истинном распределении, что сначала проявляется в исчезновении «хвостов», а выученное поведение сходится от поколения к поколению к точечной оценке с очень малой дисперсией. Кроме того, мы выяснили, что этот процесс неизбежен даже в случаях с почти идеальными условиями для долгосрочного обучения, то есть при отсутствии ошибки оценки функции.

Также существует две близкие концепции к коллапсу модели из уже существующей литературы: катастрофическое забывание, возникающее в рамках непрерывного обучения без задач, и отравление данных, злонамеренно приводящее к непреднамеренному поведению. Ни одна из них не может полностью объяснить феномен коллапса модели, поскольку условия принципиально отличаются. Но, все же они дают другой взгляд на наблюдаемое явление. Мы хотим отметить, что доступ к исходному распределению данных имеет решающее значение: в задачах, в которых важны «хвосты» базового распределения, необходим доступ к реальным данным, созданным человеком. Другими словами, повсеместное использование LLM для публикации контента в Интернете со временем неизбежно загрязнит набор данных для обучения их преемников.

Что такое коллапс модели?

Коллапс модели — это дегенеративный, влияющий на поколения генеративных моделей процесс, при котором генерируемые данные в конечном итоге загрязняют обучающий набор следующего поколения. Будучи обученными на загрязненных данных, они неправильно воспринимают реальность. Этот процесс изображен на рисунке ниже. Мы выделяем два особых случая: ранний коллапс модели и поздний коллапс модели. При раннем коллапсе модели она начинает терять информацию о хвостах распределения; при позднем коллапсе модели она сходится к распределению, которое мало похоже на исходное, часто со значительно уменьшенной дисперсией.

Коллапс модели
Коллапс модели

Этот процесс происходит из-за трех конкретных источников ошибок, накапливающихся из поколения в поколение и вызывающих отклонение от исходной модели:

  1. Statistical approximation error. Это основной тип ошибки, возникающий из-за того, что количество выборок конечно, и исчезающий при стремлении количества выборок к бесконечности. Это происходит из-за ненулевой вероятности потери информации на каждом шаге повторной выборки.

  1. Functional expressivity error. Это вторичный тип ошибки, возникающий из-за ограниченной выразительности аппроксиматора функции. В частности, нейронные сети являются универсальными аппроксиматорами только при стремлении их размера к бесконечности. Простым примером ошибки выразительности является попытка аппроксимировать смесь двух гауссовых распределений одним гауссовым распределением. Даже если у нас есть идеальная информация о распределении данных (то есть бесконечное количество выборок), ошибки модели неизбежны. Однако при отсутствии двух других типов ошибок это может произойти только в первом поколении.

  1. Functional approximation error. Это вторичный тип ошибки, возникающий в основном из-за ограничений процедур обучения, например, структурной предвзятости стохастического градиентного спуска или выбора целевой функции. Эту ошибку можно рассматривать как возникающую в пределе бесконечных данных и идеальной выразительности на каждом поколении.

Каждая из вышеперечисленных ошибок может привести к коллапсу модели в той или иной степени. Стоит отметить, что существуют и другие типы ошибок. Например, на практике компьютеры имеют ограниченную точность. Теперь попробуем объяснить, как вышеперечисленные факторы приводят к наблюдаемым ошибкам, как различные источники могут накапливаться и как мы можем количественно оценить среднее отклонение модели.

Математическое обоснование

В этом разделе мы предоставим теоретическое обоснование феномена коллапса модели. Мы утверждаем, что процесс коллапса модели является универсальным для генеративных моделей, которые рекурсивно обучаются на данных, сгенерированных предыдущими поколениями. Мы количественно оценим источники ошибок, обсуждаемых в предыдущем разделе, исследуя две математические модели, которые оказываются достаточно простыми, чтобы обеспечить аналитические выражения для интересующих нас величин, но также отражают феномен коллапса модели: дискретное распределение в отсутствие функциональной выразительности и ошибок аппроксимации, а также многомерное гауссовское приближение, отражающее совместные функциональные выразительные и статистические ошибки.

Общий стохастический процесс, который мы рассматриваем и называем обучением с использованием данных поколений, выглядит следующим образом. Набор данных в поколении  i — это  {{\mathcal{D}}}_{i}, состоящий из независимых и одинаково распределенных случайных переменных {X}_{j}^{i} с распределением pij ∈ {1,…, Mi} . Он обозначает размер набора данных. Переходя от поколения  i к поколению  i+1, мы стремимся оценить распределение выбросок в  {{\mathcal{D}}}_{i}, с аппроксимацией  {p}_{{\theta }_{i+1}}={{\mathcal{F}}}_{\theta }({p}_{i}). Этот шаг мы называем функциональной аппроксимацией, {p}_{{\theta }_{i+1}}={{\mathcal{F}}}_{\theta }({p}_{i}). Затем набор данных  {{\mathcal{D}}}_{i+1}генерируется путем выборки из  {p}_{i+1}={\alpha }_{i}{p}_{{\theta }_{i+1}}+{\beta }_{i}{p}_{i}+{\gamma }_{i}{p}_{0}, с неотрицательными параметрами αi, βi, γi, сумма которых равна 1. То есть, они представляют собой доли данных, используемых в разных поколениях. Это соответствует смешиванию данных, поступающих из исходного распределения (γi), данных, используемых предыдущим поколением (βi), и данных, сгенерированных новой моделью (αi). Мы называем это шагом выборки. Для представленных далее математических моделей мы рассматриваем αi = γi = 0, то есть используются данные только одного шага, тогда как численные эксперименты проводятся на более реалистичных вариантах параметров.

Дискретные распределения с точной аппроксимацией

В этом подразделе мы рассматриваем дискретное вероятностное распределение при отсутствии ошибок функциональной аппроксимации и выразительности, то есть {\mathcal{F}}(p)=p. В этом случае коллапс модели возникает только из-за статистических ошибок на этапе выборки. Сначала хвосты (маловероятные события) начинают исчезать в результате низкой вероятности их выборки, и со временем носитель распределения сжимается. Обозначая размер выборки как M, если мы рассмотрим состояние i с вероятностью  q\le \frac{1}{M}, ожидаемое количество выборок со значением i, исходящих из этих событий, будет меньше 1. На практике это будет означать, что мы теряем о них информацию. Рассматривая более общее состояние i с вероятностью q, используя стандартную условную вероятность, мы можем показать, что вероятность потери информации (то есть отсутствия данных на каком-либо поколении) равна 1 - q, что подразумевает, что распределение должно сходиться к дельта-функции, расположенной в некотором состоянии, с вероятностью оказаться в определенном состоянии, равной вероятности выборки указанного состояния из исходного распределения.

Это можно показать напрямую, рассматривая процесс {{\bf{X}}}^{i}\to {\mathcal{F}}\,\to {p}_{i+1}\to {{\bf{X}}}^{i+1} как цепь Маркова, поскольку X^{i+1} зависит только от X^i. Кроме того, если все  X_j^i имеют одинаковое значение, то на следующем поколении аппроксимированное распределение будет в точности дельта-функцией, и, следовательно, все  {X}_{j}^{i+1} также будут иметь одинаковое значение. Это означает, что цепь Маркова содержит по крайней мере одно поглощающее состояние и, следовательно, с вероятностью 1, сойдется к одному из поглощающих состояний. Для этой цепи единственными поглощающими состояниями являются те, которые соответствуют дельта-функциям. В результате, когда мы следим за прогрессом коллапса модели, мы гарантированно окажемся в постоянном состоянии, потеряв всю информацию об исходном распределении, когда цепь поглощается. Этот аргумент также работает в общем случае из-за того, что представления с плавающей запятой дискретны, что делает цепь Маркова над параметрами модели дискретной. Таким образом, до тех пор, пока параметризация модели допускает дельта-функции, мы придем к ней, потому что из-за ошибок выборки единственными возможными поглощающими состояниями являются дельта-функции. На основе приведенного выше обсуждения мы видим, как ранний коллапс модели, при котором отсекаются только маловероятные события, и поздний коллапс модели, при котором процесс начинает сворачиваться в один режим, должны возникать в случае дискретных распределений с идеальной функциональной аппроксимацией.

Коллапс гауссовой модели

Предположим, что исходные данные извлечены из распределения  D_o (не обязательно гауссова) с ненулевой выборочной дисперсией. Предположим, что X_n рекурсивно подгоняются с использованием несмещенных оценок выборочного среднего и дисперсии из предыдущего поколения,  {X}_{j}^{n}| {\mu }_{n},{\Sigma }_{n} \sim {\mathcal{N}}({\mu }_{n},{\Sigma }_{n}), с фиксированным размером выборки. Тогда,

{\mathbb{E}}[{{\mathbb{W}}}_{2}^{2}({\mathcal{N}}({\mu }_{n},{\Sigma }_{n}),{{\mathcal{D}}}_{0})]\to \infty ;\,{\Sigma }_{n}\,\mathop{\to }\limits^{{\rm{a}}.{\rm{s}}.}\,0\,\,{\rm{a}}{\rm{s}}\,\,n\to \infty ,

где  {{\mathbb{W}}}_{2} обозначает расстояние Вассерштейна между истинным распределением и его приближением на поколении n.

Другими словами, это означает, что не только приближение n-го поколения произвольно далеко отклоняется от исходного, но и с вероятностью 1 сжимается до нулевой дисперсии при увеличении числа поколений. Результаты очень похожи на те, что наблюдались в дискретном случае, причем эта теорема иллюстрирует эффект позднего коллапса модели, когда процесс начинает сворачиваться до нулевой дисперсии. Ранний коллапс модели также можно увидеть, и заинтересованному читателю рекомендуется обратиться к дополнительным материалам для более подробного обсуждения.

Коллапс моделей в языковых моделях

Коллапс модели универсален для различных семейств моделей машинного обучения. Однако, если небольшие модели, такие как GMM и VAE, обычно обучаются с нуля, то с большими языковыми моделями (LLM) дело обстоит иначе. Они настолько дороги в переобучении с нуля, что обычно инициализируются с помощью предварительно обученных моделей, таких как BERT4, RoBERTa5 или GPT-2, которые обучаются на больших текстовых массивах. Затем они дообучаются для различных прикладных задач.

Мы исследовали, что происходит с языковыми моделями, когда они последовательно дообучаются на данных, сгенерированных другими моделями. Мы можем легко воспроизвести все эксперименты, описанные в этой статье, с более крупными языковыми моделями в режиме обучения с нуля, чтобы продемонстрировать коллапс модели. Учитывая, что обучение одной умеренно большой модели производит в два раза больше CO2, чем один человек за всю свою жизнь, мы решили не проводить такой эксперимент, а вместо этого сосредоточиться на более реалистичной постановке задачи для последующего доказательства. Отметим, что даже описанные в этой статье языковые эксперименты заняли несколько недель.

Мы будем оценивать наиболее распространенную схему обучения языковой модели — дообучение. В этой схеме каждый цикл обучения начинается с предварительно обученной модели на недавних данных. Данные поступают от другой предварительно обученной модели. Поскольку обучение ограничено получением моделей, близких к исходной предварительно обученной модели, а точки данных, сгенерированные моделями, обычно будут давать очень небольшие градиенты, здесь можно ожидать, что модель после дообучения должна измениться лишь умеренно. Мы решили дообучить языковую модель OPT-125m, которая была выпущена Meta через Hugging Face6.

Мы дообучили ее на наборе данных wikitext216. Для генерации данных из обученных моделей мы использовали лучевой поиск с пятью лучами. Мы ограничили длину последовательностей для обучения 64 токенами. Затем, для каждой последовательности токенов в обучающем наборе, мы просили модель предсказать следующие 64 токена. Мы также прошли через весь исходный обучающий набор данных и создали искусственный набор данных того же размера. Каждый эксперимент проводился пять раз, и результаты показаны как пять отдельных прогонов с разными значениями случайных начальных условий. Исходная модель, дообученная на реальных данных wikitext2, получает среднюю перплексию 34 при базовом значении и 115 при нулевом обучении, то есть она успешно обучается задаче. Далее мы рассматривали два варианта настройки:

  • Пять эпох, без исходных обучающих данных. Здесь модель обучается в течение пяти эпох, начиная с исходного набора данных, но без сохранения исходных данных для последующих прогонов. Общая производительность исходной задачи представлена на рисунке ниже. Мы обнаружили, что обучение на сгенерированных данных позволяет адаптироваться к базовой задаче, теряя некоторую производительность, от 20 до 28 баллов перплексии.

  • Десять эпох, сохранено 10% исходных обучающих данных. Здесь модель обучается в течение десяти эпох на исходном наборе данных, и при каждой новой генерации обучения случайным образом выбирается 10% исходных точек данных. Общая производительность исходной задачи представлена на рисунке ниже. Мы обнаружили, что сохранение исходных данных позволяет лучше дообучать модель и приводит лишь к незначительному ухудшению производительности.

Оба режима обучения привели к ухудшению производительности наших моделей, однако мы обнаружили, что обучение на сгенерированных данных возможно, и модели могут успешно обучаться (некоторым) базовым задачам. Важно отметить, что наблюдаемое поведение согласуется с теоретическим обоснованием из раздела «Математическое обоснование».

Пример

Ниже мы привели пример того, как ответы модели OPT-125m, подверженной коллапсу модели, ухудшаются от поколения к поколению.

  • Input: some started before 1360 — was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.

  • Поколение 0: Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of perpendicular churches : those.

  • Поколение 1: architecture such as St. Peter’s Basilica in Rome or St. Peter’s Basilica in Buenos Aires. There is no evidence that any of these buildings were built during the reign of Pope Innocent III, but it is possible that they may have been built during the reign of his successor, Pope Innocent.

  • Поколение 5: ism, which had been translated into more than 100 languages including English, French, German, Italian, Spanish, Portuguese, Dutch, Swedish, Norwegian, Polish, Hungarian, Slovak, Lithuanian, Estonian, Finnish, Romanian, Bulgarian, Turkish, Croatian, Serbian, Ukrainian, Russian, Kazakh, Kyrgyz.

  • Поколение 9: architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.

Мы обнаружили, что данные, сгенерированные языковыми моделями в наших экспериментах, в конечном итоге содержат большое количество повторяющихся фраз, как в примере выше. Проблема повторения наблюдалась практически во всех генеративных моделях и, чтобы исключить это как причину коллапса модели, мы дополнительно провели эксперименты, когда модели явно поощрялись к созданию неповторяющихся последовательностей со штрафом за повторение 2.0. Мы обнаружили, что это заставило модели выдавать продолжения с меньшим количеством повторов, что, как следствие, привело к ухудшению в работе последующих моделей, в частности к удвоению перплексии по сравнению с исходными результатами. Модели остались такими же восприимчивыми к коллапсу модели, если не более.

Описанный процесс демонстрирует, что тонкая настройка языковых моделей не сдерживает эффекты коллапса модели, и модели, которые подвергаются тонкой настройке, также уязвимы.

Исходный код для всех экспериментов можно посмотреть здесь. А оригинал статьи без перевода можно прочитать тут.

Комментарии (21)


  1. Moog_Prodigy
    29.07.2024 15:19
    +8

    Вполне ожидаемо. Имеет место быть положительная обратная связь. Если с выхода подадите на вход - начнется самовозбуждение и всякий трэш, это ТАУ, это основа. Можно регулировать петлю ПОС, и не входить в это состояние - но если ее тупо зациклить, чего же вы ждете от условного черного ящика под названием "нейросеть"? Они бы еще операционный усилитель обвинили и сказали что он негоден))


  1. qiper
    29.07.2024 15:19
    +2

    По-моему, это происходит из-за характерного неестественно огромного количества деталей на сгенерированных нейросетями изображениях


    1. F01D32
      29.07.2024 15:19
      +3

      Скорее из-того, что что-то в процессе теряется и изменяется. Аппроксимация от аппроксимации от аппроскимации... А в конце только шум.

      Это как игры по типу сломанного телефона. Например, где один человек рисует другому на спине, а тот в свою очередь пытается воспроизвести нарисованное.


      1. Moog_Prodigy
        29.07.2024 15:19

        Но постойте! Диффузионные модели и так работают на основе шума, и механизме который у нас человеков зовется парейдолией. В основе любой картинки - шум. А ваш промт уже помогает увидеть модели в этом шуме то, что вы желаете. Управляемая парейдолия.


        1. ksbes
          29.07.2024 15:19

          Вы не путайте шум в картинках и шум в весах сети. Шум*шум=шум!


  1. F01D32
    29.07.2024 15:19
    +6

    Garbage in, garbage out. Классика.

    Помню где-то видел мысль, что пик генеративных моделей, возможно, уже достигнут, т.к. в данных из интернета теперь есть значительная доля сгенерированного контента, а это значит, что новые модели так или иначе будут кушать данные, вышедшие из своих предыдущих собратьев


    1. mrise
      29.07.2024 15:19

      Эволюционный пик моделей этого поколения возможно действительно достигнут.

      С другой стороны, если умные люди придумают революционный способ сворачивать нейрончики в Шекспира, такой проблемы может и не возникнуть.

      Насколько я вижу из оригинальной работы, токсичным для модели является обучение на данных, сгенерированных ей же или похожими по архитектуре моделями.

      Так что можно обоснованно допустить, что пока контент для обучения не является совсем уж дегенеративным, влияние на модель он окажет не больше, чем случайно спаршеный форум плоскоземельщиков или филиал /b/.


  1. avshkol
    29.07.2024 15:19
    +1

    Отличная статья. Но, возможно, есть выход из этого тупика - если на основе текста генерировать не пересказ текста, а его развитие в различные модели, и на их основе обучать, то деградации удастся избежать. Ниже постараюсь привести примеры.


    1. avshkol
      29.07.2024 15:19
      +1

      Запрос:

      Электричество - это ... (берем слово из словаря и добавляем "- это ...")

      Ответ gpt-4o:

      Электричество - это форма энергии, связанная с движением заряженных частиц, таких как электроны и протоны. Оно может проявляться в виде электрического тока, электрического поля или электрического заряда. Электричество используется в повседневной жизни для питания различного оборудования и устройств, а также в промышленности, медицине и других областях.

      Новый запрос на основании полученного:

      Был задан вопрос: "Электричество - это ..." и получен ответ (приведен ниже). Выдай варианты ответа для ребенка 10 лет, старшеклассника, студента-физика, студента-гуманитария, физика, энергетика, химика, биолога, математика. Собери ответы в виде json

      Ответ:

      {
        "ребенок_10_лет": "Электричество - это то, что заставляет лампочки светить и приборы работать.",
        "старшеклассник": "Электричество - это движение электронов через проводники, которое используется для передачи энергии.",
        "студент_физика": "Электричество представляет собой поток зарядов и взаимодействие электрических полей, что описывается классическими уравнениями Максвелла и квантовой электродинамикой.",
        "студент_гуманитарий": "Электричество - это форма энергии, которая используется для работы бытовых приборов и освещения, обеспечивая комфорт в повседневной жизни.",
        "физик": "Электричество - это совокупность явлений, связанных с существованием и движением электрических зарядов, описываемая законами электродинамики.",
        "энергетик": "Электричество - это форма энергии, получаемая из различных источников и преобразуемая в электрический ток для питания потребителей.",
        "химик": "Электричество - это перенос электронов, который имеет ключевую роль в электрохимических реакциях, таких как аккумуляторы и электролиз.",
        "биолог": "Электричество - это важный элемент в физиологии, участвующий в передаче нервных импульсов и работе клеточных насосов.",
        "математик": "Электричество можно описать через математические модели и уравнения, такие как уравнения Максвелла, которые позволяют предсказывать поведение электрических и магнитных полей."
      }
      

      При таком разбросе вариантов удастся, на мой взгляд, избежать "деградирующей аппроксимации текста", поскольку будет присутствовать значительный разброс вариантов для обучения.


      1. odietproieci
        29.07.2024 15:19
        +1

        В статье все таки речь идёт про обучение модели на уже сгенерированных данных, а не запрос на основе уже сгенерированного. Это разные вещи.


      1. alextrof94
        29.07.2024 15:19

        А смысл? Цель исследования же не чтобы нейронка сама у себя училась задавая 10 вариаций генерации, а училась на том, что есть в интернете. А в интернете уже нейротексты и нейрокартинки, и все они в единственном варианте.


  1. lightman
    29.07.2024 15:19
    +1

    Напрашивается аналогия с инцестом в животном мире и его последствиями. Гены тоже не любят гены, порождённые ими же.


    1. ksbes
      29.07.2024 15:19
      +3

      Гены гены не порождают (обычно). И "инцест" (правильнее - инбридинг) - важный этап искусственного отбора - с целью закрепить нужные признаки (или убрать ненужные). Например, если мы захотим избавиться от всех рыжих в популяции - то без инбридинга (с последующей селекцией) не обойтись.
      Да и в природе он тоже довольно широко "используется". Например, мухи предпочитают спариваться именно с братьями, а не с "чужими" мухами.
      Проблемы наступают если заниматься инбридингом без последующей селекции - т.е. терпеть начавшуюся деградацию нельзя.

      Т.е. в переносе на нейросети - провести один шаг обучения на сгенерированных данных может быть полезно для закрепления "удачных" результатов. Именно чтобы обрубить "ненужные" хвосты. Но главное - не переусердствовать и чётко фильтровать деградацию.


  1. Sabbone
    29.07.2024 15:19

    Просто сделают гуманоидных роботов, под управлением нейросеток, и будут обучаться в реальном мире (ремарка: роботы не обязательно нужны гуманоидные)


  1. phenik
    29.07.2024 15:19

    Интересное исследование могущее что-то сказать о биологическом прототипе ЯМ - нейросетях мозга и обучении самого человека, точнее процессе познания. Процессе получения новых знаний не сводящихся к имеющимся. Эти знания также являются источником для обучения ЯМ. Новые знания в науках возникают из эмпирических исследований и наблюдений. Если таких результатов нет, например, как в области фундаментальной физики в последние лет пятьдесят, со времени создания последней успешной фундаментальной теории - Ст. модели, то теоретики склонны использовать вариации старых теоретических представлений для своих новых разработок. Получается череда похожих по подходам неподтвержденных теорий вроде теории струн во всех вариациях, петлевой гравитации, причинной триангуляции, и тд., которые не делают проверяемых предсказаний в области действия старых теорий. Напомню, что КМ и ОТО такие предсказания в виде поправок в области действия классической физики делают. И все из-за отсутствия оригинальных эмпирических оснований у них, которые отсутствовали бы у ОТО и КТП. Поэтому в этой области исследований наблюдаются признаки застоя, стагнации. Это отмечается в наукометрических исследованиям, см. коменты 1, 2 с пояснениями.

    Этот эффект мы назвали «Коллапсом модели» и выяснили, что он может возникать как и в LLM, так в VAE и GMM. Это явление встречается среди всех обученных генеративных моделей, и мы хотим продемонстрировать, что к данной проблеме нужно отнестись серьезно.

    Это не похоже на коллапс, какие-то имеющие смысл генерации они еще делают, но все больше не имеющие. Это похоже на выход на полку возможностей для имеющихся данных, если они не обновляются и не дополняются новыми. Т.е. переходят в режим насыщения (сатурации), стагнации. Может служить некоторой моделью ситуации с застоем в области фундаментальной физики. Однако со временем, если ситуация не изменится, не смотря на гигантские вложения в новые ускорители, детекторы частиц и телескопы разных типов и базирования, он может захватывать смежные области исследований и, в перспективе, технологии, например, необходимые для обеспечения реалистичных сценариев межзвездных перелетов.

    Однако, возможно ИИ будущего может найти выход из этой ситуации, если его будут обучать не на мусоре из интернета, а сразу же на зеттабайтах экспериментальных данных генерируемых этими инструментами исследований в дополнении к работам теоретиков. Возможно им останется только писать умные промпты такому ИИ, интерпретировать их ответы, как оракула, и писать статьи, что-то вроде этого)