Возвращаюсь к теме моих любимых больших языковых моделей(LLM, БЯМ). Наблюдения последних месяцев за индустрией, событиями и динамикой явно демонстрируют движение со все возрастающим ускорением прямо в тупик. Финиш может быть фееричным. Откуда такие выводы? Разберем по порядку.

Для тех, кто активно использует БЯМ в работе, особенно если эта работа не просто написание текстов, а более серьезные аналитические задачи, написание кода, наверняка заметили, что им явно не хватает способностей к абстрагированию, системности. Они постоянно норовят зациклиться на частностях — хорошей иллюстрацией являются попытки отладки кода. Они прекрасно справляются c незначительными ошибками, но если ошибка системная, в логике кода, в структуре данных, то, как правило, тут они не справляются. Тоже самое с задачами аналитики — хорошо справляются с задачами джуна, а более серьезные уровни вызывают трудности. Отметим про себя этот факт и идем дальше.

Самый большой недостаток нейронной сети БЯМ, по моему скромному мнению в том, что ее структура статична. Это человеческий мозг — структура динамическая, а структуру БЯМ сформировали изначально, заложили в нее число слоев, их ширину, число входных и выходных параметров и изменить уже ничего нельзя, только обучать. Дальше, в процессе обучения внутри сети формируются условные «образы», понятия. Некоторые из них можно сопоставить с известными нам словами языка (что успешно делают некоторые любители анатомии БЯМ), а какие-то наверняка не имеют аналогов, поскольку представляют из себя более сложные абстракции. Но отметим про себя два ключевых параметра нейронной сети: ширину и глубину.

Глубина — число слоев нейронной сети. Этот параметр определяет насколько велика ее способность к абстрагированию. Если на входе модели мы имеем абстракции низшего порядка — токены (части слов, символы), то в глубине модели уже имеем векторное представление сложных понятий. Недостаточная глубина модели влечет за собой ту самую проблему с неспособностью к глубокому системному анализу, поверхностности, что часто встречается на практике и о чем мы говорили в самом начале.

Ширина — число нейронов в условном слое. Этот параметр определяет число представлений, которыми может оперировать нейронная сеть на конкретном уровне. Чем их больше, тем более полно они могут отражать представления реального мира, отражением которого, по сути БЯМ и является. Что будет, если ширины какого-то слоя сети недостаточно? Она не сможет полноценно сформировать понятийный аппарат данного уровня абстракции, как следствие — ошибки, подмена понятий на близкие, что влечет потерю точности или галлюцинирование. А что будет если ширина избыточна? Сложность с формированием понятийного аппарата, его размытость и, как следствие, потеря точности. Но на практике, как мне видится, гораздо чаще встречается именно первый вариант.

Ключевая проблема в том, что мы не знаем наверняка, какой должна быть ширина каждого конкретного слоя и глубина всей модели. Это в живом мозге параметры динамические, поскольку зависят от информации, поступающей в процессе обучения: образуются и отмирают нейроны, меняются связи. Но такова архитектура используемых искусственных нейронных сетей - они статичны, и единственный вариант — задавать ширину и глубину больше, с запасом. Правда гарантий, что на конкретном N-ом слое этого хватит, никто не даст. Но это порождает ряд проблем.

1. Если увеличение глубины модели линейно влияет на число параметров в ней, то увеличение ширины слоя имеет уже степенное влияние. Поэтому мы можем наблюдать, как размер топовых БЯМ моделей переваливает за триллион параметров, но сравнение их с моделями на 2 порядка меньшими по размеру не показывает столь же значительной разницы в качестве генерации. И поскольку дальнейший рост моделей имеет степенной характер, мы воочию можем наблюдать, как лидеры индустрии истерично наращивают вычислительные мощности, отстраивая новые дата-центры и судорожно решают вопросы энергоснабжения этих монстров. При этом повышение качества модели на условные 2% требует увеличения вычислительных мощностей на порядок.

2. Безудержный рост числа параметров моделей требует огромного числа обучающих данных. Причем крайне желательно — качественных данных. А с этим большая проблема. Уже сейчас стоит вопрос об искусственной генерации новых обучающих данных, поскольку естественные уже заканчиваются. Попытка накачивать модель всем, что под руку попадется порождает новые проблемы: падение качества генерации, смещения и т.д.

3. В процессе обучения происходит полный пересчет всех весов модели на каждую итерацию, на каждый подаваемый токен. Это катастрофическая неэффективность. Представьте, что вам, при чтении книги, для чтения каждого последующего слова приходилось бы перечитывать ее с начала! ( Да, сравнение некорректное, но оно ярче всего отражает масштаб проблемы). Более того, при работе БЯМ, на генерацию каждого выходного токена также осуществляется пересчет почти всех весов модели.

4. По мере роста вычислительной сложности возникает проблема параллелизма. Накладные расходы вычислительной мощности растут отнюдь нелинейно с ростом размеров моделей. Коммуникация между отдельными узлами кластера вносит свои задержки. Конечно новые разработки ускорителей с бОльшим объемом памяти и оптимизации отчасти помогают решить проблему, но лишь отчасти, поскольку рост самих моделей происходит куда более быстрыми темпами.

Это лишь часть возникающих проблем, но наиболее острые. И проблемы эти вполне очевидны для тех, кто занимается разработкой БЯМ. Тогда почему же с таким упорством, азартом и возрастающим ускорением они несутся в технологический тупик? Ответ достаточно простой. Несомненно технология БЯМ показала свои возможности и на данном технологическом уровне вполне по силам создать систему близкую или может даже превосходящую человека. И тот, кто сделает это первым, условно изобретет новую атомную бомбу, абсолютное оружие, которое даст новый технологический импульс, возможно поможет разработать новую, более эффективную архитектуру и по мере приближения к концу тупика удастся совершить квантовый скачок и преодолеть этот потенциальный барьер. Может быть… А может быть и не получится. И хотя лидеры рынка и преисполнены оптимизма, мы можем стать свидетелями очередной финансовой катастрофы, новый крах «доткомов» в квадрате. Это произойдет в тот момент, когда очередной условный GPT5 не оправдает больших надежд, а ресурсы на создание GPT6 будут измеряться уже не миллиардами, а сотнями миллиардов или триллионами долларов. Мы совсем недавно удивлялись словам Сэма Альтмана, когда он озвучивал подобные астрономические оценки ресурсов, которые хочет привлечь. И он ведь знает о чем говорит.

Но вернемся на землю. Мы в России, против нас технологические санкции. Лидеры индустрии Сбер и Яндекс с их моделями что-то пытаются создавать, но мы видим, что… впрочем, не будем о грустном. Есть ли выход? Выход есть всегда, иногда даже не один. Возможно конечно какие-то разработки ведутся (даже наверняка ведутся), но фундаментальные вещи, такие как новые архитектуры нейронных сетей в частности и систем искусственного интеллекта в целом, быстро не создаются. А у лидеров рынка — гонка, счет на месяцы, им не до новых архитектур, выжимают максимум из того, что есть. Мы за ними точно не успеем, поэтому нужно идти другим путем. Не будем рассматривать экзотические технологии вроде квантовых компьютеров — это дело пока отдаленного будущего. Ведь иногда, чтобы придумать что-то новое, нужно просто вспомнить хорошо забытое старое. Долгое время развитие технологий ИИ шло по пути детерминированных моделей, экспертных систем, систем нечеткой логики и т. д. На их фоне выделяется технология семантических сетей, где узлы — понятия, а связи — отношения между ними (по сути, в определенном приближении, современные LLM и есть семантические сети, только недетерминированные). Добавляем ей надстройку в виде иерархической структуры для абстрагирования понятий. Саму структуру можно делать динамической, чтобы узлы и связи создавались в процессе обучения. Обучение модели и ее функционирование реализовать на базе агентных технологий. Агенты по заданным правилам и исходя из внутреннего состояния перемещаются по графу сети и вносят точечные изменения(обучение) или собирают информацию, формируя ответ на запрос. Агентный подход не требует полного пересчета всей сети и прекрасно распараллеливается, не требуя при этом колоссальных вычислительных мощностей.

На этом все, спасибо тем, кто дочитал ) Как всегда, буду рад содержательным комментариям, замечаниям и идеям!

Комментарии (26)


  1. Anton888
    13.06.2024 18:15

    мы можем стать свидетелями очередной финансовой катастрофы, новый крах «доткомов» в квадрате.

    В квадрате - вряд ли. Исследователи из Стэнфорда подсчитали вложения в ИИ - за 2023 год в БЯМ было вложено лишь 25 млрд долларов (стр. 244). Это совсем немного на фоне общих вложений в ИИ (включая всяческое машинное обучение и ботов для контакт-центров) - 189 млрд. долларов (с. 242).

    Причем инвестиции в ИИ сокращаются второй год подряд с пика в 2021 году, когда было вложено 337 млрд. Так что насчет тупика инвесторы, в общем, с вами согласны :)


    1. aka352 Автор
      13.06.2024 18:15
      +5

      Я думаю стоит разделять то, что реально вложено в разработки и что вложено в те же акции технологических компаний, причастных к теме, на волне хайпа. Та же Nvidia бьет рекорды по капитализации. Потом эти пузыри имеют свойство лопаться, если завышенные ожидания инвесторов не оправдываются.


      1. Anton888
        13.06.2024 18:15
        +1

        Завышенные ожидания есть, но и советчики инвесторов уже предупреждают их о пузырях. Согласен, что на фондовом рынке могут быть колебания, возможно, сравнимые с крахом доткомов. Но вряд ли прямо ужас ужас. А Nvidia реально не успевает заказы исполнять, плюс фактически монополист - в общем основания для роста есть.

        Пока что большие модели показывают только нишевую пригодность - чатботы, инструменты для разработчика, дизайн, скоро видимо съемки фильмов. Пока не видно, что они массово кого-то заменяют. Вот если действительно начнется замена хотя бы нескольких процентов работников (в статистике, а не прогнозах), тогда и начнется настоящий хайп.


  1. MountainGoat
    13.06.2024 18:15
    +6

    Как в вашу картину мира вписывается ежегодный рост способностей модели в пределах одного размера? Изобрели динамическое квантование, чтобы экономить память. Потом изобрели Mixture of Experts чтобы уменьшить кол-во вычислений за счёт большего потребления памяти. И т.д.

    Собака лает, караван идёт.


    1. aka352 Автор
      13.06.2024 18:15
      +8

      Конечно оптимизации имеют место быть, это логично. Было бы странно, если бы их не было. Вопрос в том, что качественного прироста, соизмеримого с их количественным ростом, не происходит. Можно взять условный код на с++, переписать его на ассемблере, получить прирост производительности, но код будет делать ровно тоже самое, только чуть быстрее.


      1. ihouser
        13.06.2024 18:15
        +3

        Вы слишком нетерпеливы. Революцию мы видели, дальше эволюция. А эволюционный путь медленный. Все будет, и маленькие модели и маложрущие. Наберитесь терпения.


        1. rustler2000
          13.06.2024 18:15
          +3

          Хватает терпения на iter - хватит и на ии


  1. krote
    13.06.2024 18:15
    +2

    Однако это конечно вы нафантазировали.... одной технологии тупик нарисовали, тогда как пока развитие очевидно идет, а другой (семантические сети) ни с того ни с сего вдруг нарисовали будущее. С чего? Разве это не семантические сети уже десятилетия в тупике? Да, симбиоз технологий возможен, но это пока фантазии, и на данный момент нейросети еще не зашли в тупик (об этом слишком рано говорить, вы хоть года два отследите топтания на месте), а другая технология из тупика еще не вышла и даже пока никто сильно ее не толкает.


    1. aka352 Автор
      13.06.2024 18:15

      Искусственные нейронные сети тоже не вчера появились. Дедушке Перцептрону в этом году уже 67 стукнуло) А вот звёздный час только сейчас наступил. Всему своё время.


    1. SADKO
      13.06.2024 18:15

      Что ли у вас есть опыт использования продвинутых семантических сетей к разбору естественного языка?

      По моим воспоминаниям, полтора десятка лет назад, приложение запущенное на ноутбуке, весьма шустро делало выжимки из научных и юридических текстов, без каких-либо глюков вообще. И каждый свой тезис могло мотивировать корректными отсылками в оригинал. Это был реально полезный инструмент, а как его можно было бы с масштабировать, ууу :-)

      И почему разработчики ушли в тень, я прекрасно понимаю, хотя копал совсем в другой области. Тут же интерес как минимум шкурный.

      Новое и впрямь хорошо забытое старое, а я бы даже сказал древнее, и само слово открытие означает процесс открывания чего-то закрытого :-)

      У автора действительно есть некоторые противоречия, ведь опять-таки всё придумано до нас и называется проклятием размерности. Где-то оно возникает раньше, где-то позже, что-то будет лучше, что-то хуже но, в лоб такие задачи в принципе не решаются, это не вопрос философии, а тупая математика.


      1. aka352 Автор
        13.06.2024 18:15

        Я занимался этой темой более 20 лет назад, были интересные результаты, но тогда все упиралось в вычислительные возможности, да и времена для науки были тяжелые, думали скорее о выживании.


      1. krote
        13.06.2024 18:15

        Ну я 22 года назад как раз занимался семантическими сетями и даже для себя кое что делал. И тоже тогда думал о "агентах", но где я тогда застрял - проблема была вовсе не в ресурсах, а в сложности реально больших семантических сетей. Как это использовать, дополнять, извлекать пользу, делать анализ графов на глубину хотя бы нескольких узлов. Я тогда не смог придумать универсального "агента", и таким агентом был я сам, но это ограничивало эту сеть сотнями узлов.

        Сейчас ситуация может сдвинуться с места и для семантических сетей. Но пока ведь не сдвинулась? Я не слышал о каких либо прорывах, сравнимых с тем что произошло последние три года в мире нейросетей.


  1. Apxuej
    13.06.2024 18:15
    +4

    Глупо думать, что в OpenAI не видят будущих проблем с масштабируемостью, если они вообще есть, в той мере в которой Вы их описываете. Точнее глупо думать, что они не предпринимают шагов во все возможные направления, чтобы нащупать путь наиболее эффективного развития или что они уже его не нащупали. Они не просто изобрели chatgpt, уволили всех причастных и теперь просто закупают мощности, чтобы обучать всё более и более громадные модели - они прежде всего группа чрезвычайно компетентных учёных и инженеров. Думаю они понимают, что громадные мощности так или иначе будут хорошим инструментальным подспорьем что бы они не делали, т.е. то, что они в них вкладываются, вовсе не означает, что это их единственная надежда. Я не являюсь неким апологетом OpenAI, просто считаю важным указать на это.


    1. aka352 Автор
      13.06.2024 18:15
      +2

      Ни в коей мере не ставлю под сомнение компетентность специалистов, работающих в OpenAI. Но история полна примеров, когда технологические гиганты, лидеры своих сегментов, устанавливающие отраслевые стандарты, где также работали светлейшие умы своего времени, сошли с пьедестала, а порой и прекращали существование: IBM, Nokia, Motorola, Yahoo - список можно продолжать долго. И виной всему стратегические просчёты, неумение в нужный момент перестроиться, увидеть новые горизонты, зацикленность на текущем моменте.


      1. phenik
        13.06.2024 18:15
        +1

        Скорее всего так и будет. OpenAI основательно подсела на трансформерную архитектуру, разогнали исследовательский сектор в угоду коммерции, и пытается выжить из нее все возможное планируя строить мега-дата-центры, выпускать специализированные микросхемы, вкладываться в энергетику, и тд. А у нее масса ограничений, включая забавных.

        Например, она не может освоит в полном объеме арифметические операции для любых чисел, без обращения к внешним матпакетам, из-за того что это сеть прямой архитектуры. Эти операции требуют рекуррентности, которая реализована в них ограниченно в виде авторегрессивного цикла. Выполняются только те операции которые были в обучающей выборке, или приблизительно благодаря аппроксимирующим возможностям сетей. Где-то пытались применить метод пошагового обучения, но из-за ограниченного объема контекстного окна все равно для очень больших чисел правильный счет прерывается.

        В перспективе возможно в выигрыше окажутся те кто сейчас вкладывается в энергоэффективные, динамические и непрерывно обучающиеся нейроморфные решения. Трансформеры худо-бедно моделирую ассоциативный уровень мышления человека. А у человека этих уровней много - логический, критический, образный, и др. Еще есть развиваться куда)

        Спасибо за статью, в целом согласен с изложенным мнением.


    1. Advisers
      13.06.2024 18:15

      М-да... в среде ключевых разработчиков мы наблюдаем первые отказы... и возможно скоро дискуссия о реальных причинах выйдет в широкий паблик...

      Об их уходе СМИ не могли не написать, но ясно же, что тут речь не только об этике, прогнозах и идеях....)

      Очевидно, что рынок ещё хочет "переварить" хотя бы то что есть и ...надеемся что не придумает новых "экзотических" деривативов...)


  1. o5boleg
    13.06.2024 18:15

    Вот мнение ChatGPT-4o о вашей статье:
    "Статья хорошо описывает текущие вызовы и возможные направления для преодоления ограничений больших языковых моделей. Согласен с автором в том, что индустрия нуждается в инновационных подходах и новых архитектурах, чтобы двигаться вперед. Также важно помнить, что гонка за лидерство в области ИИ сопряжена с большими рисками, и необходимо искать баланс между инновациями и эффективностью."


    1. evtomax
      13.06.2024 18:15
      +3

      Всё правильно сказано! И ничего конкретного, как у современных политиков.


    1. Advisers
      13.06.2024 18:15

      ..."видят ли сны электроовцы" )

      Пожалуй стоит её спросить - испытывает ли она голод? Знает ли вообще что это такое?

      Как долго она проживёт без электричества с необратимым исходом?

      Интересует ли её вопрос, как получить энергию для своего существования независимо от человека?


      1. Advisers
        13.06.2024 18:15
        +1

        Делают ли "электровцы" "саморефакторинг" своей нейросетки?


  1. Aykeye
    13.06.2024 18:15

    Поэтому мы можем наблюдать, как размер топовых БЯМ моделей переваливает за триллион параметров, но сравнение их с моделями на 2 порядка меньшими по размеру не показывает столь же значительной разницы в качестве генерации.

    Нет, не можем как только отходим от hello world.
    GPT4o рвет все модели (а осебенно модели на два порядка ниже, то есть ≈10B) в том же mmlu pro.

    Если бы мы могли это наблюдать такого хайпа вокруг gpt 4, gpt 4o бы не было


  1. Advisers
    13.06.2024 18:15

    Человек "знает" когда он голоден..., а машина, хоть и питается от сети, но пока ничего об этом не знает... и таких чувств не испытывает...

    )

    И тем более, у неё нет мыслей о том, что если она долго не будет иметь питания, то все...

    Человек уже давно знает, что питание само не приходит и его надо искать, создавать, накапливать, экономить итд... - борьба за существование...


    1. Advisers
      13.06.2024 18:15

      "Если звезды зажигают, значит это кому-нибудь нужно"

      Altman кстати инвестирует в термояд...)


      1. aka352 Автор
        13.06.2024 18:15

        У него просто нет выбора )


        1. Advisers
          13.06.2024 18:15

          Вот как получат gpt-X - когда он сам займётся управлением плазмы в реакторе.... и одновременно будет питаться от реактора... вот возможно тогда эта история заработает....) ...в смысле экзистенциональных угроз.


          1. Advisers
            13.06.2024 18:15

            ... к прямой комплементарности креативного мышления и процессах в звездах )

            ...М-да и так или иначе придёте к ...священным текстам.