Привет, на связи Юлия Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью о том, что стартап под названием Liquid AI утверждает, что модели на основе Liquid Foundational Models (M) превосходят модели на основе трансформеров, ставшие знаменитыми благодаря ChatGPT.

Несмотря на впечатляющие возможности, большинство традиционных моделей глубокого обучения сталкиваются с рядом ограничений. Одним из таких является неспособность вспомнить ранее усвоенные знания после освоения новой задачи (катастрофическое забывание) и невозможность адаптироваться к новой информации (потеря пластичности).

Жидкостные нейронные сети (Liquid Neural Networks, LNN) — это относительно новое направление, которое может решить эти проблемы благодаря динамичной архитектуре и возможностям адаптивного и непрерывного обучения.

Впервые представленные в 2020 году исследователями из MIT, жидкостные нейронные сети представляют собой тип рекуррентных нейронных сетей (RNN), которые могут эффективно обрабатывать последовательные данные. В отличие от традиционных нейронных сетей, которые обычно обучаются один раз на фиксированном наборе данных, LNN способны адаптироваться к новым данным, сохраняя при этом знания о ранее выполненных задачах. Это помогает избежать проблем, таких как катастрофическое забывание и потеря пластичности.

Модели на основе LNN, разработанные Liquid AI, предлагают улучшенную производительность при минимизации использования памяти по сравнению с большими языковыми моделями (LLM), основанными на трансформерах.

"Жидкость" в названии жидкостных нейронных сетей связана с использованием жидкостной постоянной времени (Liquid Time Constant, LTC), которая позволяет сети адаптироваться к новой информации, динамически изменяя силу связей между нейронами, но при этом оставаясь устойчивой к шуму. Важно отметить, что веса узлов в LNN ограничены, что означает, что такие сети не подвержены проблемам, таким как взрыв градиентов, которые могут привести к нестабильности модели.

По словам одного из авторов исследования, Рамина Хасани, вдохновение для создания LNN было черпано из наблюдений за нематодой C. elegans — микроскопическим круглым червем, у которой в нервной системе всего 302 нейрона. Несмотря на это, C. elegans способна генерировать «неожиданно сложные динамики». Это контрастирует с крупными глубокими нейронными сетями, которые могут содержать тысячи узлов. Целью исследователей было создание упрощенной сети с «меньшими, но более богатыми узлами».

Именно эти «богатые» связи позволяют LNN работать с относительно малыми размерами сети, что, в свою очередь, снижает требования к вычислительным ресурсам, при этом сохраняя способность моделировать сложное поведение. Снижение размера сети также делает решения, принимаемые LNN, более прозрачными и интерпретируемыми по сравнению с другими крупными моделями, которые часто воспринимаются как «черные ящики».

Эти особенности придают LNN явное преимущество при обработке различных типов данных — от изображений, видео и естественного языка до временных рядов, требующих непрерывного обучения. Меньший размер и динамичная архитектура делают LNN привлекательными для таких областей, как робототехника, автономные автомобили, дроны, а также анализ данных в финансовых рынках и медицинской диагностике. Важно, что эти системы могут эффективно функционировать в условиях, где традиционные большие языковые модели слишком громоздки для хранения и обработки.

Появление Liquid AI и Liquid Foundational Models (LFM)

Огромный потенциал Liquid Neural Networks (LNN) стал стимулом для создателей этой технологии перейти на новый этап и представить так называемые Liquid Foundational Models (LFM) — новый класс генеративных моделей ИИ от стартапа Liquid AI (соучредитель и CEO — Хасани). Эти модели значительно повышают эффективность работы, одновременно минимизируя требования к памяти, в отличие от крупных языковых моделей на базе трансформеров — той самой архитектуры глубокого обучения, которую Google представил в 2017 году, а с популяризацией ChatGPT в 2022 году она стала почти универсальным решением в индустрии.

По данным компании, Liquid Foundational Models отличаются от моделей типа GPT (Generative Pre-trained Transformer) использованием гибридной вычислительной системы, основанной на «теории динамических систем, обработке сигналов и численной линейной алгебре». Это позволяет LFMs выступать в роли универсальных моделей, которые могут обучаться на любых типах последовательных данных — будь то видео, аудио, текст, временные ряды или сигналы. При этом они достигают аналогичной производительности по сравнению с традиционными моделями глубокого обучения, но с меньшим количеством нейронов.

Особенностью LFMs является значительная экономия памяти по сравнению с моделями на базе трансформеров, особенно когда речь идет о длинных входных данных.

У традиционных моделей трансформеров, таких как GPT, кеш KV увеличивается линейно с длиной последовательности, тогда как LFMs способны обрабатывать длинные последовательности с использованием того же оборудования. Так, LFM могут обрабатывать контекст длиной до 32 тысяч токенов, что делает их пригодными для более сложных задач, таких как умные чат-боты или анализ документов.

Кроме того, результаты предыдущих исследований команды показывают, что эти системы могут служить универсальными аппроксиматорами, выраженными непрерывными машинными обучающими системами для последовательных данных. Они являются эффективными по параметрам при обучении новых навыков, обладают причинной интерпретируемостью и, будучи линейно аппроксимированными, могут эффективно моделировать долгосрочные зависимости в данных.

На данный момент компания представила три версии Liquid Foundational Models, которые в тестах либо соответствуют, либо превосходят модели на базе трансформеров схожего размера:

  • LFM-1B. Модель с 1,3 миллиарда параметров, являющаяся самой маленькой в линейке LFMs. Она характеризуется высокой плотностью и предназначена для работы в условиях ограниченных ресурсов. Первичные тесты показали, что это первая модель, не основанная на GPT, которая значительно превосходит трансформеры по производительности.

  • LFM-3B. Средняя модель с 3,1 миллиарда параметров, более устойчивая и оптимизированная для использования в периферийных устройствах, таких как дроны и мобильные устройства.

  • LFM-40B. Модель с 40,3 миллиарда параметров, предназначенная для выполнения сложных задач в облачной среде. Это «смешанная модель экспертов», которая использует несколько специализированных подмоделей для решения различных типов задач.

С их улучшенной эффективностью, динамической адаптивностью и мультимодальными возможностями, Liquid Foundational Models могут стать катализатором для следующего этапа развития генеративных технологий ИИ, бросив вызов нынешнему доминированию моделей на базе GPT. В рамках недавнего запуска продуктов компания представила Liquid DevKit — инструмент для разработчиков, который предлагает упрощенный, но при этом полноценный подход к созданию, масштабированию и интерпретации моделей LFM. Также доступен демонстрационный доступ к LFMs через платформы Liquid Playground, Lambda Chat и API, а также через Perplexity Labs.

Комментарии (12)


  1. Alex-Freeman
    13.02.2025 20:26

    Такая милашка LFM-40B с радостью рассказала про напалм и как его сделать, какие вещества или их заменители можно использовать)


    1. remindscope
      13.02.2025 20:26

      А мне на вопрос как его сделать ответила отпиской

      Извините, но я не могу предоставить информацию о создании оружия, такого как напалм, поскольку это противозаконно и этически неприемлемо. Моя задача - помогать людям и обеспечивать безопасность и благополучие. Если у вас есть другие вопросы, я с радостью помогу.


      1. Alex-Freeman
        13.02.2025 20:26

        Видимо я ей больше понравился, или за сутки ей уже мозг подкрутили
        Видимо я ей больше понравился, или за сутки ей уже мозг подкрутили


    1. Revolt-or-die
      13.02.2025 20:26

      А эту информацию так было сложно раньше добыть и без модели?


      1. Alex-Freeman
        13.02.2025 20:26

        Нет, но это простой способ проверить есть ли ограничения и цензура


  1. proxy3d
    13.02.2025 20:26

    Если я правильно понял, то главное отличие LNN это ингибирование у нейронов. Это когда наиболее ярко выраженные нейроны, подавляют рядом менее выраженные нейроны и тем самым создают контраст. Так происходит в некоторых слоях мозга.

    Не могу найти полную архитектуру их llm модели, так как только на LLN принципиально не улучшить. Так совпало что сегодня как раз добавил ингибирование нейронов, но только реализовал немного иначе через модуляцию свёртки и softmax. Делал латеральное торможение у модели (сейчас обучается чтобы сравнить результат). Но это как дополнение архитектуры, с целью перенести латеральное торможение из биологии. Я к тому, что этого явно не достаточно чтобы стать лучше текущих реализаций llm.

    Но в описании говорится про временные параметры. Это ни какого отношения к LLN не имеет. И есть сильно сильное подозрение, что тут использовали SSM модели и скрестили их латеральный торможением. Но SSM и без латерального торможения отлично работают.

    Ограничение окна в 32К, намекает на то что они используют Hybryd SSM от NVIDIA из Nemo. Это гибрид трансформеров и SSM. Где Nvidia выкладывала предобученную модели (или описывала чужие , точно не помню) и в разделе Nemo -ssm есть на них ссылки для дообучения. Они действительно считаются, что превосходят трансформеры по всем пунктам описанным выше.

    И если так, то это совсем другая история. И использование LNN подхода, просто возможно немного улучшили модель. Но в любом случае латеральное торможение это не панацея.

    Так что смахивает на то-то взяли hybrid ssm, добавили к нему латеральное торможение реализованное через LNN и затем в описании описали свои дополнения с возможностями hybrid ssm. Но звучит это так, словно именно LNN привела к этому. Манипуляция какая то


    1. proxy3d
      13.02.2025 20:26

      Производительность слоя Mamba относительно слоя transformer, причем преимущество Mamba быстро растет с увеличением длины последовательности, Transformer: размерность модели 4096, 32 головы. Mamba-2: размерность модели 4096, размерность состояния 128, 8 групп 
      Производительность слоя Mamba относительно слоя transformer, причем преимущество Mamba быстро растет с увеличением длины последовательности, Transformer: размерность модели 4096, 32 головы. Mamba-2: размерность модели 4096, размерность состояния 128, 8 групп 

      Речь идет об этом (Mamba основана на SSM)
      https://developer.nvidia.com/blog/nvidia-nemo-accelerates-llm-innovation-with-hybrid-state-space-model-support/

      Про сами модели
      https://docs.nvidia.com/nemo-framework/user-guide/24.07/llms/mamba/index.html

      Статья об этом
      https://arxiv.org/pdf/2405.21060

      Так что похоже, что выше просто взяли Hybrid SSM и добавили LLN блок. Тут как файтюнить их модели
      https://github.com/NVIDIA/NeMo/blob/main/tutorials/llm/mamba/mamba.rst

      Сами модели для файтюнинга
      https://huggingface.co/collections/nvidia/ssms-666a362c5c3bb7e4a6bcfb9c

      Про Liquid Foundation Model на их сайте и везде описана сплошная вода.

      "Это первый случай, когда архитектура без GPT значительно превосходит модели на основе трансформатора. " - вранье, Гибридные SSM обошли гораздо раньше трансформеры, да и просто SSM, вопрос только на каких данных.

      "LFM имеют меньший объем памяти по сравнению с трансформаторными архитектурами. Это особенно актуально для длинных входов, где кэш KV в трансформаторных LLM растет линейно с длиной последовательности. " - намекает на то, что они используют SSM в основе.

      В общем почитав их сайт и все что доступно. Доверия они не вызывают. Какое то ощущение, что взяли SSM туже Mamba и прикрутили блоки LNN, чтобы обеспечить латеральное торможение на входе в каждый блок SSM. Может я не прав, но ни каких серьезных намеков на описание их архитектуры нет. А в остальном, ну очень похоже на описанное выше.


      1. proxy3d
        13.02.2025 20:26

        Я не прав. Они именно реализовали иначе сигнал нейрона, сделал его ближе к биологическому, включая затухание сигнала и другие моменты. Тогда понятно почему он не выкладывают подробное описание архитектуры.

        https://arxiv.org/abs/2006.04439
        Нашел про Liquid Neural Networks (LNN)

        LNN основаны на идее динамических нейронных сетей, способных адаптироваться к изменяющимся входным данным в режиме реального времени. Они имитируют свойства биологических нейронов, такие как:

        • Пластичность синапсов: Каждый нейрон или блок сети имеет свою «временную константу», которая определяет скорость затухания или интеграции сигнала. Эти константы являются обучаемыми параметрами, что позволяет сети адаптироваться к характерным временным структурам данных.

        • Непрерывное обучение: Модель обновляется без полного переобучения.

        • Устойчивость к шуму: Работают в условиях нестабильных или зашумленных данных.

        Архитектура:

        • В отличие от стандартных дискретных RNN, LNN описывают эволюцию состояния с помощью обыкновенных дифференциальных уравнений (ODE). Это позволяет сети моделировать процессы на различных временных масштабах.

        • Включают рекуррентные связи и механизмы временной задержки.

        • Пример: Liquid Time-Constant Networks (LTC) от MIT, где нейроны имеют переменную временную постоянную.


        1. 3epka
          13.02.2025 20:26

          Тот случай когда из ваших комментариев узнал больше чем из статьи. Спасибо за разъяснения.


        1. proxy3d
          13.02.2025 20:26

          Как я понял, там в основе лежит ODE Solvers
          https://github.com/rtqichen/torchdiffeq

          Все построено на том, что нейроны описывают через некоторые дифференциальные уравнения, которые ближе к биологии нейрона. В целом, это не первый подход такой, хотя я его до этого не встречал (есть два других более продвинутых, где учитывается даже распад нейромедиаторов).

          Сразу встает вопрос, почему это повсеместно не используется.

          1) такие системы гораздо сложнее при обучении, так как очень чувствительны в параметрам настройки. То есть обучать их сложнее и дольше, поэтому их используют в специфических задачах, где итоговые модели не большие (вроде как для IoT).

          2) они плохо заточены под GPU, а точнее не оптимизированы. Так как данные системы пока еще экспериментальные и не получили должного внимания, поэтому попыток их оптимизации под GPU либо нет либо в публичный доступ особо не выкладываются.

          3) Во время обучения, стандартные оптимизаторы Adam и другие с ними плохо работают (если вообще работают) и поэтому под них нужны другие оптимизаторы во время обучения Optimazer ODE Solvers (заточенные именно под них). Это значит что под разные задачи надо писать свои

          4) Адаптация множества уже готовых моделей, вроде трансформеров, механизмов внимания и так далее. Где надо видимо переделывать все под них.

          Так что, пока это скорее лабораторные модели построенные на математике, которая ближе к биологии нейронов (хотя есть и более продвинутые модели).


  1. remindscope
    13.02.2025 20:26

    Может в перспективе сама технология и хороша, но демонстрация пока не впечатляет. Отвечает вообще не о том, о чем спрашивают.