Train Loss

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Суть метода: Я заменил стандартный механизм внимания на нативную геометрию исключительной группы Ли Е8. Вместо того чтобы заставлять модель угадывать связи, я дал ей идеальную 8-мерную решетку для упаковки семантических векторов.

Что это дало (пруфы в студию):

  • Архитектура: Lila-E8, всего 40 млн параметров.

  • Результат: На TinyStories мы пробили 0.37 Train Loss и удерживаем 0.44–0.53 Validation. Для сравнения: это чище, чем у 60М-модели от Microsoft.

  • Контекст: 750+ токенов без единого зацикливания(и это при размере контекстного окна 512). Модель не «плывет» и не сходит с ума на длинных рассказах.

Реальные цифры: Loss 0.37 — это не шутка. Это точка, где математика превращается в интеллект.

Почему это работает?

Стандартный аттеншн создает «трение» в латентном пространстве. Решетка обеспечивает самую плотную упаковку сфер в 8 измерениях. Это сводит информационную вязкость к минимуму. Модель не зубрит — она резонирует со структурой языка.

Код на GitHub, веса и Colab для проверки — всё в открытом доступе (AGPLv3).

Github

Notebook

В то время как классические трансформеры (например, NanoGPT) полагаются на грубую статистическую силу и огромные матрицы весов для аппроксимации языка, E8-former использует фундаментальную симметрию Вселенной — исключительную группу Ли E8.

Lila-E8 (Lie Lattice Attention Language Model) — это экспериментальная модель глубокого обучения, которая исследует интеграцию фундаментальной математической структуры, а именно симметрий системы корней E8, в архитектуру трансформера.

В отличие от традиционных моделей, опирающихся исключительно на статистические корреляции, E8-Transformer стремится использовать глубокие геометрические принципы для создания более эффективных, интерпретируемых и ресурсосберегающих языковых моделей. Этот подход направлен на развитие концепции "геометрического сознания" в ИИ, где понимание языка осуществляется через структурные и симметричные отношения.

Комментарии (16)


  1. AleGen
    02.03.2026 03:59

    Ничего непонятно, но очень интересно.


  1. LinkToOS
    02.03.2026 03:59

    Автор - оригинальный bootstraptor?


  1. bootstraptor Автор
    02.03.2026 03:59

    Автор - оригинальный bootstraptor? - да это я


    1. Altair2021
      02.03.2026 03:59

      Почему это работает?

      Для такого короткого текста нужна llm'ка?

      В последнее время триггерит с этих "why it works", когда вообще не "works"


      1. bootstraptor Автор
        02.03.2026 03:59

        за "таким коротким текстом" стоит 6 месяцев сложной работы и кодинга, которые дают 0.37 Train Loss, (если вам это о чем-то говорит) надеюсь, ответил на ваш вопрос


  1. bootstraptor Автор
    02.03.2026 03:59

    Train Loss / Val Loss
    Train Loss / Val Loss

    E8 плотная упаковка, но Leech Lattice еще плотнее (WIP) https://github.com/SPUTNIKAI/LeechTransformer


  1. mmxplorer
    02.03.2026 03:59

    Поясните, пожалуйста, как именно вы сравниваете loss c TinyStories-33M. Там словарь 50257, у Lila словарь 2048. Подскажите, как loss сравнивать правильно


    1. bootstraptor Автор
      02.03.2026 03:59

      Вы правы, TinyStories в оригинале использует токенизатор на 10k (или 50k в некоторых портах на HF, но в их тесте 10'000), а у LILA - 2048. Прямое сравнение loss "в лоб" здесь некорректно. Однако, если мы перейдем к Perplexity: У TinyStories 33M (v=10k) Loss ~1.8-2.0 дает PPL ~6.0. У LILA (v=2048) Loss ~0.36 дает PPL ~1.43.

      (в статье TinyStories у 22M модели после 20k шагов loss ~2.4, у 33M ожидаемо ниже - loss ~1.8–2.0)

      После приведения к битам на символ Е8-LILA показывает значительно лучший результат (0.128 bpc против 0.742 bpc у TinyStories-33M). (Расчёт bpc: loss / (ln(2) x средняя длина токена), для BPE‑2048 ≈ 4.5 символа, для словаря 10k ≈ 3.5 символа.)

      (Все это приблизительные значения, полученные усреднением по корпусу - средняя длина токена может немного отличаться в зависимости от конкретного корпуса)

      Задача проекта LILA - показать, что E8-решетка позволяет достичь этой плотности при экстремально малом количестве параметров (20-40M).

      Сегодня начал обучать новую модель с геометрическим внимание ( Leech Lattice Lila 20млн параметров wip) На шаге 40 000 лучший validation loss = 0.4018, что даёт PPL = exp(0.4018) ≈ 1.49. Это практически идентично E8 (1.43) - но у Е8 такой loss на 100,000+ шагах у Leech всего на 40K. Leech обучается быстрее при меньшем числе параметров (≈20M против 40M E8)

      Пересчёт в bits-per-character для объективности

      • Leech-Lila: loss = 0.4018, средняя длина токена для BPE-2048 ≈ 4.5 символа. bpc = 0.4018 / (ln(2) 4.5) ≈ 0.4018 / (0.6931 4.5) ≈ 0.4018 / 3.119 ≈ 0.129 бит/символ.

      • TinyStories-33M (оценка): loss ≈ 1.8, средняя длина токена для словаря 10k ≈ 3.5 символа. bpc = 1.8 / (0.6931 * 3.5) ≈ 1.8 / 2.426 ≈ 0.742 бит/символ.

      • E8-LILA (оценка): loss = 0.36, средняя длина токена для BPE-2048 ≈ 4.5. bpc = 0.36 / (0.6931 * 4.5) ≈ 0.36 / 3.119 ≈ 0.115 бит/символ.

      Таким образом, Leech‑Lila (0.129 bpc) почти догоняет E8 (0.115 bpc), но с меньшими параметрами и быстрее. Обе геометрические модели кардинально превосходят TinyStories-33M по эффективности сжатия текста.

      Таким образом, геометрические модели (E8, Leech) демонстрируют на порядок лучшее сжатие текста (bpc 0.115–0.129 против 0.742), чем стандартная TinyStories‑33M, при существенно меньшем количестве параметров и более быстрой сходимости.


      1. moroz_offff
        02.03.2026 03:59

        Несмотря на впечатляющие цифры, сохраняются некоторые вопросы:

        Обобщаемость на другие датасеты
        TinyStories — это очень специфичный корпус: простые короткие истории с ограниченной лексикой и синтаксисом. Возможно, геометрические модели так хорошо работают именно из-за этой простоты. Нужны тесты на:

        • OpenWebText (более разнообразный)

        • WikiText-103 (более формальный язык)

        • Код (например, The Stack)

        Сравнение с современными small-моделями
        Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями). Хорошо бы сравнить с ними по bpc.

        Теоретическое объяснение
        Почему именно плотная упаковка в 8D или 24D дает такое преимущество? Автор предлагает интуицию ("меньше вязкости", "лучшая организация"), но строгого математического или информационно-теоретического обоснования пока нет?


        1. bootstraptor Автор
          02.03.2026 03:59

          Полностью согласен, что TinyStories - это только первый шаг. Именно поэтому я начал с самого простого датасета, чтобы быстро проверить гипотезу. Сейчас модель обучена, и следующий этап - как раз перенос на более сложные корпуса (WikiText, OpenWebText). TinyStories был выбран как контрольная среда для проверки гипотезы.

          Если геометрия Лича работает на простых смыслах в 5-6 раз эффективнее (0.129 vs 0.742 bpc),  предполагается, что при переходе на WikiText она не "сломается", а проявит свою топологическую устойчивость.  В 2016 году Марина Вязовская доказала, что решётка E8 является оптимальной упаковкой шаров в 8-мерном пространстве (плотность π⁴/384 ≈ 0,2537). Для 24-мерного случая (решётка Лича) оптимальность была доказана Вязовской совместно с соавторами (Cohn, Kumar, Miller, Radchenko, Viazovska).

          В языковых моделях мы работаем с семантическим пространством, где каждый токен - это точка. Чем плотнее и равномернее мы можем упаковать смыслы, тем больше оттенков значения можно различить при фиксированной размерности. Именно поэтому "геометрические модели" достигают такого низкого bpc (0.115–0.129) - они просто не тратят пространство впустую. 

          В модели Leech не просто используется решётка как статический базис. Геометрическая потеря (LeechResonanceLoss) заставляет скрытые состояния резонировать с направлениями этой оптимальной упаковки. Это аналогично тому, как в работе Вязовской использовались модулярные формы для построения "магической функции", идеально оценивающей плотность. (плотная упаковка шаров эквивалентна максимизации минимального расстояния между центрами, в пространстве представлений это означает, что векторы различных токенов находятся на максимально возможном расстоянии друг от друга, что минимизирует их перепутывание и улучшает дискриминацию близких семантических оттенков). Код Lila делает то же самое, но в контексте обучения нейросети: принуждает представления выстраиваться вдоль этих математически оптимальных направлений.

          Больше о математике Lila вы можете прочитать в моих работах на Zenodo: DOI 10.5281/zenodo.18731390 DOI 10.5281/zenodo.18784423

          (p.s. Также вот эта работа  DOI 10.5281/zenodo.18791657  демонстрирует изоморфизм между элементами физической модели и компонентами архитектуры трансформатора на основе E8)


          1. DespInding
            02.03.2026 03:59

            Ради интереса, почему Zenodo, а не arXiv?


            1. bootstraptor Автор
              02.03.2026 03:59

              Публикация на arXiv в процессе peer review и подготовки.


        1. LinkToOS
          02.03.2026 03:59

          Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями).

          Нейронка "размышляла"? DistilGPT2 примерно того же времени как и TinyStories. А MobileBERT вообще 2020-го.