Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры / forpes.ru

Главная
Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры +7

02.03.2026 00:36

bootstraptor 16 7000 Источник

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Суть метода: Я заменил стандартный механизм внимания на нативную геометрию исключительной группы Ли Е8. Вместо того чтобы заставлять модель угадывать связи, я дал ей идеальную 8-мерную решетку для упаковки семантических векторов.

Что это дало (пруфы в студию):

Архитектура: Lila-E8, всего 40 млн параметров.
Результат: На TinyStories мы пробили 0.37 Train Loss и удерживаем 0.44–0.53 Validation. Для сравнения: это чище, чем у 60М-модели от Microsoft.
Контекст: 750+ токенов без единого зацикливания(и это при размере контекстного окна 512). Модель не «плывет» и не сходит с ума на длинных рассказах.

Реальные цифры: Loss 0.37 — это не шутка. Это точка, где математика превращается в интеллект.

Почему это работает?

Стандартный аттеншн создает «трение» в латентном пространстве. Решетка обеспечивает самую плотную упаковку сфер в 8 измерениях. Это сводит информационную вязкость к минимуму. Модель не зубрит — она резонирует со структурой языка.

Код на GitHub, веса и Colab для проверки — всё в открытом доступе (AGPLv3).

Github

Notebook

В то время как классические трансформеры (например, NanoGPT) полагаются на грубую статистическую силу и огромные матрицы весов для аппроксимации языка, E8-former использует фундаментальную симметрию Вселенной — исключительную группу Ли E8.

Lila-E8 (Lie Lattice Attention Language Model) — это экспериментальная модель глубокого обучения, которая исследует интеграцию фундаментальной математической структуры, а именно симметрий системы корней E8, в архитектуру трансформера.

В отличие от традиционных моделей, опирающихся исключительно на статистические корреляции, E8-Transformer стремится использовать глубокие геометрические принципы для создания более эффективных, интерпретируемых и ресурсосберегающих языковых моделей. Этот подход направлен на развитие концепции "геометрического сознания" в ИИ, где понимание языка осуществляется через структурные и симметричные отношения.

Комментарии (16)

AleGen
02.03.2026 03:59
#29605156
Ничего непонятно, но очень интересно.

LinkToOS
02.03.2026 03:59
#29605722
Автор - оригинальный bootstraptor?

bootstraptor Автор
02.03.2026 03:59
#29607584
Автор - оригинальный bootstraptor? - да это я
1. Altair2021
  02.03.2026 03:59
  #29608068
  Почему это работает?
  
  Для такого короткого текста нужна llm'ка?
  
  В последнее время триггерит с этих "why it works", когда вообще не "works"
  1. bootstraptor Автор
    02.03.2026 03:59
    #29608232
    за "таким коротким текстом" стоит 6 месяцев сложной работы и кодинга, которые дают 0.37 Train Loss, (если вам это о чем-то говорит) надеюсь, ответил на ваш вопрос

bootstraptor Автор
02.03.2026 03:59
#29608452
Train Loss / Val Loss
E8 плотная упаковка, но Leech Lattice еще плотнее (WIP) https://github.com/SPUTNIKAI/LeechTransformer

mmxplorer
02.03.2026 03:59
#29608908
Поясните, пожалуйста, как именно вы сравниваете loss c TinyStories-33M. Там словарь 50257, у Lila словарь 2048. Подскажите, как loss сравнивать правильно
1. bootstraptor Автор
  02.03.2026 03:59
  #29609156
  Вы правы, TinyStories в оригинале использует токенизатор на 10k (или 50k в некоторых портах на HF, но в их тесте 10'000), а у LILA - 2048. Прямое сравнение loss "в лоб" здесь некорректно. Однако, если мы перейдем к Perplexity: У TinyStories 33M (v=10k) Loss ~1.8-2.0 дает PPL ~6.0. У LILA (v=2048) Loss ~0.36 дает PPL ~1.43.
  
  (в статье TinyStories у 22M модели после 20k шагов loss ~2.4, у 33M ожидаемо ниже - loss ~1.8–2.0)
  
  После приведения к битам на символ Е8-LILA показывает значительно лучший результат (0.128 bpc против 0.742 bpc у TinyStories-33M). (Расчёт bpc: loss / (ln(2) x средняя длина токена), для BPE‑2048 ≈ 4.5 символа, для словаря 10k ≈ 3.5 символа.)
  
  (Все это приблизительные значения, полученные усреднением по корпусу - средняя длина токена может немного отличаться в зависимости от конкретного корпуса)
  
  Задача проекта LILA - показать, что E8-решетка позволяет достичь этой плотности при экстремально малом количестве параметров (20-40M).
  
  Сегодня начал обучать новую модель с геометрическим внимание ( Leech Lattice Lila 20млн параметров wip) На шаге 40 000 лучший validation loss = 0.4018, что даёт PPL = exp(0.4018) ≈ 1.49. Это практически идентично E8 (1.43) - но у Е8 такой loss на 100,000+ шагах у Leech всего на 40K. Leech обучается быстрее при меньшем числе параметров (≈20M против 40M E8)
  
  Пересчёт в bits-per-character для объективности
  
  Leech-Lila: loss = 0.4018, средняя длина токена для BPE-2048 ≈ 4.5 символа. bpc = 0.4018 / (ln(2) 4.5) ≈ 0.4018 / (0.6931 4.5) ≈ 0.4018 / 3.119 ≈ 0.129 бит/символ.
  
  TinyStories-33M (оценка): loss ≈ 1.8, средняя длина токена для словаря 10k ≈ 3.5 символа. bpc = 1.8 / (0.6931 * 3.5) ≈ 1.8 / 2.426 ≈ 0.742 бит/символ.
  
  E8-LILA (оценка): loss = 0.36, средняя длина токена для BPE-2048 ≈ 4.5. bpc = 0.36 / (0.6931 * 4.5) ≈ 0.36 / 3.119 ≈ 0.115 бит/символ.
  
  Таким образом, Leech‑Lila (0.129 bpc) почти догоняет E8 (0.115 bpc), но с меньшими параметрами и быстрее. Обе геометрические модели кардинально превосходят TinyStories-33M по эффективности сжатия текста.
  
  Таким образом, геометрические модели (E8, Leech) демонстрируют на порядок лучшее сжатие текста (bpc 0.115–0.129 против 0.742), чем стандартная TinyStories‑33M, при существенно меньшем количестве параметров и более быстрой сходимости.
  1. moroz_offff
    02.03.2026 03:59
    #29609662
    Несмотря на впечатляющие цифры, сохраняются некоторые вопросы:
    
    Обобщаемость на другие датасеты
    TinyStories — это очень специфичный корпус: простые короткие истории с ограниченной лексикой и синтаксисом. Возможно, геометрические модели так хорошо работают именно из-за этой простоты. Нужны тесты на:
    
    OpenWebText (более разнообразный)
    
    WikiText-103 (более формальный язык)
    
    Код (например, The Stack)
    
    Сравнение с современными small-моделями
    Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями). Хорошо бы сравнить с ними по bpc.
    
    Теоретическое объяснение
    Почему именно плотная упаковка в 8D или 24D дает такое преимущество? Автор предлагает интуицию ("меньше вязкости", "лучшая организация"), но строгого математического или информационно-теоретического обоснования пока нет?
    
    bootstraptor Автор
    02.03.2026 03:59
    #29610412
    Полностью согласен, что TinyStories - это только первый шаг. Именно поэтому я начал с самого простого датасета, чтобы быстро проверить гипотезу. Сейчас модель обучена, и следующий этап - как раз перенос на более сложные корпуса (WikiText, OpenWebText). TinyStories был выбран как контрольная среда для проверки гипотезы.
    
    Если геометрия Лича работает на простых смыслах в 5-6 раз эффективнее (0.129 vs 0.742 bpc), предполагается, что при переходе на WikiText она не "сломается", а проявит свою топологическую устойчивость. В 2016 году Марина Вязовская доказала, что решётка E8 является оптимальной упаковкой шаров в 8-мерном пространстве (плотность π⁴/384 ≈ 0,2537). Для 24-мерного случая (решётка Лича) оптимальность была доказана Вязовской совместно с соавторами (Cohn, Kumar, Miller, Radchenko, Viazovska).
    
    В языковых моделях мы работаем с семантическим пространством, где каждый токен - это точка. Чем плотнее и равномернее мы можем упаковать смыслы, тем больше оттенков значения можно различить при фиксированной размерности. Именно поэтому "геометрические модели" достигают такого низкого bpc (0.115–0.129) - они просто не тратят пространство впустую.
    
    В модели Leech не просто используется решётка как статический базис. Геометрическая потеря (LeechResonanceLoss) заставляет скрытые состояния резонировать с направлениями этой оптимальной упаковки. Это аналогично тому, как в работе Вязовской использовались модулярные формы для построения "магической функции", идеально оценивающей плотность. (плотная упаковка шаров эквивалентна максимизации минимального расстояния между центрами, в пространстве представлений это означает, что векторы различных токенов находятся на максимально возможном расстоянии друг от друга, что минимизирует их перепутывание и улучшает дискриминацию близких семантических оттенков). Код Lila делает то же самое, но в контексте обучения нейросети: принуждает представления выстраиваться вдоль этих математически оптимальных направлений.
    
    Больше о математике Lila вы можете прочитать в моих работах на Zenodo: DOI 10.5281/zenodo.18731390 DOI 10.5281/zenodo.18784423
    
    (p.s. Также вот эта работа DOI 10.5281/zenodo.18791657 демонстрирует изоморфизм между элементами физической модели и компонентами архитектуры трансформатора на основе E8)
    
    DespInding
    02.03.2026 03:59
    #29610784
    Ради интереса, почему Zenodo, а не arXiv?
    
    bootstraptor Автор
    02.03.2026 03:59
    #29610810
    Публикация на arXiv в процессе peer review и подготовки.
    
    LinkToOS
    02.03.2026 03:59
    #29610936
    Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями).
    
    Нейронка "размышляла"? DistilGPT2 примерно того же времени как и TinyStories. А MobileBERT вообще 2020-го.

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры +7

Комментарии (16)

AleGen

LinkToOS

bootstraptor Автор

Altair2021

bootstraptor Автор

bootstraptor Автор

mmxplorer

bootstraptor Автор

moroz_offff

bootstraptor Автор

DespInding

bootstraptor Автор

LinkToOS