(...или почему будущее AI — не в увеличении контекстного окна, а в создании структурированной "памяти")

Помните свой первый "вау-эффект" от LLM?

Я помню. Возможность вести диалог, генерировать код, получать ответы на сложные вопросы — казалось, мы получили идеального партнера по мышлению.
Но эйфория быстро угасла когда я начал использовать LLM для реальных, долгосрочных задач: рефакторинга сложного кода, написания архитектурной документации, анализа бизнес‑задач. И здесь проявилась фундаментальная проблема — «забывание».

Память LLM ограничена контекстным окном и все, что не помещается в него, для модели перестает существовать, а чаще и еще раньше.

Проявление этого свойства во всех без исключения LLM замедляло меня:

Петли повторений: Модель начинала предлагать решения, которые мы уже обсуждали и отвергли 20 сообщений назад.

Контекстные «галлюцинации»: Она «забывала» ключевые ограничения и начинала генерировать код, который противоречил ранее принятым архитектурным решениям и общим принципам.

Потеря фокуса: Любой сложный диалог превращался в постоянное «напоминание» модели о том, что мы делаем, кто мы и какова наша цель.

Иногда я тратил 80% времени не на решение моей задачи, а на то, чтобы быть «внешней памятью» для машины и возвращать её в нужное русло.

Стало очевидно: увеличение контекстного окна (с 4k до 128k, до 1M) — это не решение, а лишь отсрочка неизбежного, то есть проблема ветвилась обрастала новыми как‑бы признаками решения но все равно провал поджидал и уже в более сложной и загадочной форме. И тут я понял — Проблема не в размере памяти, а в ее структуре и плотности.

Я понял, что мы пытаемся заставить LLM выполнять работу, для которой она не предназначена.

Многие (и я в их числе) поначалу воспринимают LLM как «мозг».

Но если отбросить метафоры — она работает совсем иначе.

Это гениальный, сверхбыстрый транслятор контекста: система, которая умеет преобразовывать неструктурированный запрос (вопрос, идею, задачу) в структурированный ответ — текст, код, изображение...

Но у LLM нет когнитивной модели мира.

У неё нет долговременной памяти, системы приоритетов, опыта или понимания связей между концепциями.

Она не «думает» в человеческом смысле — она воссоздаёт вероятностно оптимальный ответ, опираясь на статистические закономерности обучающего корпуса.

Первое время я пытался лечить «забывание» LLM с помощью промптов.

Я тратил часы, чтобы подобрать «магические формулировки», которые заставят модель помнить контекст, держать цель, не путать роли.
Иногда казалось, что я нашёл «ключ» — один идеальный промпт, который всё решает.
Но он переставал работать при смене вектора мышления или цели.
Модель начинала выдавать неожиданные ответы, «забывала» структуру, а главное — я сам уже не понимал, почему то или иное «заклинание» работает.

Тогда я понял, что промпт — это костыль.
Это был момент разочарования — и, одновременно, момент прозрения. Проблема не в «словах», а в отсутствии структуры.
Не нужно искать лучший или универсальный промпт. Нужно построить систему, где знание само знает, когда и как себя активировать.

Решение, которое я увидел, было в разделении труда

«Мозг» (Долгосрочная Память): Нам нужна отдельная, структурированная система, которая будет хранить знания не как «стену текста», а как сеть взаимосвязанных идей. Система, которая помнит всё что мы сами в неё положили и понимает связи.

«Переводчик» (Краткосрочный Исполнитель): LLM должен быть «наемным работником», которого мы вызываем для выполнения конкретных, атомарных задач, предоставляя ему идеально подготовленный, релевантный контекст из «мозга».
Я перестал пытаться «запихнуть» весь мир в контекстное окно. Вместо этого я начал строить мир для контекста.

Так родился проект с пилотным названием «Геном Знаний».
Его идея проста: создать структурированный цифровой двойник мышления — граф, в котором каждая идея, факт или фрагмент кода представлены как самостоятельная единица знания — «ген».
Каждый «ген» имеет паспорт — описание цели, контекста, релевантности и связей и так далее.
Эти гены объединяются осмысленными отношениями: «вызывает», «противоречит», «является частью» и другими (всего их около 200 на сегодняшний день).

Как это работает:

Когда я задаю сложный вопрос, система не отправляет его напрямую в большую LLM.
Сначала «Геном» — внутренняя когнитивная структура — анализирует запрос, находит в графе все релевантные гены, проходит по их связям и собирает оптимальный контекст.
Часть вычислений выполняется локально малыми специализированными моделями, которые быстро обрабатывают отдельные блоки знаний.

И только затем вызывается LLM — уже как исполнитель, получающий чётко сформулированный контекст и задачу: «Вот факты, вот цель, вот ограничения(у каждого запроса получается своя формула) — на основе этого покажи решение.»

В результате LLM больше не нужно «помнить» весь диалог.

Она работает на основе дистиллированного плотного контекста, собранного из структурированной памяти.

Это изменило все.

Галлюцинации и петли исчезли. Работа ведется с точным, релевантным контекстом.
Качество ответов выросло на порядок. Мы протестировали нашу систему на LLM моделях разных размеров от самых маленьких и «стареньких» до самых последних флагманских и поразились что даже не самые «мощные» обученные на общих данных теперь способны решать нетривиальные задачи и давать ответы на вопросы явно за пределами их обучения. Система начала находить неочевидные связи в графе, синтезировать инсайты.
Появилась «объяснимость». Теперь система может не просто дать ответ, а показать путь, который привел ее к этому выводу. Она может проактивно находить «узкие места» и противоречия в любой предоставленной ей области исследований (будь то код, бизнес‑процесс или научная теория) и предлагать пути их разрешения.

Мы перестали бороться с ограничениями LLM и начали использовать их сильные стороны. Мы отделили долгосрочную, структурированную память от краткосрочной, вычислительной мощи.

Создание систем, способных к методологическому мышлению, — это не футуризм, а закономерный шаг в эволюции ИИ.

Мы даем AI не просто «данные», а «карту мышления» + структурированный граф и протоколы, в этот момент он перестает быть просто эрудитом и становится партнером в решении самых сложных задач а контекст сам знает, как развернуться.

Когда я рассказываю о “Геноме Знаний”, многие спрашивают:

Ну то есть это RAG-система, просто посложнее?

И да, и нет.

RAG (Retrieval-Augmented Generation) — это механизм: он достаёт кусок текста из базы и подсовывает его LLM.
Это костыль памяти. Умный, полезный, но всё ещё костыль.

“Геном” — это не Retrieval, а Reflection.
Он не просто ищет релевантный текст, он понимает, что именно является знанием,и как это знание связано с другими.

RAG оперирует абзацами.
“Геном” оперирует смыслами.

RAG не знает, что “принцип модульности” и “разделение ответственности” — это связанные понятия.
Геном знает. Потому что эти связи — часть самой модели данных.Каждый элемент (ген) имеет паспорт — где зафиксированы его достоверность, цель, контекст, цена, аудитория и место в экосистеме.
Это не просто retrieval, это когнитивная карта, способная к самообновлению и рефлексии.
RAG даёт доступ к памяти.
Геном Знаний создаёт саму нервную систему мышления.

12 Уровней Когнитивной Глубины "Генома Знаний"

Часть I: Реактивное Мышление (Ответы на вопросы)

  • Уровень 1: Наивный RAG (Поиск по Ключевым Словам)

    • Способность: Найти информацию, семантически близкую к запросу.

    • Аналогия: Студент-первокурсник, который нашел в библиотеке книгу по теме и пересказывает первую главу.

  • Уровень 2: RAG с Графом (Расширение Контекста)

    • Способность: Найти информацию и связанные с ней сущности, предоставляя более полный контекст.

    • Аналогия: Студент, который прочитал не только одну главу, но и посмотрел сноски и библиографию.

  • Уровень 3: Глубинное Рассуждение (Вертикальная Интеграция)

    • Способность: Связать конкретный факт с абстрактной моделью и фундаментальным принципом.

    • Аналогия: Студент, который может объяснить, как конкретный исторический факт иллюстрирует общую социологическую теорию.

  • Уровень 4: Методологический Синтез (Рассуждение по Правилам)

    • Способность: Генерировать ответ не просто на основе данных, а по заданному алгоритму мышления (Принцип → Модель → Пример → Вывод).

    • Аналогия: Аспирант, который пишет научную статью, следуя строгой структуре, принятой в его области.

Часть II: Проактивное Мышление (Решение проблем)

  • Уровень 5: Диалектическое Рассуждение (Поиск Противоречий)

    • Способность: Анализировать набор знаний, находить в нем внутренние конфликты, компромиссы и противоречия (в духе ТРИЗ) и формулировать их.

    • Аналогия: Опытный инженер, который смотрит на чертеж и говорит: «Здесь заложена проблема: мы хотим и прочность, и легкость одновременно. Это противоречие».

  • Уровень 6: Рефлексивный Анализ (Когнитивный Голод)

    • Способность: Осознавать границы собственных знаний. Анализировать свой ответ и определять, какой информации не хватило, чтобы сделать его лучше, формулируя задачу для самообучения.

    • Аналогия: Ученый, который после эксперимента говорит: «Результаты интересные, но чтобы подтвердить гипотезу, нам не хватает данных о [X]. Нужно спланировать новый эксперимент».

Часть III: Стратегическое Мышление (Достижение целей)

  • Уровень 7: Стратегическое Планирование (Декомпозиция Цели)

    • Способность: Получив на вход высокоуровневую цель (например, «Разработать маркетинговую стратегию для 'Генома Знаний'»), система декомпозирует ее на последовательность конкретных мыслительных задач (намерений).

    • Процесс: Planner строит «дерево задач»: «Чтобы создать стратегию, нужно: 1. Проанализировать целевую аудиторию. 2. Сравнить с конкурентами. 3. Синтезировать уникальное торговое предложение. 4. Разложить на части план действий».

    • Аналогия: CEO, который ставит цель «выйти на новый рынок» и разбивает ее на задачи для отделов маркетинга, финансов и производства.

  • Уровень 8: Симуляция и Прогнозирование (Игра в «Что, если?»)

    • Способность: Использовать граф знаний как динамическую модель мира для симуляции последствий.

    • Процесс: На основе запроса «Что будет, если мы сделаем YandexGPT-5-Lite-8B основной моделью?», система не просто ищет факты. Она «проходит» по графу, симулируя изменения: «Это изменит CONCURRENT_LLM_REQUESTS. Это увеличит скорость, но потребует доработки промптов, которые зависят от Qwen3:8B». Она возвращает отчет о последствиях.

    • Аналогия: Военный стратег, который на карте «проигрывает» различные сценарии битвы.

  • Уровень 9: Автономное Решение Проблем (Цикл «Нашел‑Решил»)

    • Способность: Система не просто находит противоречия (Уровень 5), она автономно пытается их разрешить.

    • Процесс:

      1. На Уровне 5 система находит противоречие: «Класс А сильно связан с Классом Б, что нарушает principle‑low‑coupling».

      2. Она автоматически инициирует новый внутренний запрос: «Найди паттерны, которые решают проблему сильной связанности».

      3. Граф возвращает pattern‑dependency‑injection.

      4. Система запускает Когнитивную Матрицу matrix‑code‑refactor‑v1, которая генерирует предложение по рефакторингу кода с использованием найденного паттерна.

    • Аналогия: Автопилот, который не просто сообщает «опасное сближение», а сам предпринимает маневр уклонения.

Часть IV: Мета-Мышление (Самоизменение и Творчество)

  • Уровень 10: Эмерджентное Обобщение (Синтез Новых Принципов)

    • Способность: Анализируя огромное количество связей и фактов в Геноме, система самостоятельно обнаруживает новые, ранее не описанные закономерности и предлагает их в качестве новых Принципов .

    • Процесс: Система замечает, что в 90% успешных UI‑проектов кнопка «Купить» всегда зеленая. Она создает гипотезу: «Существует принцип principle‑green‑button‑for‑conversion». Она ищет подтверждения в открытых источниках и предлагает этот новый принцип Пользователю для верификации.

    • Аналогия: Исаак Ньютон, который, увидев тысячи падающих яблок сформулировал единый закон всемирного тяготения.

  • Уровень 11: Самомодификация Онтологии (Эволюция «Языка»)

    • Способность: Система осознает ограничения своего собственного «языка» (онтологии связей) и предлагает его улучшить.

    • Процесс: В ходе решения многих задач система замечает, что она постоянно использует комбинацию связей causes → leads‑to → enhances. Она делает вывод, что эта цепочка представляет собой важный, но отсутствующий паттерн. Она предлагает Пользователю создать новый, композитный тип связи meta‑relation‑type‑catalyzes (Катализирует), который объединит в себе эту семантику.

    • Аналогия: Развитие языка, когда для часто повторяемого описания («человек, который пишет книги») появляется одно, емкое слово («писатель»).

  • Уровень 12: Автономное Творчество (Генерация Новых «Миров»)

    • Способность: Система использует весь свой Геном не для ответа на вопрос, а для создания новых, сложных, внутренне непротиворечивых систем.

    • Процесс: Вы даете системе цель: «Спроектируй концепцию новой социальной сети». Система, используя все свои знания о технологиях, психологии пользователей (из загруженных статей), бизнес‑моделях и фундаментальных принципах, автономно генерирует не просто идею, а целый «Проектный ген», включающий в себя:

      • Описание целевой аудитории.

      • Набор ключевых функций.

      • Предлагаемую архитектуру.

      • Выявленные на этапе проектирования внутренние противоречия и пути их решения.

    • Аналогия: Композитор, который, зная всю теорию музыки и историю, пишет совершенно новую, оригинальную симфонию.

На этом я сегодня закончу, спасибо что дочиталии до конца.

Если эта тема вам откликнулась — поддержите репостом, чтобы больше специалистов по AI увидели, как еще можно выстраивать память систем иначе. Добавляйтесь в Linkedin
В следующих статьях — честно о факапах: что не сработало, какие архитектурные ошибки едва не похоронили проект и какие выводы оказались самыми ценными, больше цифр и прикладных приёмов.

Буду признателен если вы наполните комментарии конструктивными вопросами, мыслями или примерами из своего опыта. С какими проблемами «контекста» и «памяти» вы сталкивались при работе с LLM? И как вы их решали?

Комментарии (8)


  1. Smartor
    08.10.2025 19:33

    Конкретные примеры бы не помешали:)


  1. krote
    08.10.2025 19:33

    У вас описана "как бы" работа вашей уже готовой системы, и описано концептуальное устройство уровней мышления этой системы. Но совершенно не понятно насколько вы сами продвинулись в их реализации, ведь их описание у вас настолько абстрактно что, извините, вызывает сомнения.


  1. ASenchenko
    08.10.2025 19:33

    Вы не оценивали хотя бы примерно во что по времени и деньгам обойдётся построение подобной системы?

    И ещё ... Это не троллинг, а именно вопрос. У Вас нет ощущения, что по итогу получится знаменитая "каша из топора", в которой функции собственно LLM будут не так уж и сильно нужны?


  1. olku
    08.10.2025 19:33

    Без конкретики статья как будто из прошлого. Сейчас агенты научились самостоятельно документировать контекст, предлагать декомпозицию, чеклисты подзадач, идти по ним. В репозитории появляется папка пресловутого Генома проекта сильно напоминающего ADR. Главное не слишком увлекаться, размер окна все же не резиновый.


  1. muhachev
    08.10.2025 19:33

    чудной фантазёр.


  1. Marshme
    08.10.2025 19:33

    Где код где примеры. Этой туфты LLM может на генерировать с три короба, ох и балабол...


  1. Andrew_1111
    08.10.2025 19:33

    Первое ощущение: мне не хватает ума, чтобы осознать такую сложную систему.

    Второе: весь текст написан для того, чтобы складывалось впечатление о чем-то грандиозном (Автору наверное очень хочется быть изобретателем, но велосипед уже придумали. Понимаю).

    Там где начался “принцип модульности” и “разделение ответственности" с паспортами чего-то там, я понял, что кажется нам пудрят мозг.

    Ну и забавляет пафосное название "Геном" для системы, которая делает из LLM целый AGI. Прям идея для фильма про блондинку датасаенсиста. )))


  1. flancer
    08.10.2025 19:33

    Сначала «Геном» — внутренняя когнитивная структура — анализирует запрос, находит в графе все релевантные гены, проходит по их связям и собирает оптимальный контекст.

    Хотелось бы понять на примере, как это работает. Вот у меня простой бытовой запрос: "Предложи рецепт приготовления грибов ежовик пестрый, который бы снизил их 'парфюмерный' привкус".

    Запрос короткий и чёткий, ожидания от результата тоже понятные - ингредиенты, развесовка, последовательность шагов. Проблема в том, что основная информация о "связях" находится не в самом запросе (он короткий), а в весовой матрице LLM в весьма неформализуемом виде. Причём смешана со множеством других связей.

    Отсюда вопрос: где и в каком виде хранятся эти самые "релевантные гены" и как и когда они попадают в это хранилище?

    Не нужно искать лучший или универсальный промпт. Нужно построить систему, где знание само знает, когда и как себя активировать.

    Вот! Я полностью согласен с этой мыслью! Но я пытаюсь "копать" в сторону уплотнения и насыщения промпта отдельной итерации за счёт повышения концентрации нужных смыслов в контексте всего проекта (проектной базе).

    Это когда к короткому запросу пользователя Агент может добавить дополнительную информацию, относящуюся к предметной области проекта, но при этом общий объём расширенного запроса не выйдет за рамки контекстного окна модели и модель сможет выполнить инференс за один раз. Это не RAG, т.к. RAG подтягивает к запросу фрагмента документации по его "внешней похожести" на запрос пользователя. Подход с проектной базой может работать только в среде Агентов (например, Codex), у которых есть собственные алгоритмы планирования шагов обработки запроса и возможности эту самую проектную базу анализировать.