
(...или почему будущее AI — не в увеличении контекстного окна, а в создании структурированной "памяти")
Помните свой первый "вау-эффект" от LLM?
Я помню. Возможность вести диалог, генерировать код, получать ответы на сложные вопросы — казалось, мы получили идеального партнера по мышлению.
Но эйфория быстро угасла когда я начал использовать LLM для реальных, долгосрочных задач: рефакторинга сложного кода, написания архитектурной документации, анализа бизнес‑задач. И здесь проявилась фундаментальная проблема — «забывание».
Память LLM ограничена контекстным окном и все, что не помещается в него, для модели перестает существовать, а чаще и еще раньше.
Проявление этого свойства во всех без исключения LLM замедляло меня:
Петли повторений: Модель начинала предлагать решения, которые мы уже обсуждали и отвергли 20 сообщений назад.
Контекстные «галлюцинации»: Она «забывала» ключевые ограничения и начинала генерировать код, который противоречил ранее принятым архитектурным решениям и общим принципам.
Потеря фокуса: Любой сложный диалог превращался в постоянное «напоминание» модели о том, что мы делаем, кто мы и какова наша цель.
Иногда я тратил 80% времени не на решение моей задачи, а на то, чтобы быть «внешней памятью» для машины и возвращать её в нужное русло.
Стало очевидно: увеличение контекстного окна (с 4k до 128k, до 1M) — это не решение, а лишь отсрочка неизбежного, то есть проблема ветвилась обрастала новыми как‑бы признаками решения но все равно провал поджидал и уже в более сложной и загадочной форме. И тут я понял — Проблема не в размере памяти, а в ее структуре и плотности.
Я понял, что мы пытаемся заставить LLM выполнять работу, для которой она не предназначена.
Многие (и я в их числе) поначалу воспринимают LLM как «мозг».
Но если отбросить метафоры — она работает совсем иначе.
Это гениальный, сверхбыстрый транслятор контекста: система, которая умеет преобразовывать неструктурированный запрос (вопрос, идею, задачу) в структурированный ответ — текст, код, изображение...
Но у LLM нет когнитивной модели мира.
У неё нет долговременной памяти, системы приоритетов, опыта или понимания связей между концепциями.
Она не «думает» в человеческом смысле — она воссоздаёт вероятностно оптимальный ответ, опираясь на статистические закономерности обучающего корпуса.
Первое время я пытался лечить «забывание» LLM с помощью промптов.
Я тратил часы, чтобы подобрать «магические формулировки», которые заставят модель помнить контекст, держать цель, не путать роли.
Иногда казалось, что я нашёл «ключ» — один идеальный промпт, который всё решает.
Но он переставал работать при смене вектора мышления или цели.
Модель начинала выдавать неожиданные ответы, «забывала» структуру, а главное — я сам уже не понимал, почему то или иное «заклинание» работает.
Тогда я понял, что промпт — это костыль.
Это был момент разочарования — и, одновременно, момент прозрения. Проблема не в «словах», а в отсутствии структуры.
Не нужно искать лучший или универсальный промпт. Нужно построить систему, где знание само знает, когда и как себя активировать.
Решение, которое я увидел, было в разделении труда
«Мозг» (Долгосрочная Память): Нам нужна отдельная, структурированная система, которая будет хранить знания не как «стену текста», а как сеть взаимосвязанных идей. Система, которая помнит всё что мы сами в неё положили и понимает связи.
«Переводчик» (Краткосрочный Исполнитель): LLM должен быть «наемным работником», которого мы вызываем для выполнения конкретных, атомарных задач, предоставляя ему идеально подготовленный, релевантный контекст из «мозга».
Я перестал пытаться «запихнуть» весь мир в контекстное окно. Вместо этого я начал строить мир для контекста.
Так родился проект с пилотным названием «Геном Знаний».
Его идея проста: создать структурированный цифровой двойник мышления — граф, в котором каждая идея, факт или фрагмент кода представлены как самостоятельная единица знания — «ген».
Каждый «ген» имеет паспорт — описание цели, контекста, релевантности и связей и так далее.
Эти гены объединяются осмысленными отношениями: «вызывает», «противоречит», «является частью» и другими (всего их около 200 на сегодняшний день).
Как это работает:
Когда я задаю сложный вопрос, система не отправляет его напрямую в большую LLM.
Сначала «Геном» — внутренняя когнитивная структура — анализирует запрос, находит в графе все релевантные гены, проходит по их связям и собирает оптимальный контекст.
Часть вычислений выполняется локально малыми специализированными моделями, которые быстро обрабатывают отдельные блоки знаний.
И только затем вызывается LLM — уже как исполнитель, получающий чётко сформулированный контекст и задачу: «Вот факты, вот цель, вот ограничения(у каждого запроса получается своя формула) — на основе этого покажи решение.»
В результате LLM больше не нужно «помнить» весь диалог.
Она работает на основе дистиллированного плотного контекста, собранного из структурированной памяти.
Это изменило все.
Галлюцинации и петли исчезли. Работа ведется с точным, релевантным контекстом.
Качество ответов выросло на порядок. Мы протестировали нашу систему на LLM моделях разных размеров от самых маленьких и «стареньких» до самых последних флагманских и поразились что даже не самые «мощные» обученные на общих данных теперь способны решать нетривиальные задачи и давать ответы на вопросы явно за пределами их обучения. Система начала находить неочевидные связи в графе, синтезировать инсайты.
Появилась «объяснимость». Теперь система может не просто дать ответ, а показать путь, который привел ее к этому выводу. Она может проактивно находить «узкие места» и противоречия в любой предоставленной ей области исследований (будь то код, бизнес‑процесс или научная теория) и предлагать пути их разрешения.
Мы перестали бороться с ограничениями LLM и начали использовать их сильные стороны. Мы отделили долгосрочную, структурированную память от краткосрочной, вычислительной мощи.
Создание систем, способных к методологическому мышлению, — это не футуризм, а закономерный шаг в эволюции ИИ.
Мы даем AI не просто «данные», а «карту мышления» + структурированный граф и протоколы, в этот момент он перестает быть просто эрудитом и становится партнером в решении самых сложных задач а контекст сам знает, как развернуться.
Когда я рассказываю о “Геноме Знаний”, многие спрашивают:
Ну то есть это RAG-система, просто посложнее?
И да, и нет.
RAG (Retrieval-Augmented Generation) — это механизм: он достаёт кусок текста из базы и подсовывает его LLM.
Это костыль памяти. Умный, полезный, но всё ещё костыль.
“Геном” — это не Retrieval, а Reflection.
Он не просто ищет релевантный текст, он понимает, что именно является знанием,и как это знание связано с другими.
RAG оперирует абзацами.
“Геном” оперирует смыслами.
RAG не знает, что “принцип модульности” и “разделение ответственности” — это связанные понятия.
Геном знает. Потому что эти связи — часть самой модели данных.Каждый элемент (ген) имеет паспорт — где зафиксированы его достоверность, цель, контекст, цена, аудитория и место в экосистеме.
Это не просто retrieval, это когнитивная карта, способная к самообновлению и рефлексии.
RAG даёт доступ к памяти.
Геном Знаний создаёт саму нервную систему мышления.
12 Уровней Когнитивной Глубины "Генома Знаний"
Часть I: Реактивное Мышление (Ответы на вопросы)
-
Уровень 1: Наивный RAG (Поиск по Ключевым Словам)
Способность: Найти информацию, семантически близкую к запросу.
Аналогия: Студент-первокурсник, который нашел в библиотеке книгу по теме и пересказывает первую главу.
-
Уровень 2: RAG с Графом (Расширение Контекста)
Способность: Найти информацию и связанные с ней сущности, предоставляя более полный контекст.
Аналогия: Студент, который прочитал не только одну главу, но и посмотрел сноски и библиографию.
-
Уровень 3: Глубинное Рассуждение (Вертикальная Интеграция)
Способность: Связать конкретный факт с абстрактной моделью и фундаментальным принципом.
Аналогия: Студент, который может объяснить, как конкретный исторический факт иллюстрирует общую социологическую теорию.
-
Уровень 4: Методологический Синтез (Рассуждение по Правилам)
Способность: Генерировать ответ не просто на основе данных, а по заданному алгоритму мышления (Принцип → Модель → Пример → Вывод).
Аналогия: Аспирант, который пишет научную статью, следуя строгой структуре, принятой в его области.
Часть II: Проактивное Мышление (Решение проблем)
-
Уровень 5: Диалектическое Рассуждение (Поиск Противоречий)
Способность: Анализировать набор знаний, находить в нем внутренние конфликты, компромиссы и противоречия (в духе ТРИЗ) и формулировать их.
Аналогия: Опытный инженер, который смотрит на чертеж и говорит: «Здесь заложена проблема: мы хотим и прочность, и легкость одновременно. Это противоречие».
-
Уровень 6: Рефлексивный Анализ (Когнитивный Голод)
Способность: Осознавать границы собственных знаний. Анализировать свой ответ и определять, какой информации не хватило, чтобы сделать его лучше, формулируя задачу для самообучения.
Аналогия: Ученый, который после эксперимента говорит: «Результаты интересные, но чтобы подтвердить гипотезу, нам не хватает данных о [X]. Нужно спланировать новый эксперимент».
Часть III: Стратегическое Мышление (Достижение целей)
-
Уровень 7: Стратегическое Планирование (Декомпозиция Цели)
Способность: Получив на вход высокоуровневую цель (например, «Разработать маркетинговую стратегию для 'Генома Знаний'»), система декомпозирует ее на последовательность конкретных мыслительных задач (намерений).
Процесс: Planner строит «дерево задач»: «Чтобы создать стратегию, нужно: 1. Проанализировать целевую аудиторию. 2. Сравнить с конкурентами. 3. Синтезировать уникальное торговое предложение. 4. Разложить на части план действий».
Аналогия: CEO, который ставит цель «выйти на новый рынок» и разбивает ее на задачи для отделов маркетинга, финансов и производства.
-
Уровень 8: Симуляция и Прогнозирование (Игра в «Что, если?»)
Способность: Использовать граф знаний как динамическую модель мира для симуляции последствий.
Процесс: На основе запроса «Что будет, если мы сделаем YandexGPT-5-Lite-8B основной моделью?», система не просто ищет факты. Она «проходит» по графу, симулируя изменения: «Это изменит CONCURRENT_LLM_REQUESTS. Это увеличит скорость, но потребует доработки промптов, которые зависят от Qwen3:8B». Она возвращает отчет о последствиях.
Аналогия: Военный стратег, который на карте «проигрывает» различные сценарии битвы.
-
Уровень 9: Автономное Решение Проблем (Цикл «Нашел‑Решил»)
Способность: Система не просто находит противоречия (Уровень 5), она автономно пытается их разрешить.
-
Процесс:
На Уровне 5 система находит противоречие: «Класс А сильно связан с Классом Б, что нарушает principle‑low‑coupling».
Она автоматически инициирует новый внутренний запрос: «Найди паттерны, которые решают проблему сильной связанности».
Граф возвращает pattern‑dependency‑injection.
Система запускает Когнитивную Матрицу matrix‑code‑refactor‑v1, которая генерирует предложение по рефакторингу кода с использованием найденного паттерна.
Аналогия: Автопилот, который не просто сообщает «опасное сближение», а сам предпринимает маневр уклонения.
Часть IV: Мета-Мышление (Самоизменение и Творчество)
-
Уровень 10: Эмерджентное Обобщение (Синтез Новых Принципов)
Способность: Анализируя огромное количество связей и фактов в Геноме, система самостоятельно обнаруживает новые, ранее не описанные закономерности и предлагает их в качестве новых Принципов .
Процесс: Система замечает, что в 90% успешных UI‑проектов кнопка «Купить» всегда зеленая. Она создает гипотезу: «Существует принцип principle‑green‑button‑for‑conversion». Она ищет подтверждения в открытых источниках и предлагает этот новый принцип Пользователю для верификации.
Аналогия: Исаак Ньютон, который, увидев тысячи падающих яблок сформулировал единый закон всемирного тяготения.
-
Уровень 11: Самомодификация Онтологии (Эволюция «Языка»)
Способность: Система осознает ограничения своего собственного «языка» (онтологии связей) и предлагает его улучшить.
Процесс: В ходе решения многих задач система замечает, что она постоянно использует комбинацию связей causes → leads‑to → enhances. Она делает вывод, что эта цепочка представляет собой важный, но отсутствующий паттерн. Она предлагает Пользователю создать новый, композитный тип связи meta‑relation‑type‑catalyzes (Катализирует), который объединит в себе эту семантику.
Аналогия: Развитие языка, когда для часто повторяемого описания («человек, который пишет книги») появляется одно, емкое слово («писатель»).
-
Уровень 12: Автономное Творчество (Генерация Новых «Миров»)
Способность: Система использует весь свой Геном не для ответа на вопрос, а для создания новых, сложных, внутренне непротиворечивых систем.
-
Процесс: Вы даете системе цель: «Спроектируй концепцию новой социальной сети». Система, используя все свои знания о технологиях, психологии пользователей (из загруженных статей), бизнес‑моделях и фундаментальных принципах, автономно генерирует не просто идею, а целый «Проектный ген», включающий в себя:
Описание целевой аудитории.
Набор ключевых функций.
Предлагаемую архитектуру.
Выявленные на этапе проектирования внутренние противоречия и пути их решения.
Аналогия: Композитор, который, зная всю теорию музыки и историю, пишет совершенно новую, оригинальную симфонию.
На этом я сегодня закончу, спасибо что дочиталии до конца.
Если эта тема вам откликнулась — поддержите репостом, чтобы больше специалистов по AI увидели, как еще можно выстраивать память систем иначе. Добавляйтесь в Linkedin
В следующих статьях — честно о факапах: что не сработало, какие архитектурные ошибки едва не похоронили проект и какие выводы оказались самыми ценными, больше цифр и прикладных приёмов.
Буду признателен если вы наполните комментарии конструктивными вопросами, мыслями или примерами из своего опыта. С какими проблемами «контекста» и «памяти» вы сталкивались при работе с LLM? И как вы их решали?
Комментарии (8)
krote
08.10.2025 19:33У вас описана "как бы" работа вашей уже готовой системы, и описано концептуальное устройство уровней мышления этой системы. Но совершенно не понятно насколько вы сами продвинулись в их реализации, ведь их описание у вас настолько абстрактно что, извините, вызывает сомнения.
ASenchenko
08.10.2025 19:33Вы не оценивали хотя бы примерно во что по времени и деньгам обойдётся построение подобной системы?
И ещё ... Это не троллинг, а именно вопрос. У Вас нет ощущения, что по итогу получится знаменитая "каша из топора", в которой функции собственно LLM будут не так уж и сильно нужны?
olku
08.10.2025 19:33Без конкретики статья как будто из прошлого. Сейчас агенты научились самостоятельно документировать контекст, предлагать декомпозицию, чеклисты подзадач, идти по ним. В репозитории появляется папка пресловутого Генома проекта сильно напоминающего ADR. Главное не слишком увлекаться, размер окна все же не резиновый.
Marshme
08.10.2025 19:33Где код где примеры. Этой туфты LLM может на генерировать с три короба, ох и балабол...
Andrew_1111
08.10.2025 19:33Первое ощущение: мне не хватает ума, чтобы осознать такую сложную систему.
Второе: весь текст написан для того, чтобы складывалось впечатление о чем-то грандиозном (Автору наверное очень хочется быть изобретателем, но велосипед уже придумали. Понимаю).
Там где начался “принцип модульности” и “разделение ответственности" с паспортами чего-то там, я понял, что кажется нам пудрят мозг.
Ну и забавляет пафосное название "Геном" для системы, которая делает из LLM целый AGI. Прям идея для фильма про блондинку датасаенсиста. )))
flancer
08.10.2025 19:33Сначала «Геном» — внутренняя когнитивная структура — анализирует запрос, находит в графе все релевантные гены, проходит по их связям и собирает оптимальный контекст.
Хотелось бы понять на примере, как это работает. Вот у меня простой бытовой запрос: "Предложи рецепт приготовления грибов ежовик пестрый, который бы снизил их 'парфюмерный' привкус".
Запрос короткий и чёткий, ожидания от результата тоже понятные - ингредиенты, развесовка, последовательность шагов. Проблема в том, что основная информация о "связях" находится не в самом запросе (он короткий), а в весовой матрице LLM в весьма неформализуемом виде. Причём смешана со множеством других связей.
Отсюда вопрос: где и в каком виде хранятся эти самые "релевантные гены" и как и когда они попадают в это хранилище?
Не нужно искать лучший или универсальный промпт. Нужно построить систему, где знание само знает, когда и как себя активировать.
Вот! Я полностью согласен с этой мыслью! Но я пытаюсь "копать" в сторону уплотнения и насыщения промпта отдельной итерации за счёт повышения концентрации нужных смыслов в контексте всего проекта (проектной базе).
Это когда к короткому запросу пользователя Агент может добавить дополнительную информацию, относящуюся к предметной области проекта, но при этом общий объём расширенного запроса не выйдет за рамки контекстного окна модели и модель сможет выполнить инференс за один раз. Это не RAG, т.к. RAG подтягивает к запросу фрагмента документации по его "внешней похожести" на запрос пользователя. Подход с проектной базой может работать только в среде Агентов (например, Codex), у которых есть собственные алгоритмы планирования шагов обработки запроса и возможности эту самую проектную базу анализировать.
Smartor
Конкретные примеры бы не помешали:)