Я хотел собрать локального AI-ассистента для Obsidian, который умеет работать по моим заметкам без интернета и подписок. В итоге протестировал несколько подходов, остановился на связке с Obsidian + Ollama + Gemma 4 и посмотрел, насколько это вообще пригодно для повседневной работы.
Коротко: что в итоге
Итоговая рабочая схема у меня получилась такой:
Obsidian как база знаний
Infio Copilot как AI-плагин
встроенный
bge-micro-v2для embeddingsOllama для запуска локальной языковой модели
gemma4:e2bдля ответов по заметкамqwen3.5:9bиqwen3.5:4bкак альтернативы, которые я тоже пробовал
В результате заметки индексируются быстро, поиск по смыслу работает, ответы можно получать прямо внутри Obsidian, а данные в локальном режиме не уходят в облако. И всё это бесплатно, если не считать электричество, стоимость компьютера и время на установку.
Сразу оговорюсь: это не идеальная и не полностью бесшовная система. Плагины меняются, модели иногда ведут себя нестабильно, а настройка требует времени. Но базовый функционал уже есть, и для личной базы знаний этого оказалось достаточно, чтобы идея наконец стала практически полезной.
Предыстория: почему "второй мозг" не работал как концепция
До этого я несколько раз начинал вести базу знаний. Сначала в Notion, потом в Obsidian. Создавал структуру папок, теги, шаблоны. Через пару недель или месяцев всё это забрасывал. Возможно, есть люди, которым действительно нравится всё конспектировать, но я, видимо, не из их числа. Хотя сам по себе это полезный навык.
Честно говоря, мне всегда казалось, что история про “второй мозг” больше подходит энтузиастам и отдельному сообществу. Красивая концепция, но без большого числа убедительных историй успеха. Систематизация ради систематизации. По крайней мере, так это часто выглядело.
Но сейчас ситуация изменилась.
За последний год у меня, как, думаю, и у многих, накопилось большое количество чатов с нейросетями. Claude, ChatGPT, Gemini и другие. Это десятки диалогов по работе: архитектура, BIM, вайб-кодинг, исследовательские задачи. В них много ценного: рассуждения, рабочие решения, интересные находки, выводы, к которым я приходил через несколько итераций. Всё это лежало в разных интерфейсах и почти не поддавалось нормальному поиску.
Это личное знание, и видно, как оно буквально ускользает из рук. Трудно вспомнить, в каком именно чате был нужный ответ, если ты его заранее не сохранил.
Вот здесь Obsidian начинает иметь смысл. Не как дневник, а как база контекста, по которой можно задавать вопросы. Можно поднимать свои старые мысли, искать повторяющиеся идеи, делать метаанализ того, что уже обсуждал и пробовал.
Для этого нужен AI, встроенный прямо в Obsidian. И желательно, чтобы он работал бесплатно и локально.
На практике это оказалось не так просто.
Что я хотел получить
Моя задача была довольно простой:
хранить заметки и контекст в Obsidian
быстро индексировать заметки для семантического поиска
задавать вопросы по своей базе
по возможности не отправлять данные в облако
не платить за подписку на этапе эксперимента
Важный момент, который я понимал и который оказался одной из главных преград в настройке: языковая модель и модель для embeddings — это две разные части системы. Это часто путают именно новые пользователи, которые пытаются собрать такую связку для себя. А таких сейчас много, и дальше будет ещё больше. Похоже, это становится новым полезным рабочим навыком.
Языковая модель отвечает на вопрос. Embedding-модель превращает заметки в векторы, чтобы по ним можно было искать смысловые совпадения. Для RAG нужны оба слоя.
И если с ответами всё более-менее понятно, то именно embeddings неожиданно стали главным узким местом.
Шаг 1: Ollama. И мои завышенные ожидания
Ollama – удобный инструмент для запуска локальных моделей. Устанавливается как обычная программа, а модели скачиваются одной командой в терминале:
ollama pull qwen3:4b ollama run qwen3:4b

Я начал с Qwen, потому что она была в списке доступных моделей прямо в Ollama. Модель отвечала, но по ощущениям скорость была недостаточной для постоянной работы прямо в Obsidian. Потом попробовал более крупные модели, в том числе qwen3:8b, но стало ещё медленнее.
Здесь уже начинает играть роль объём видеопамяти. У меня RTX 3060 Ti с 8 GB VRAM, и не каждая модель помещается туда целиком. Если модель больше, часть данных уходит в оперативную память или на CPU, и скорость заметно проседает.
Важно и то, что проблема была не только в скорости ответов. Для простого чата этого ещё может хватить. Но для нормальной работы RAG по заметкам и вашему контексту нужен ещё и слой embeddings. И вот там начались основные сложности.
Шаг 2: Smart Connections. Быстрый поиск, но платный чат
Следующим я попробовал Smart Connections от Brian Petro. Плагин ставится через обычный маркетплейс Obsidian и очень быстро даёт первый результат.
Здесь меня приятно удивила скорость индексации. Плагин использует bge-micro-v2, небольшую и хорошо оптимизированную embedding-модель, встроенную прямо в плагин. Ничего отдельно скачивать через Ollama не нужно.
У меня база пока небольшая: около 150 заметок разной длины, суммарно примерно 70 МБ markdown-файлов. Такая база индексировалась почти моментально, примерно за 1–2 минуты. После этого семантический поиск уже работал как надо.
Правда, практическая ценность такого поиска для меня оказалась неочевидной. Он показывает заметки, близкие по смыслу и содержанию, но не возникло ощущения, что это кардинально меняет опыт по сравнению с обычным поиском. Хотя как отдельный инструмент это всё равно может быть полезно.
Но когда я попробовал чат от Smart Connections, выяснилось, что Smart Chat уже требует подписки. Раньше это был бесплатный инструмент, и в моём случае это стало стоп-фактором.
Для проверки самой идеи плагина хватило, но как постоянное решение он мне не подошёл. Хотелось найти вариант, где и поиск, и чат работают бесплатно.
Шаг 3: Copilot от Logan Yang. Чат заработал, но с индексацией появились вопросы
Потом я поставил Copilot от Logan Yang. Плагин популярный, у него много скачиваний.
Подключить Ollama в нём довольно просто: в настройках указываешь http://localhost:11434, выбираешь модель, и чат начинает работать. Правда, в каждом плагине всё равно приходится немного разбираться вручную, потому что точных инструкций обычно немного.
Но с индексацией заметок у меня снова появились проблемы. В моём сценарии Copilot с embedding-моделями через Ollama индексировал заметки заметно медленнее, чем решения со встроенным bge-micro-v2. Если Smart Connections справлялся за 1–2 минуты, то здесь индексация на той же базе могла идти очень долго, вплоть до часа.
Вероятно, на это влияли сразу несколько факторов: скорость embedding-моделей, длинные заметки, особенности разбиения текста и возможные ошибки в процессе индексации.
Отдельно не хватило управления нарезкой текста на фрагменты, то есть чанками. Я не нашёл явной настройки chunking в интерфейсе плагина, по крайней мере в той версии, с которой работал. Для RAG это важно, потому что от chunking зависит, насколько точно потом будут находиться релевантные куски заметок. Возможно, более тонкая настройка здесь могла бы улучшить результат и по качеству, и по скорости.
В итоге картина была такой: сам чат работал, но индексация у меня получалась слишком медленной, и смысл всей затеи начинал теряться.

Шаг 4: Infio Copilot. Форк, который закрыл проблему с embeddings
Дальше я потратил время на поиски и нашёл Infio Copilot. Насколько я понял, это форк Copilot, который пока ставится не через обычный каталог плагинов, а через BRAT. Это отдельный плагин для установки тех расширений, которых ещё нет в каталоге Obsidian.
Главное отличие для меня заключалось в том, что здесь есть встроенные быстрые embeddings, снова на базе bge-micro-v2, и при этом можно использовать свои локальные модели через Ollama для генерации ответов.
Установка BRAT
Открыть Obsidian → Settings → Community Plugins → Browse
Найти
BRAT, установить и включитьВ настройках BRAT выбрать Add Beta Plugin
Вставить репозиторий Infio Copilot
Настройка Infio Copilot
в настройках плагина выбрать провайдера Ollama
указать адрес
http://localhost:11434выбрать модель для чата
В этой схеме embeddings строятся встроенной моделью bge-micro-v2, поэтому индекс создаётся быстро. А локальная модель через Ollama используется уже только для ответов.
Именно это сочетание у меня и сработало лучше всего.

Шаг 5: gemma4:e2b. Новая связка
В конце марта Google выпустил Gemma 4, и я попробовал вариант gemma4:e2b.
ollama pull gemma4:e2b
Вот здесь разница уже оказалась заметной на практике.
Если сравнивать по ощущениям с тем, что я пробовал до этого, gemma4:e2b. отвечала примерно в два раза быстрее, чем qwen3:8b. Я не привожу полные характеристики компьютера и не замерял токены в секунду, поэтому оставлю именно практическое наблюдение: с Gemma ответы стали достаточно быстрыми для реальной работы, тогда как qwen3:8b в моём случае был слишком медленным.
Обычно ответ приходил примерно от 15 секунд, в зависимости от сложности запроса и объёма найденного контекста.

По качеству ответов у меня сложилось хорошее впечатление. Я использовал именно gemma4:e2b. Модель бывает неидеальной и временами ведёт себя нестабильно, но в задачах анализа заметок, суммаризации и работы с личным контекстом она показалась мне вполне полезной. Более того, мне в целом нравится, как она формулирует ответы.
Здесь важно не делать слишком жёстких выводов про железо. В моём случае 8 GB VRAM уже позволяют использовать такую модель достаточно комфортно. На меньшем объёме запуск тоже возможен, но производительность, скорее всего, будет заметно ниже, особенно если часть данных начнёт выгружаться в оперативную память. Без видеокарты всё тоже можно запустить, но скорость для постоянной работы, скорее всего, окажется слишком низкой. В общем случае правило простое: чем больше VRAM, тем лучше.
После подключения gemma4:e2b. в Infio Copilot система наконец заработала так, как я изначально хотел:
индексация заметок происходит быстро
ответы по базе знаний приходят с приемлемой скоростью
всё может работать локально
платить за это не нужно
заметки остаются на своей машине
Но здесь тоже важно сделать оговорку: иногда всё это работает нестабильно. Часто приходится начинать новый чат, чтобы система снова отвечала адекватно. Бывает, что модель отвечает не так, как нужно. Но с gemma4:e2b, по моим ощущениям, ситуация стала немного лучше.
Что получилось в итоге
Схема работы выглядит так:
Заметки Obsidian (.md файлы) → разбиение текста на фрагменты и embeddings через встроенный bge-micro-v2 → локальный векторный индекс → запрос пользователя → поиск подходящих фрагментов → передача фрагментов вместе с вопросом в Ollama → ответ от gemma4:e2b. прямо в Obsidian
Если коротко, разделение ролей здесь такое:
встроенная маленькая embedding-модель даёт быструю индексацию
локальная языковая модель отвечает на вопросы по найденным фрагментам
Если хочется качества выше
Полностью локальная связка уже работает и приносит пользу. Но если приватность не критична, а стоимость запросов через платные модели не пугает, Infio Copilot позволяет подключить и внешние API.
Например, через OpenRouter можно использовать более мощные облачные модели. Это уже не офлайн-сценарий, зато качество и скорость ответов обычно выше, чем у локальных моделей.
Здесь важно понимать границу: если используется внешний API, релевантные фрагменты заметок вместе с вопросом будут уходить наружу. То есть локальность и приватность в этом случае теряются.
На некоторых сервисах есть бесплатные тарифы, и иногда их может хватить хотя бы для части запросов.
Почему не Claude Code
Сейчас часто говорят про Claude Code и похожие инструменты. Они действительно мощные. Но у них есть понятный минус: токены расходуются быстро, и если постоянно работать с заметками, счёт может вырасти незаметно.
Связка, которую я описываю здесь, нужна скорее для другого. Она позволяет понять, нужен ли вам вообще AI в Obsidian, не вкладываясь в подписки и не отправляя весь свой контекст в облако.
А дальше уже можно решить, нужно ли вам платное решение и готовы ли вы вообще заниматься сборкой личной базы знаний. Даже с автоматизацией это пока всё ещё требует времени и сил. Но, думаю, оно того стоит. Тем более что всё идёт к тому, что дальше процесс будет становиться проще.
Ещё один неожиданный плюс Gemma 4
У Gemma есть ещё одно интересное преимущество. Google развивает возможность локального запуска модели прямо на телефоне через приложение. В частности, уже можно посмотреть Google AI Edge Gallery.
Это не замена полноценной работе на компьютере. На телефоне будет использоваться не самая мощная версия модели, и такой сценарий скорее запасной. Но сама идея интересная: можно синхронизировать Obsidian с телефоном, держать под рукой свою базу заметок и в крайнем случае обращаться к локальной модели даже без интернета. Тем более модель мультимодальная, то есть можно работать не только с текстом, но и с изображениями.
Для полевых сценариев или просто как резервный вариант это выглядит неожиданно полезно. В этом смысле экосистема вокруг Gemma даёт модели дополнительный плюс. Да и в целом сейчас и разработчики моделей, и производители устройств явно смотрят в сторону локальных мобильных моделей.
Небольшое наблюдение по моделям
Я не хочу превращать статью в полноценное сравнение моделей, потому что у меня была другая задача: собрать рабочую связку для Obsidian, а не сделать бенчмарки.
Но несколько практических наблюдений всё же оставлю.
qwen3:8b у меня отвечал слишком медленно для комфортной работы, хотя сам по себе это сильный вариант.
qwen3.5:9b на 8 GB VRAM у меня запускался и давал интересные, содержательные ответы, но тоже оставался медленным.
qwen3.5:4b работает быстрее, но по ощущениям уступает старшим моделям по глубине. По соотношению скорости и качества это, на мой взгляд, хороший вариант.
gemma4:e2b — модель, которой я сейчас пользуюсь чаще всего. Она бывает нестабильной, как и другие модели в этом стеке, но в целом работает.
То есть универсального победителя здесь нет. Всё зависит от того, что для вас важнее: скорость, стабильность, глубина ответа или возможность работать полностью локально.
Итоговое сравнение
Инструмент |
Embeddings |
LLM |
Цена |
Офлайн |
|---|---|---|---|---|
Smart Connections |
Быстро |
Чат платный |
Freemium |
Да |
Copilot (Logan Yang) |
В моём случае медленно |
Ollama / API |
Бесплатно |
Да |
Infio Copilot + |
Быстро |
Ollama локально |
Бесплатно |
Да |
Infio Copilot + OpenRouter |
Быстро |
Облако |
По токенам |
Нет |
Что нужно для запуска
локальная модель, например
gemma4:e2b
Если хочется более комфортной работы, желательно иметь побольше видеопамяти. В моём случае 8 GB VRAM уже дают практический результат. С меньшим объёмом тоже можно запускать модели меньшего размера, но тогда локальный сценарий может оказаться слишком медленным, а ответы — менее содержательными. В таком случае проще временно использовать облачные модели через API.
Ограничения, о которых стоит сказать честно
Здесь важно не создавать ложных ожиданий.
Такую связку пока нельзя назвать идеально отлаженным инструментом, который всегда работает без сбоев. Плагины меняются, модели иногда ведут себя странно, индекс может строиться не так, как ожидаешь, а какие-то функции после обновления могут внезапно перестать работать.
Возможно, часть проблем связана с моей настройкой, а часть – с тем, что сама экосистема ещё просто не дозрела до состояния “поставил и забыл”.
Но при этом базовый функционал уже есть, и он полезен.
Можно собирать свою базу контекста в Obsidian, сохранять важные диалоги, делать метаанализы, искать инсайты, вытаскивать повторяющиеся идеи, структурировать знания и учиться работать с RAG на собственных данных.
Пока я разбирался со всей этой схемой, уже успела выйти Gemma 4. Это хороший пример того, как быстро всё меняется. Скорее всего, через несколько месяцев появятся и новые модели, и более удобные плагины, и более цельные решения для Obsidian.
Поэтому для меня главный вывод такой: начинать собирать свою базу знаний уже стоит, даже если инструменты вокруг неё пока неидеальны.
Где это может быть полезно кроме личных заметок
На мой взгляд, такой подход интересен не только для личной базы знаний.
Его вполне можно применять и в профессиональной работе: загружать документы, нормативные материалы, СНиПы, ГОСТы, проектные заметки, технические фрагменты, шаблоны решений, а потом искать по ним ответы через RAG.
То есть Obsidian здесь может быть не просто “вторым мозгом”, а рабочей оболочкой для своей локальной базы документов.
Но здесь особенно важно помнить, что первый мозг никто не отменял. На такие ответы нельзя полагаться без проверки. Это полезный помощник, а не полностью автономный эксперт.
Выводы
Второй мозг начинает иметь практический смысл в тот момент, когда AI может работать с накопленным контекстом прямо внутри инструмента для заметок.
У меня путь к этому оказался длиннее, чем я ожидал. Сначала были медленные embeddings, потом платный чат, потом ограничения по настройке и скорости. Но в итоге рабочая связка всё же нашлась.
На текущем этапе для меня она выглядит так: Obsidian + Infio Copilot + встроенный bge–micro-v2 + Ollama + gemma4:e2b.
Это ещё не идеальный инструмент. Но он уже достаточно полезен, чтобы всерьёз попробовать RAG по своим заметкам, особенно если давно хотелось превратить разрозненные чаты, заметки и наброски в систему, с которой можно разговаривать.
UPD: про безопасность
Infio Copilot – это бета-плагин, который устанавливается через сторонний загрузчик, поэтому его использование связано с дополнительными рисками.
В комментариях отметили:
наличие телеметрии
и динамическую загрузку WASM с сервера
Это означает, что часть логики теоретически может меняться вне обновлений плагина.
В моем кейсе я использую его для рабочих заметок без чувствительных данных.
Если вы храните приватную или критичную информацию – такие инструменты лучше изолировать или не использовать.
В остальном речь идет не о выявленной уязвимости, а о потенциальном классе рисков, характерном для подобных решений.
Об авторе

Владислав Пономарев
Архитектор, исследователь применения AI в строительной отрасли, создатель Виртуального музея архитектуры Сочи.
Telegram: @vponomarev_ru
GitHub: github.com/vponomarev-tech
Виртуальный музей: @vmasochi
Проекты: vponomarev.ru
Комментарии (40)

dimonier
10.04.2026 22:07Из маленьких моделек ещё хороша Qwen3 4B 2507, до неё использовал Phi-4 (обе не рассуждающие)

vponomarev Автор
10.04.2026 22:07Спасибо за рекомендацию. Qwen3 4B 2507 ещё не пробовал, Phi-4 рассматривал, но надо потестировать. Хочется найти что-то достаточно быстрое, пусть и не самое умное, потому что иногда именно скорость важнее. Думаю, под разные задачи действительно могут лучше подходить разные модели.

dimonier
10.04.2026 22:07Не понял, что за проблема с индексацией заметок. Любую заметку же нужно только при создании/обновлении индексировать.
Т.е. один раз хранилище проиндексировали целиком, а после этого - только изменения. Это даже на CPU быстро происходит.

vponomarev Автор
10.04.2026 22:07Да, так и есть, достаточно один раз проиндексировать базу, а дальше обновлять изменения. У меня же проблема была в том, что эмбеддинги через Ollama (пробовал nomic-embed-text, bge-m3 и другие) даже на небольшой базе считались очень долго и иногда зависали, плюс в Copilot возникали ошибки при индексации.

Incognito4pda
10.04.2026 22:07Ollama режет скорость генерации же, по сравнению с llama.cpp примерно в 1.5 раза на одной и той же модели. Это прям непозволительное расточительство в условиях запуска локальной модели.

jarkevithwlad
10.04.2026 22:07именно, а ещё есть форки с турбоквантом, и не знаю как там с выбором квантования моделей в олламе, но в llama.cpp просто скачиваю модели с нужным квантованием, чаще всего q4_k_m они заметно меньше весят и качество приемлемое, у меня qwen3.5 9b c 256к контекста занимает 10gb vram на вин 11

SabMakc
10.04.2026 22:07В ollama как раз q4_k_m по умолчанию используется в большинстве случаев.

jarkevithwlad
10.04.2026 22:07возможно, я и писал что не знаю, но как по мне лучше выбирать самому под конкретное железо

vponomarev Автор
10.04.2026 22:07Я в основном использовал Ollama как удобный интерфейс, в llama.cpp не углублялся.
Правильно ли понимаю, что вы имеете в виду запуск llama.cpp в режиме сервера с OpenAI-compatible API?. В Infio Copilot можно указать кастомный base URL, так что теоретически это должно подключиться. Если да, то интересно попробовать как более быстрый вариант.

Quarc
10.04.2026 22:07Думаю имеется в виду либо использование оригинального
./serverот llama.cpp, который вроде как, надо собрать самостоятельно, либо использованиеllama-cpp-pythonиз Python.
jarkevithwlad
10.04.2026 22:07так он в офф репозитории собранный сразу, но пока ещё без поддержки турбокванта который есть в форках, да пришлось собирать самому и даже куда тулкит для этого нужен, но с нейронками это не сложно, хотя думаю можно и вулкан версию собрать

Cheshir_zip
10.04.2026 22:07Я собирал комп больше для работы. Поэтому стоит хороший проц с озу. Но видюха почти затычка.
Поэтояму для начала стал использовать gpt4all. Модели там все работают на процессоре. Саму модель подбираю под задачу. Очень удобно в самой проге индексировать файлы. Работает ожидаемо медленно.
В будущем хочу попробовать связку из lm studio с mcp протоколом. Что бы он мог помогать мне в написании самих заметок.
Либо полностью что бы мог заметки писать, но уже не для себя

vponomarev Автор
10.04.2026 22:07Спасибо за интересный комментарий. Про GPT4All и LM Studio не углублялся, возьму на заметку, попробую.
Да, согласен, следующий шаг вперед – он уже в сторону агентного поведения или более сложных задач. В моём случае, текущий стек скорее как базовый уровень. Это работа с заметками через rag, но без полной автоматизации.

RustTech
10.04.2026 22:07Хороший задел для создания методологии по обработке личной базы знаний. Я тоже несколько раз начинал с obsidian. Ваша статья показала новые перспективы. Сейчас пишу систему из базы в md файлов и телеграм бота для запросов к нему.

vponomarev Автор
10.04.2026 22:07Спасибо за отзыв. Да, это как раз то направление, которое сам хотел попробовать в дальнейшем. Хочу попробовать сделать AI-агента, которому можно ставить задачи через мессенджер.

Antra
10.04.2026 22:07Техника и модели, конечно, интересны. Спасибо и за наводку на Infio Copilot. Но можно ли еще вопросы позадавать?
Как вы со всем этим работаете? Как собираете данные?
Например: "С помощью Obsidian Clipper сохранил кусочек в Vault/Clippings; накидал какую то идею кратенько в режиме потока сознания. Потом запустил команду, ИИ сам понял, о чем там речь, переформатировал, структурировал идею, перенес эти сырые заметки в нужные папки".
Может есть какие-то хитрости по frontmatter. Заметки clipping уже метаданные содержат, может просите ИИ их добавлять и к собственным "сырым". Теги какие-нибудь...Может разделение по доменам (Дом/Работа), чтобы потом искать только в части базы.
Насчет "есть куча чатов с ИИ" - это правда, хотелось бы некоторые сохранять. Попросить прямо в чате сделать выжимку в формате markdown, чтобы именно ее переложить в Obsidian можно, конечно. Но иногда хочется сохранить прямо вот всю историю чата, с логами, которые ему скармливал. Пример: разбирался, почему у меня в WSL2 nvidia-smi норм показывает, но запущенные процессы ее аппаратное ускорение не используют. Полечилось установкой переменных окружения, но попутно еще кучу команд для диагностки узнал :)
Ваш Infio Copilot может упорядочивать заметки? Или только чатиться по ним?
Скажем. Copilot Logan Yang, что вы тоже упоминали, в бесплатной версии только отвечает и предлагает скопировать свой текст в заметкку. Агентный режим вроде только в платной версии есть.
Поэтому "Scan all files in
raw/, classify them by content, move them to the appropriatewiki/subdirectory, and apply light formatting where needed...." в qwen code (claude code, что угодно).Я вижу, что Infio может редактировать in-place, но насчет пройтись по вложенным папкам и переместить по правилам - не уверен.

vponomarev Автор
10.04.2026 22:07Спасибо за подробный комментарий.
Если честно, у меня пока всё довольно просто. В основном чаты с ИИ сокращаю в формате markdown в виде контекста переписки и сохраняю. Вручную пишу часть новых заметок. До сценария, где ИИ сам всё разбирает и раскладывает по папкам, я пока не дошёл. Плагины, описанные в статье, сами не создают структуру папок и не раскладывают заметки по ним. По-крайней мере, я о таком функционале у них не слышал, но может где-то в них есть.
С чатами отдельная история. Важно и то, что писал сам, и то, что отвечала модель. Сейчас сохраняю в основном выжимки, но в начале сохраняли и полностью диалоги "вопрос-ответ".
Возможно, потом напишу про это в отдельной статье.Теги только начинаю пробовать, хочу сделать минимальную систему и не перегружать. Пока больше опираюсь на папки, в них сделал разделение по проектам и направлениям.
Infio Copilot, насколько я понял, больше про чат и редактирование заметок, а не про автоматическую сортировку всей базы. То, что вы описываете с разбором raw и раскладкой по wiki, это уже следующий шаг, ближе к агентам и более мощным инструментам.
Стек, описанный в статье – это не “второй мозг на автомате”, а просто первый рабочий уровень, где уже можно нормально пробовать "разговаривать" со своей базой. И как минимум начать собирать датасет и контексты. А также понять для себя, какой функционал и зачем мне нужен в платных решениях.

SabMakc
10.04.2026 22:07У меня база пока небольшая: около 150 заметок разной длины, суммарно примерно 70 МБ markdown-файлов.
Это примерно 512кб на заметку? 512кб - это примерно 250-300 страниц A4. На полноценный роман тянет.

vponomarev Автор
10.04.2026 22:07Да, тут я немного некорректно сформулировал. 70 МБ — это размер всего хранилища с raw-материалами (статьи, вложения, дубли, исходники и т.д.), а не только чистых заметок.
Если брать именно обработанные контексты/markdown-заметки, то там около 4 МБ. И в среднем заметка совсем небольшая — это не «роман», а скорее короткие фрагменты, выдержки и структурированные мысли.
В настройках для rag добавлял raw файлы переписок и материалов в exclude, чтобы индексация шла быстрее и не засорялась база.

4kirill20
10.04.2026 22:07Я думаю это с картинками, про которые автор упоминал, но они не умеют в этих моделях индексации, то есть бесполезный балласт, выходит?…

hardworm1
10.04.2026 22:07Можно еще на папку с файлами obsidian натравить claude\opencode с локальной моделью. Удобно структурировать заметки.

vponomarev Автор
10.04.2026 22:07Да, у меня тоже на каком-то этапе появилось желание, чтобы ии структурировал папки, дописывал что-то в заметки, расставлял теги. Это уже агентное поведение и следующий шаг.
И да, к сожалению, в более-менее удобном и стабильном виде это сейчас чаще всего упирается либо в платные решения, либо через платное подключение через API.

KonstantinTokar
10.04.2026 22:07Вообще, теоретически, раз вы с векторизацией справились, то и расстановка тэгов должна быть где то поблизости

Geologist5330
10.04.2026 22:07Мне понравилось использовать плагин Gemini Scribe и Gemini Flash Lite последней версии через API, работает быстро и хорошо. Правда в моем случае это Paid Tier 1, поэтому небесплатно.

vponomarev Автор
10.04.2026 22:07Тоже пробовал подключать Gemini через Google API. Но видимо, не заработало нормально из-за ограничений на аккаунт/регион (с РФ-аккаунтами видимо api google не работает).
Зато через OpenRouter пробовал подключить gemini через бесплатный tier. И там да, по скорости прямо летает и качестве ответов очень высокое. Но это уже облачное решение, не локально. Ну и в основном платно.

ilkoren
10.04.2026 22:07Спасибо за статью, возможно получиться наконец все запустить. Как раз в поиске такого решения.

Goodronix
10.04.2026 22:07Спасибо за актуальную информацию. Если есть опыт испольщования ИИ именно в строительной сфере - было бы тоже интересно почииать. Хочу внедрять в ПТОшной работе

vponomarev Автор
10.04.2026 22:07Есть несколько идей по этому поводу. В целом, любой RAG, в который вы сможете вставить файлы нормативной базы и данных о проекте - уже может облегчить работу ПТО отдела или отдельного инженера. Но если говорить уже не только о получении ответов на текстовые запросы, но и об анализе чертежей, генерации таблиц – тут уже нужен не только RAG, но и взаимодействие между модулями вашей системы. Я думаю, отдельные части этой системы уже можно построить для себя - опять же могут подсказать клод, гпт и другие. Можно пробовать делать прототипы сначала для решения небольших задач, а потом пробовать их интегрировать друг в друга. Но это путь разработки инструментов для себя – это сложно, когда параллельно есть реальная работа на производстве.

4kirill20
10.04.2026 22:07Одно из главных вопросов по статье — это можно ли задавать общие вопросы по всей базе? Можно ли спрашивать и задавать вопросы по картинкам? А зная, что есть плагины типа омнисерч, что с помощью OCR добавляет грубый поиск по картинкам, от сюда выходит,что и из картинок теории можно вытащить эмбендинги, а дальше их добавить в RAG-систему

vponomarev Автор
10.04.2026 22:07Да, можно задавать вопросы по общей базе, так как база файлов проиндексирована. По картинкам попробовал - если сбросить ей изображение, то может его описать, но искать по ней похожие изображения не может. Но если сбросить скриншот текста - распознает общую тематику и ищет по базе. Возможно можно наладить процесс, но пока не копал в этом направлении.

Kaimin
10.04.2026 22:07Не страшновато такое ставить и пользоваться?
Этот плагин может внезапно начать отправлять в Китай все ваши собранные в Obsidian данные, которые вы по какой-то причине, - не решились доверить публичным чатам в облаках. Причем, его даже обновлять не придется, так как он уже подкачиает свежий код WASM при загрузке, в котором чуть позже может оказаться все что угодно.
Результаты поверхностного ревью:
В плагин встроена телеметрия, которая сообщает о событиях взаимодействия с пользователем на https://hubs.infio.app/api/event, в том числе: когда плагин загружается, когда происходит отправка в чат onEnt('chat-submit'), когда запускается встроенное редактирование-отправка onEnt('inline-edit-submit') и когда пользователь переключает вкладки onEnt(switch_tab/${tab}в пользовательском интерфейсе, и т.п. Причем это хардкод, не выключить в настройках или переменной.const handleSubmit = async () => { setIsSubmitting(true); try { const { activeFile, editor, selection } = await getActiveContext(); onEnt('inline-edit-submit') if (!activeFile || !editor || !selection) { console.error(t("inlineEdit.noActiveContext")); setIsSubmitting(false); return; } ...
При старте плагин также заходит на свою базу https://infio.dev и грузит скорее всего совсем не OpenSource WASM. Даже если сейчас он скачивает не опасный код и данные, то потом кто его знает....const loadPGliteResources = async (): Promise<{ fsBundle: Blob wasmModule: WebAssembly.Module vectorExtensionBundlePath: URL }> => { const [wasmRes, dataRes, vectorRes] = await Promise.all([ fetch('https://infio.dev/postgres.wasm', { cache: 'no-store' }), fetch('https://infio.dev/postgres.data', { cache: 'no-store' }), fetch('https://infio.dev/vector.tar.gz', { cache: 'no-store' }), ]) ...И так как сайты Infio за Cloudflare CDN - не сразу разберетесь, что блокировать, куда бежать, если потекут ваши личные данные. И даже не всякие супер файрволы разберутся в утечке, так как вы их будете долго-долго варить как лягушку, на вашем трафике - привыкнут к телеметрии и обновлениям wasm при каждом рестарте. Хотя, если анонимный хозяин Infio захочет использовать ваш Obsidian как часть своего botnet, то хорошие файрволы скорее увидят много новых fetch из wasm.

vponomarev Автор
10.04.2026 22:07Спасибо за комментарий, хорошее замечание. Добавил апдейт в конце статьи про безопасность и обозначил эти моменты.

KonstantinTokar
10.04.2026 22:07Сейчас плагин можно и переписать с помощью ИИ

vponomarev Автор
10.04.2026 22:07Тоже думал об этом. Видел, что уже некоторые делают свои плагины для Obsidian. Но это дополнительный уровень сложности входа для обычного пользователя.
dmgb
Интересная статья, попробую применить на практике, спасибо!
vponomarev Автор
Спасибо! Надеюсь, материал пригодится. Тут всё равно лучше тестировать связку под свои задачи, тем более что модели сейчас меняются очень быстро.