Эту историю для моего блога рассказал Алексей Кривоносов
Год назад я начал использовать ChatGPT для работы. Занимаюсь загородным строительством — это основной бизнес. Также веду YouTube-канал компании. Нейросеть помогала генерировать сценарии, составлять контент-планы, оформлять технические отчёты.
Но когда попробовал использовать ChatGPT для работы со строительными нормами — СП, ГОСТами, нормативной документацией — столкнулся с проблемой. Нейросеть придумывала несуществующие пункты нормативов, выдавала цифры, которых не было в документах.
За полгода я с небольшой командой создал свой AI-инструмент — «Цифровой стандарт». Мы вручную обработали строительную нормативную базу, перевели её в векторный формат и настроили алгоритм, который даёт точные ответы без галлюцинаций.
Этап 1: Когда ChatGPT начал врать
Для технических задач я использую ChatGPT как инструмент проверки решений, поиска альтернатив и поиска нормативных данных. Принимать решения на основе ответов модели — большой риск.
Задаю вопрос: «Какие требования к толщине утеплителя в СП 50.13330.2012?» ChatGPT выдаёт конкретную цифру — допустим, 150 мм — и ссылается на пункт 5.2.3 документа. Открываю норматив, проверяю — такого пункта нет. Или пункт есть, но там совсем другие цифры.
Пробую загрузить весь документ в ChatGPT. Ответ точнее, но модель всё равно искажает данные или выдёргивает информацию из контекста.
Причина — в архитектуре. ChatGPT работает с вероятностями: предсказывает, какое слово должно следовать за предыдущим. Модель не проверяет факты, не обращается к источникам напрямую. Когда документ большой, окно контекста ограничено — модель читает начало и конец, а середину может пропустить.
Для строительной документации это критично. Неправильная толщина утеплителя — дом будет холодным. Неправильная нагрузка на перекрытие — угроза безопасности.
Этап 2: Поиск решения и сборка команды
Общаюсь со знакомыми, которые разрабатывают нейросетевые проекты. Узнаю про RAG-архитектуру (Retrieval-Augmented Generation) — когда модель сначала ищет нужную информацию в базе, а потом генерирует ответ только на основе найденного.
Суть: документы не загружаются целиком в ChatGPT. Вместо этого создаётся отдельная база данных, где хранятся все нормативы в специальном формате. ChatGPT работает как нормализатор ответа под заданную структуру. Мы ограничили интерпретацию — куски исходных документов маркируются и явно выделяются в ответе, чтобы пользователь видел, где цитата, а где пояснение модели.
Это была середина 2025 года. Задача решаема технически, но сложная. Собираю небольшую команду.
Сначала это был проект «для себя». Когда увидел качество первых результатов, понял — это коммерческий продукт. Регистрирую компанию «Цифровой стандарт».
Сам начал разбираться в программировании. За новогодние каникулы научился писать на Python с помощью ChatGPT — до этого помнил только Pascal и Visual Basic из университета.
Принимаем решение: не использовать готовые RAG-фреймворки типа LangChain или LlamaIndex. Для работы со строительными нормативами нужна кастомизация на каждом этапе. Пишем почти всю архитектуру с нуля на Node.js и TypeScript.
Этап 3: Полгода резали документы вручную
Нормативная документация в строительстве — это десятки СП (сводов правил), ГОСТов, технических регламентов. Автоматическая обработка PDF не работает качественно: сканы с таблицами распознаются с ошибками, формулы превращаются в нечитаемый текст.
Полгода команда вручную разбивала документы на логические куски — чанки. Не просто деление по абзацам, а смысловые блоки. Каждый чанк сохраняем с метаданными: откуда взят, какая тема. Переводим в векторный формат — математическое представление текста для поиска по смыслу.
На старте получилось более 5500 смысловых фрагментов. Сейчас база расширяется — в ближайшее время количество вырастет примерно вдвое.

Проблема с формулами
В строительных нормативах полно математических формул: как рассчитать толщину утеплителя, какая нагрузка допустима на фундамент, как посчитать теплопотери.
Пример: R = δ/λ (сопротивление теплопередаче = толщина / коэффициент теплопроводности)
В PDF формулы — это картинка или специальная разметка. При конвертации R = δ/λ превращается в R = 8/2 или в нечитаемый мусор.

Качаем документы. Сайт отображает формулы в HTML своим алгоритмом. Проблема: HTML-версии доступны не постоянно. Часть документов открывается только после 20:00, часть закрыта. Используем отложенные и ночные задачи загрузки. Формулы могут меняться на стороне источника — данные нестабильны.
Векторный поиск находит информацию точнее полнотекстового. Вопрос «Какие требования к вентиляции?» — полнотекстовый ищет слово «вентиляция». Векторный находит разделы про «воздухообмен», «проветривание», «системы подачи воздуха» — даже без слова «вентиляция».
Этап 4: Настройка алгоритма и первые тесты
Продукт — нормативная база в векторном формате плюс алгоритм поиска и генерации ответа. Используем ChatGPT-4.1 в связке с векторной базой.
Пользователь задаёт вопрос: «Какая минимальная толщина утеплителя для дома в Московской области?»
Система нормализует вопрос — ChatGPT превращает разговорный запрос в поисковый: «требования толщина теплоизоляция жилые здания климатическая зона Московская область». Выполняется поиск в векторной базе, система находит топ-10 релевантных чанков.
Найденные чанки подаются в ChatGPT вместе с детальной инструкцией — несколько страниц правил: как формировать ответ, как цитировать источники, что делать при противоречиях. Если информации нет — модель пишет «В предоставленных документах нет данных». Не додумывает, не фантазирует.
Ответ генерируется в трёх вариантах: короткий, средний, экспертный (до 12 000 символов).

Первый закрытый тест превзошёл ожидания. Дал доступ знакомому инженеру Сергею (не путать с программистом). Он задавал профессиональные вопросы про фундаменты.
Выявилась проблема: не хватало контекста для учёта СП 63 (про армирование). Три варианта решения: уточняющие вопросы от AI, принудительная инструкция на слово «армирование», увеличение объёма ответа.
Этап 5: Расширение базы и подготовка к релизу
База знаний росла очередями:
1-2 очередь (загружено): Основные must-have документы для ИЖС — 13 СП и несколько ГОСТов.
3 очередь: Загружается сейчас — следующая партия документов.
4 очередь: На этапе распознавания формул.
Проблемы: графические материалы (схемы, чертежи) временно не загружались — использовали только таблицы и формулы. Механизм автоматического отслеживания изменений в нормативах пока не внедрён.
Параллельно настраивали платёжную систему. Три тарифа: бесплатный, Standard, Pro.
Перед релизом начался ад с багами. Программист Сергей 4 суток подряд дописывал, переделывал, чинил баги, которые появлялись быстрее, чем кофе остывает.
31 декабря 2025 года запустили продукт в открытый доступ.
Этап 6: Запуск и первые клиенты
Продукт вышел на рынок. Появились первые платные клиенты.
Ещё на стадии разработки нами заинтересовались национальные ассоциации, которые занимаются разработкой нормативной документации. Сейчас ведём работу в двух направлениях: упростить процесс работы с нормативной базой для участников рынка и выявлять ошибки в самой документации.
Параллельно веду переговоры с образовательными организациями, которые занимаются обучением и переквалификацией строителей. Готовим совместные продукты и проводим тесты с фокус-группой.
За полгода работы над проектом выработал режим: с 8 утра до 2-3 ночи. Постоянно что-то придумываю, разрабатываю, тестирую. С одной стороны, весело — создаёшь новое. С другой — понимаю, что могу выгореть.
Инструменты и технологии
Для работы с AI:
ChatGPT-4.1 — генерация ответов на основе найденной информации, нормализация запросов. Стоимость одного запроса в нашей системе — в десятки раз выше обычного запроса к OpenAI API: каждый запрос включает поиск по векторной базе и передачу большого контекста.
OpenAI text-embedding-3-large — модель для векторизации текста
Для разработки:
Векторная база данных Qdrant — хранит смысловые фрагменты документов
Хостинг FirstVDS
Node.js и TypeScript — основной стек. Python — для отдельных модулей
LaTeX — формат для математических формул
Архитектурное решение: Почти всё написано с нуля — не использовали готовые RAG-фреймворки. Единственная внешняя библиотека — openai для работы с API, но и без неё можем работать напрямую.
Планы
Роли пользователей (частный застройщик, специалист стройконтроля, прораб) — разная структура вывода и настройки поиска
«Знания модели» отключаемые — чтобы пользователь получал только цитаты без интерпретации
API для интеграции со сторонним ПО
Переключение типа строительства (ИЖС / МКД)
Расширение векторной базы
Эксперименты по улучшению качества поиска
Автоматизация обновлений базы документов
Информирование пользователей о версии документов и наличии обновлений
В телеграм-канале можно затестить бота, а еще выложили схему сравнения ChatGPT и RAG-архитектуры. Подпишись, чтобы не пропустить новые статьи!
Комментарии (168)

ToniDoni
03.02.2026 14:50Причина — в архитектуре. ChatGPT работает с вероятностями: предсказывает, какое слово должно следовать за предыдущим. Модель не проверяет факты, не обращается к источникам напрямую. Когда документ большой, окно контекста ограничено — модель читает начало и конец, а середину может пропустить.
А как здесь rag помогает? Он же просто контекст обогащает. А пробовали сравнивать с вашей подробной инструкцией с rag или без rag а целиком снип загрузить?

Guestishe
03.02.2026 14:50Если информация есть, то и придумывать/вспоминать ее не надо.

Nemesidazex
03.02.2026 14:50Как это не надо? Нужно придумать нашёл ли он нужную информацию из имеющейся

sunsexsurf
03.02.2026 14:50>> А как здесь rag помогает?
Воспримем ллм как очень хорошего болтуна, который прочел кучу книг.
Предположим, что сказку про золотую рыбку этот болтун не читал.
Тогда, подсунув ему чанк «жил старик со своею старухой у самого синего моря» и задав ему вопрос «с кем жил старик?» модель сможет сгенерить ответ.
Магия начинается, когда появляется проблема нарезки на чанки. Потому что во всяких инструкциях, положениях и т.д. возникает соблазн попилить по параграфам или пунктам. Но быстро выясняется, что пункт 123 по тексту ссылается на пункт 12 и это все запутывает.
Решением выглядит построение онтологий (графов зависимостей), но это прям дорого (в плане времени). Хотя, возможно, уде с помощью тех же ллм онтологии тоже пытаются строить.

freeg0r
03.02.2026 14:50в том то и проблема, LLM не поисковая система, она натренирована собирать идеальные статистические ответы, и точные цифры - проблема, используя RAG вы можете заполнить слабые места (точные данные), а модель на их основе построит идеальный (статистически) ответ.

ingeniare
03.02.2026 14:50Не знаю кто там чем занимался, но собрать датасет и сделать UI, задача на пару дней. Чанки вручную нарезать, это какой-то бред.

Remigrant
03.02.2026 14:50Вот-вот! Мне тоже объём трудозатрат на реализацию совершенно чрезмерным показался. Я больше со стороны управления разработкой сужу, чем со стороны непосредственно разработки. И мне по описанию проделаной работы показалось, что обычное создание подобного инструмента обычной командой разработки без использования БЯМ заняло бы меньше времени и затрат.
Интересно - сколько пресловутых человеко-часов (человеко-дней) команда автора потратила на полную реализацию? Если знать цифру - то можно вполне предметно сравнить, плюс-минус лапоть, с обычной реализацией, без применения БЯМ.

delicious
03.02.2026 14:50Есть сомнительная польза, например, - натуральный язык запросов. Такое просто детерментированно не сделать. Но, честно говоря, гораздо проще было бы использовать LLM для построения структурированного запроса, который гарантированно бы нашел цитаты, а там уже - можно и оценку точности ответа делать. Но, в принципе, это дает аналогичные трудозатраты.
В целом, все эти подходы к LLM становятся полезными, когда понимаешь, что в какой-то момент сдвинешься и дальше СНИПов/ГОСТов. Мой любимый пример сейчас - http://consensus.app/ , который не просто поиск по пабмеду, но еще и некий суммаризатор, который позволяет отвечать на вопросы и гипиотезы (ну, точнее, находить референсы - но это так)

Wesha
03.02.2026 14:50Есть сомнительная польза, например, - натуральный язык запросов
Надо только написать спеку. Полную и точную...


bak
03.02.2026 14:50Полгода команда вручную разбивала документы на логические куски — чанки
Теперь надо завести отдельную команду которая будет эти чанки вручную искать, и ещё одну которая будет их вручную читать и потом писать ответ пользователю.

sunsexsurf
03.02.2026 14:50Вы только что изобрели несколько десятков управлений в одном из больших российских банков. Не просто больших, а прям центральных.
UniInter
Я еще три года назад понял, что фактологическим ответам нейросетей доверять нельзя. Потом уж появился термин "галлюцинация". В чатах нейросетей мне не хватает их оценки своего же ответа - процент того, насколько нейросеть в своем ответе уверена. На практике, если моя работа, сделанная с помощью ИИ, идет вовне, то обязательно перепроверяю факты. С программирование все строже и меньше вероятности попасть в лужу - ответ ИИ без проверки ну никак не обойдется. А придумать план, сгенерить идеи у них неплохо зачастую получается.
kisskin
Я как-то попросил написать код для получения данных по api с биржи. Код был прекрасен, всё выглядело рабочим, но данные не получались. Выяснилось, что такого api не сущестовало, но на гитхабе кто-то предлагал его реализовать, и вот это предложение нейронка посчитала, как реализованное.
Другой случай противоположный - я попросил подготовить сводную таблицу api для полусотни бирж и DeepSeek мне сказал, что у него нет этих данных и что я могу их поискать на сайтах бирж сам("На основании предоставленных веб-сайтов я не могу составить для вас полную сводную таблицу с endpoint для всех указанных бирж").
Но при этом перед этим я по паре бирж эти данные у него запрашивал и получил.
Я написал нейронке: "я знаю что у тебя есть эти данные по большинcтву бирж!"
И получил ответ: "Вы правы, у меня есть эти данные. Вот сводная таблица REST API endpoints для получения последних цен с указанных бирж."
И это для меня оказалось даже удивительнее, что нейронка стала не галлюцинировать, а лениться)
house2008
Года 3 назад писал подобное для топ 30 бирж, ушло наверное неделю после 8 часов работы тратил пару часов на добавление 5 бирж в день. Хотел проанализировать на предмет арбитража, какой наивный я был)) там HFT-шники в секунду выравнивают цены). Единственно, что обнаружил, что на некоторых биржах цены уходят выше/ниже по рынку - видимо совсем малая ликвидность на них.
пс. извиняюсь за оффтоп.
kisskin
Не знаю, порадует Вас этот факт или огорчит, но расскажу. Начал я с арбитража в 2018м и тогда проделал огромную работу, но совсем немного не довёл, еще бы неделю и уже хватило, но тоже посчитал это бесперспективным. Потом вернулся в 2022м, и тогда доделал то, что не было доделано и сразу повезло наткнуться на выгодную сделку. И с 2022го я плотно занимался арбитражём и могу сказать, что заработать тогда на этом можно было хорошо, но есть нюанс - не каждый день, иногда по несколько дней могло быть без заработка и если Вы попали на эти, то вполне могли решить что там не заработать. Ну и второй нюанс - разумеется, на арбитраже между бинансом/окх/кукойн/байбит вручную почти не возможно, там уже хватает своих арбитражников, разве что когда рынок конкретно валится, скажем на 30% в день(как 10 октября 2025-го), то там можно что-то поймать, но такое бывает раз в год-два-три.
Сейчас на арбитраже спота на cex не заработать, надо искать другие варианты. И да, начинать надо было в 2017м, вот тогда там действительно были безграничные возможности, даже в 2022м нормальных парсеров не было, а сейчас их вагон, возможно, что нейросети как раз этому и способствовали. То, что раньше я собирал по паре сотен бирж месяцами, сейчас можно получить одним запросом…
nikolz
Мне DeepSeek написал такой код для MOEX примерно три месяца назад . И он работает нормально. Да, у него были ошибки. Когда я указал на них, то он их признал и исправил. Но эти ошибки были связаны с особенностями API, которые описаны не так подробно.
Последнее время я обращаюсь к DeepSeek, когда у меня возникает ошибка, которую не понимаю. И он мне действительно дает направление куда копать или дает правильное решение.
iamkisly
deepseek имеет забавные умолчания, может вставить что-нибудь случайное о КПК
Это я попросил написать благодарность одному историку (да, я ленивая жопа)
nikolz
Ну, он же патриот.
maxscitech
В DeepSeek вообще очень сильно "накрутили" вероятностную выборку в самом движке модели.
Andriuxa
"Днём вроде ничего, а ночью ковёр зелёным начинал искриться и на нём портрет Мао Цзэдуна в гробу появлялся"
Aggle
"Оху уж эти китайцы..."
fugal-fringe-0p
Надеюсь, отправили без изменений? В конце концов, он же историк - должен
ценитьтерпеть цайтгайст..Aggle
Если заменить "Китай" на "СССР" и "китайскую нацию" на "советский народ", получится готовое предисловие к какой-нибудь исторической монографии советских времён.
konst90
Я вчера беседовал с ним про ракетные двигатели, и у меня получился, извините за мой французский, совкодрочер. Причём вопрос был нейтральный - какой диаметр камеры сгорания у двигателя такого-то.
Скрытый текст
randomsimplenumber
А он хорош в приплетании ;)
ArtyomOchkin
А я заметил, что нейронки часто любят оставлять заглушки с комментарием
//здесь можно реализовать то-то, и иногда даже при конкретных указаниях ленятся.Ralin
На самом деле лень можно объяснить ограниченностью токенами
lgorSL
На самом деле норм подход - всё зараз сделать сложно, а так можно поотмечать незавершённые места и потом доделать.
Tomasina
Они это не выдумывают, а создают по аналогии с существующими данными. "Раз в исходниках так сделанопрограммистами - значит есть необходимость. Миллионы мух не могут ошибаться"
SashaSasha9
Ты мой брат по несчастью
Также писал код с помощью Open Ai, код требовался чтобы через API получать данные с биржи MEXC. И спустя много времени всё написал ИИ, и выдаёт ошибку, что то типо "недоступно получение данных так как вы находитесь не в той стране". Ни ВПН, ни резидентский ip не помогают. В итоге проект так и лежит в тупиковой ситуации
Wesha
...Также водил автомобиль с помощью жены...
Andy_Francev
То же самое буквально сегодня. Решил я тоже прислониться к AI генерации вёрстки из Figma. Подключил её по MCP к Claude Code. Прошу вытянуть из макета все тексты, на что она отвечает, что текстов у неё нет, и мне надо их скопипастить в чат руками.
"А зачем мне ты тогда? Найди тексты сама". И, вы не поверите, но "Я был неправ, вот ваши тексты". То есть, всё может, но почему-то не хочет.
FainFortRana
Я тут недавно из gemeni пытался вытрясти предустановленный в чате инструмент для создания тестов . Пока я его раз пять не ткнул лицом что такой инструмент существует и не сказал что я знаю что он может создавать тесты , он ничего не делал .
Qwest_Prozto
Просто это какой то странный способ взаимодействия с нейросетью. Если есть задача, но непонятно, как нужно делать и какие ресурсы есть - нужно сначала их собрать, проверить и уточнить. Можно через ту же самую нейросеть. Если сразу что-то делать, даже не дав возможность чату что-то спросить у тебя, написав в задаче от силы пару строчек - ну, чет напишет в ответ, там местами вроде норм будет
BlackMantis
Верно. Мне понадобилась программа для отслеживания открытых позиций и баланса на бинанс. Ньюанс был в то, что данные должны были выводиться поверх всех окон. Смотришь фильм, а цифры перед глазами. Я пусть и потратил 3 недели на программу, но смог сделать её не имея ни каких знаний программирования. Верный промпт и уточняющие вопросы сдвинули работу с мертвой точки и программа получилась
randomsimplenumber
За 3 недели можна неплохо прокачаться в программировании. У вас была бы программа, знание как она работает, и умение чего то программировать. А так у вас только программа и -3 недели.
entze
Но за 3 года как минимум появилось подкрепление из интернета.
Галлюцинации никуда не уйдут из-за природы AI, но и полностью не доверять тоже не стоит.
Скорее надо научиться понимать где проблем может быть больше.
Wesha
...и этот процент тоже будет нагаллюцинирован.
boostifymp
У меня, так же, понял окончательно, что подпись во всех ИИ: "Перепроверяйте, факты, у нас ИИ и он может допускать ошибки", это очень правильная подпись. Поэтому, только, чтобы человек решающий через ИИ свою задачу - знал, хотя бы базово по задаче информацию и факты и направлял ИИ в нужное русло и перепроверял его, тоже участвуя в процессе. Либо, если новая задача, то сначала в более быстром режиме - изучал через ИИ вопрос, но так же корректируя и проверяя.
И по факту, получается, что мы сейчас во многом - обучаем ИИ, направляя его, ставя ему лайки за понравившиеся нам ответы и развивая его, об этом мало кто думает, но по факту, это так. Создатели ИИ, по-сути, пользуются людьми, для развития своего продукта - представляя, все это, маркетингово, как наоборот, помощь и еще и умудряясь, при этом деньги зарабатывать за такие тесты. Да, работа ускоряется, но теряется человеческое взаимодействие, когда, работники уходят от типа взаимодействия человек-человек, к типу взаимодействия: человек-ии и вроде бы, в будущем сократятся ошибки, когда мы обучим ии но главный вопрос: так ли нужен этот прогресс, вот в таком виде? В любом случае, что-то, чего раньше не было - может придумать только человек а ии на данный момент это ускоренный поисковик+набор базовых инструментов для расчетов и похожих операций и в плане идей - он лишь задействует источники из интернета. В целом, не так уж и нужен был такой прогресс. У людей будет меньше работы, у тех у кого только базовые знания, те операции которые сейчас делает ии. Люди, тоже допускали много ошибок, но по крайней мере - сохранялась база социума, одна из, рабочее взаимодействие между людьми. Сейчас, количество такого взаимодействия - сокращается. А, так ли нужен прогресс, который приходит вместо этого? Ну, будет в итоге больше роботов, те же роботы-курьеры вместо людей на мото-транспорте? Человек, будет только меньше двигаться, в итоге, меньше общаться друг с другом. Ну, будет все быстрее а такой ли ценой это нужно? Креативные идеи, которых раньше еще не было, люди и так будут придумывать, чего пока не может делать ии, который руководствуется лишь источниками и базами. Медленнее, это делал бы человек без таких инструментов-ускорителей, но тоже, считаю что спешка, такие искусственные ускорители, это ни к чему в глобальном плане. Сейчас, на базовых операциях, возможно - но, дальше, доводить до такого состояния чтобы была до 90% роботизация, это больше минусов для человечества.