Почему одной LLM недостаточно, как двухслойная валидация ловит ошибки модели, и сколько бизнес экономит на проверке договоров.

Что было в первой версии

Пару недель назад я рассказывал, как построил модульную систему промптов для YandexGPT. 32 тематических промпта, детекторы паттернов, калибровка по рынку. Система работала, находила риски, но вылезли проблемы:

  1. Ложные срабатывания — LLM иногда «видела» асимметрию там, где её не было

  2. Пропуски — некоторые паттерны (типа «1% в день за невывоз») проскакивали мимо

  3. Нет второго мнения — одна модель, одна точка отказа

Пример ложного срабатывания:

{
  "flag": "Асимметрия пеней: Покупатель 0.1%, Поставщик 0.1%",
  "danger": "HIGH"
}

Подождите. 0.1% vs 0.1% — это симметрия, не асимметрия. LLM ошиблась.

Решение: два слоя детекции

┌─────────────────────────────────────────────────────────────────┐
│                    ДВУХСЛОЙНАЯ ДЕТЕКЦИЯ                         │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  Слой 1: LLM-анализ (YandexGPT или Claude)                      │
│  ├─ 32 тематических промпта                                     │
│  ├─ Возвращает: 8 блоков анализа + redFlags[]                   │
│  └─ Проблема: бывают false positives                            │
│                                                                 │
│  Слой 2: Текстовые детекторы (код)                              │
│  ├─ 25+ специализированных детекторов                           │
│  ├─ Численная валидация (ловит ошибки LLM)                      │
│  └─ Ссылки на нормы права (ГК РФ, ТК РФ)                        │
│                                                                 │
│  Результат: LLM-флаги + текстовые флаги → дедупликация          │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

Как код ловит ошибки LLM

Текстовый детектор проверяет асимметрию численно:

function detectPenaltyAsymmetry(penalties): Flag | null {
  const party1Rate = parseFloat(penalties.party1?.rate || '0');
  const party2Rate = parseFloat(penalties.party2?.rate || '0');

  if (party1Rate === 0 || party2Rate === 0) return null;

  const ratio = Math.max(party1Rate, party2Rate) /
                Math.min(party1Rate, party2Rate);

  if (ratio < 3) return null; // Соотношение < 3:1 — не флагуем

  return {
    flag: `Асимметрия пеней ${ratio.toFixed(1)}:1`,
    danger: ratio >= 10 ? 'CRITICAL' : ratio >= 5 ? 'HIGH' : 'MEDIUM'
  };
}

Если LLM сказала «асимметрия», а код посчитал ratio < 3 — флаг LLM отбрасывается.

22 текстовых детектора

Детектор

Что ловит

Пример

penalty-asymmetry

Соотношение пеней ≥ 3:1

1% vs 0.1% = 10:1

high-penalty

Пеня ≥ 1%/день (365%/год)

«1% за каждый день»

contradictions

Противоречия между пунктами

«только самовывоз» vs «доставка»

missing-provisions

Отсутствие обязательных условий

Нет срока гарантии

termination

Асимметрия расторжения

Одна сторона — в любой момент

vague-terms

Размытые формулировки

«по согласованию сторон»

universal-traps

Молчание = согласие

«при отсутствии возражений...»

short-claim-period

Сокращённые сроки претензий

3 дня вместо 30

Почему добавил Claude

YandexGPT хорош, но у Claude оказался лучше «юридический reasoning». Прогнал один и тот же договор поставки через обе модели:

Метрика

YandexGPT

Claude

Найдено рисков

11

27

CRITICAL

2

5

HIGH

4

12

MEDIUM

5

10

Claude нашёл в 2.5 раза больше рисков на том же договоре.

Что нашёл Claude, а YandexGPT пропустил

1. Неустойка 1%/день за невывоз товара

В договоре:

«1% от стоимости несвоевременно вывезенного Товара за каждый день просрочки, но суммарно не более 2%»

YandexGPT увидел cap «не более 2%» и решил, что всё ок.

Claude понял: 1%/день = 365%/год — кабальное условие по ст. 333 ГК РФ, даже с cap'ом.

2. Противоречие между пунктами

  • П. 4.4: «Поставка осуществляется только путём самовывоза»

  • П. 6.2: «Поставщик организует доставку транспортной компанией»

YandexGPT не заметил. Claude флагнул как противоречие.

3. Антикоррупционная оговорка без адекватного срока

«Сторона обязана ответить на запрос в течение 10 дней, иначе другая сторона вправе приостановить исполнение»

Claude отметил: 10 дней — слишком короткий срок для серьёзной проверки, риск для добросовестной стороны.

Почему такая разница?

По нашим наблюдениям:

  1. Размер контекста — у Claude Opus контекст 200K токенов, он лучше видит связи между далёкими пунктами договора

  2. Качество reasoning — Claude лучше «понимает» юридическую логику, а не просто матчит паттерны

  3. Меньше галлюцинаций — реже выдумывает несуществующие риски

Стоимость токенов

Сравнение цен на 1M токенов (async режим):

Провайдер

Input

Output

YandexGPT Lite

100 ₽

100 ₽

YandexGPT Pro

600 ₽

600 ₽

YandexGPT Mixed (6/9 Pro + 3/9 Lite)

~433 ₽

~433 ₽

Claude Opus 4.5

~500 ₽ ($5)

~2500 ₽ ($25)

В «Эконом» режиме используется mixed стратегия — сложные блоки (parties, payments, penalties, Deep Risk) идут через YandexGPT Pro, простые через Lite.

Claude дороже, но разница в качестве ощутимая — особенно на сложных договорах (франшиза, IT, строительство).

Экономика для бизнеса

Зачем вообще это нужно? Вот сравнение:

Юрист

Legal Parser

Время

1-5 дней

1-2 минуты

Стоимость

15 000 - 50 000 ₽

299 - 499 ₽

Доступность

Рабочие часы

24/7

Повторный анализ

Платно

Новый кредит

Пример расчёта:

Компания проверяет 10 договоров в месяц.

  • Юрист: 10 × 20 000 ₽ = 200 000 ₽/месяц

  • Сервис: 10 × 499 ₽ = 4 990 ₽/месяц

  • Экономия: ~195 000 ₽/месяц или 2.3 млн ₽/год

Конечно, сервис не заменяет юриста полностью — сложные сделки всё равно требуют человека. Но для типовых договоров (аренда, поставка, услуги) AI справляется с первичной проверкой и выявляет большую часть рисков.

Как это работает для пользователя

  1. Загружаете договор (PDF, DOCX, DOC)

  2. Выбираете режим: «Эконом» (YandexGPT) или «Глубокий анализ» (Claude)

  3. Через 1-2 минуты получаете отчёт:

    • Стороны и их роли

    • Финансовые условия

    • Сроки и этапы

    • Риски с цветовой кодировкой (CRITICAL / HIGH / MEDIUM)

    • Ссылки на нормы ГК РФ

    • Рекомендации по каждому риску

Итоги

  1. Одной LLM недостаточно — нужна валидация кодом. Текстовые детекторы ловят ошибки любой модели.

  2. Claude находит больше — на том же договоре в 2.5 раза больше рисков. Для сложных договоров разница критична.

  3. Двухслойная архитектура — LLM для понимания контекста + код для численной проверки = меньше ложных срабатываний, меньше пропусков.

  4. Экономия для бизнеса реальная — 299-499 ₽ вместо 15-50K ₽ за проверку. При 10+ договорах в месяц окупается многократно.


Попробовать: legalparser.ru — 2 бесплатных анализа при регистрации. Можно сравнить «Эконом» и «Глубокий анализ» на своём договоре.

Вопросы про архитектуру, промпты, детекторы — в комментариях.

Комментарии (19)


  1. gmtd
    03.02.2026 05:40

    Я теперь проверьте договор на обычной бесплатной Gemini, например, и окажется, что экономию можно еще больше сделать - до 0 денег


    1. alterpub Автор
      03.02.2026 05:40

      https://ai.google.dev/gemini-api/docs/pricing не вижу чтобы апи был бесплатным


      1. gmtd
        03.02.2026 05:40

        Зачем директору фирмы API?
        Он зайдет на сайт через VPN


        1. alterpub Автор
          03.02.2026 05:40

          тоже вариант, жаль вы статьи не читали, понимали бы что просто запрос к llm не позволит получить хороший результат


          1. gmtd
            03.02.2026 05:40

            Так поэтому я вам сразу и написал - сравните


            1. alterpub Автор
              03.02.2026 05:40

              Я напишу статью-разбор где покажу сравнение по договору как детектят проблемы Юрист, yandexgpt, claude opus 4.5 + детекторы, claude opus 4.5 raw(просто через вебку), gemini 3 и deepseek через вебку(не смотрел какая там последняя версия 3.2 скорее всего).


  1. tester37
    03.02.2026 05:40

    200 тыс за проверку 10 договоров юристу? Разве что договора от ван мильон долларс


    1. alterpub Автор
      03.02.2026 05:40

      Я смотрел на московские цены, в других местах они могут быть другими, в целом, услуги для бизнеса и частных лиц обычно неплохо по ценнику различаются.


      1. banmet
        03.02.2026 05:40

        За 200 тыс. в месяц компания может найти юриста, который 10 договоров в день проверять, если это конечно не контракты на сотни миллионов. ИИ конечно ускоряет работу, но запросы ему и ответ проверять и корректировать результат должен юрист.


        1. alterpub Автор
          03.02.2026 05:40

          ну вот вы пришли получать какую-то услугу(МРТ пусть будет), вам дают договор на оказание услуг на 5 страницах, можно читать, но я прям на 100500% уверен, что 99/100 не будут читать, а просто подпишут, я все что делаю - фоткаю и заливаю в сервис, получаю отчет и смотрю его, если прям чего-то люто критичного нет, то подписываю, если есть - иду в другое место. Заче мне тут юрист за 200к в месяц?

          PS: я так понимаю вы какой-то конкретный кейс в своей голове держите? если так, то вероятно этот инструмент не для вас, возможно у вас есть сильно лучше варианты для вашего кейса и это хорошо.


          1. tester37
            03.02.2026 05:40

            Просто уже утомили буллшитные сравнения по экономике, которые далеки от реальности


            1. alterpub Автор
              03.02.2026 05:40

              Я взял исследование с vc.ru, там от 5000 юристы за консультацию берут, ок, пусть будет так, если это серьезный бизнес, вы никогда даже искать севрисы подобные не будете, если нужна проверка договора "легкой-средней" нагрузки, то нет проблем закинуть его и за 300-500р чекнуть(1-2 стакана кофе в наше время, кажется, что вы тоже сильно перекручиваете). И все равно это будет 10-15 раз дешевле. Какие-то договора, которые было бы неплохо проверять люди вообще не проверяют из-за отсутствия компетенций и желания, иначе не было бы кейсов, когда люди устраиваются на работу(подписывают ЛИЧНО кредитный договор) и получаю не зп, а кредиты... а сейчас можно сфоткать и проанализировать, потравит пару минут в сумме.

              PS: А если вы юрист и сами проверяете, то сервис наверняка сможет найти что-то что вы пропустили или что может вызывать вопросы


  1. 00z3r
    03.02.2026 05:40

    Чтобы понять качество сервиса, достаточно прочитать договор оферты на сайте:

    6.1. Исполнитель не несет ответственности за решения, принятые на основе результатов анализа.
    6.2. Сервис предоставляет автоматизированный анализ и не заменяет профессиональную юридическую консультацию.
    6.3. Исполнитель не несет ответственности за недоступность Сервиса по независящим от него причинам.
    6.4. Совокупная ответственность Исполнителя ограничена стоимостью оплаченных услуг.

    Исполнителем является некто с ИНН физика.

    Удачи в использовании этого сервиса.

    P.S. За формулировку на главной странице сервиса "ИИ находит все риски и подводные камни в ваших договорах. Результат за пару минут вместо 3-5 дней юридической экспертизы." запросто можно отправлять жалобу в ФАС.

    P.P.S. Номер телефона на сайте у вас тоже очень красивый указан, почем сейчас такой можно приобрести? "Телефон: +7 (495) 123-45-67"


    1. alterpub Автор
      03.02.2026 05:40

      Я как раз везде и указываю о том, что llm не являются заменой юриста(в этом цикле статей тоже), это скорее хорошее дополнение для тех кому не нужна дорогая консультация(ну вот ДКП на покупку авто, как правило они "типовые" откуда-то из инета или договор аренды помещения). Хотите полноценную консультацию, не за 300 рублей - идете к юристу, или мне это скрывать, я так не хочу, подход должен быть прозрачным для клиент. ИНН физика, в чем тут у вас личная проблема?

      А вот с номером согласен, это был шаблон текста и тут спасибо за замечание.

      "ИИ находит все риски и подводные камни в ваших договорах. Результат за пару минут вместо 3-5 дней юридической экспертизы." - пожалуй и тут с вами соглашусь, слишком пафосно и раздуто, подумаю как переформулировать, чтобы не вводить в заблуждение


  1. Misteg
    03.02.2026 05:40

    Стыдно рекламировать сервис который навайбкодили за пару дней.

    Подтверждение почты падает с ошибкой:
    HTTP/2 stream 1 was not closed cleanly: PROTOCOL_ERROR (err 1)
    Если во время оплаты нажать вернуться назад получаешь сообщение:
    Оплата успешно завершена! Средства зачислены на ваш счёт
    Сам интерфейс похож на сотни тысяч навайбкоденых Claude сервисов, вот прям вижу его паттерны (эмоджи, структура, фреймы).
    А самое главное, вашу же политику конфиденциальности прогнать если через тот же ChatGPT - то можно получить такое:
    Документ, который вы называете «политикой конфиденциальности», юридически несостоятелен: в нём отсутствуют обязательные правовые основания обработки по ст. 6 152-ФЗ, положения о локализации персональных данных, трансграничной передаче и обработке ПД третьих лиц из загружаемых договоров. В текущем виде это прямой риск привлечения к ответственности по ст. 13.11 КоАП РФ с многомиллионными штрафами, а не «готовое решение» для клиентов. Продавать услуги с таким уровнем правовой проработки — значит вводить заказчика в заблуждение и создавать ему регуляторный риск.
    Отсутствует положение о трансграничной передаче

    Не отражена обработка ПД третьих лиц в документах
    Не раскрыты правовые основания
    Нет положения о локализации
    Нет детализированного согласия
    Нет порядка реагирования на инциденты
    Нет регламента хранения логов
    12. Потенциальная ответственность
    По ст. 13.11 КоАП РФ:
    За отсутствие политики — до 60 000 ₽
    За отсутствие согласия — до 75 000 ₽
    За нарушение локализации — до 6 млн ₽
    За повторное нарушение — до 18 млн ₽


    1. Misteg
      03.02.2026 05:40

      А, ещё условия использования тоже проссумировал:

      Если коротко и жёстко: эти «Условия» юридически сырые и в суде развалятся.

      Во-первых, это по сути публичная оферта, но в тексте отсутствуют существенные условия договора возмездного оказания услуг: порядок заключения договора, момент акцепта, порядок оказания услуги, сроки, порядок приемки результата, основания и порядок возврата, ответственность сторон, применимое право и подсудность. Во-вторых, пункт «все платежи окончательные и не подлежат возврату» противоречит Закону РФ «О защите прав потребителей» — потребитель вправе отказаться от услуги до её оказания, а условия, ущемляющие права потребителя, ничтожны. В-третьих, полное снятие ответственности («не несёт ответственности за решения») юридически ничтожно: исполнитель не может исключить ответственность за некачественную услугу, вводящую в заблуждение информацию или убытки, причинённые по его вине.

      Если он продаёт сервис B2C с такими условиями, это прямой риск споров, возвратов, штрафов Роспотребнадзора и проигрыша в суде.


      1. alterpub Автор
        03.02.2026 05:40

        Оферту, термсы и прайваси я поправил, спасибо за ваш комментарий, мне он был полезен.


    1. alterpub Автор
      03.02.2026 05:40

      "HTTP/2 stream 1 was not closed cleanly: PROTOCOL_ERROR (err 1)" на каком хостинге у вас почта?

      "Если во время оплаты нажать вернуться назад" - спасибо потестирую такие кейсы.

      "на сотни тысяч навайбкоденых Claude сервисов" - вообще пофиг, не имеет никакого значения, хоть белая страница с кнопкой загрузки, цель сервиса не развлекательная, а с точки зрения удобства меня устраивает.

      "Документ, который вы называете «политикой конфиденциальности», юридически несостоятелен" - спасибо, поработаю над ним.


  1. FemboyEnjoyer
    03.02.2026 05:40

    "добавил сеньёра к марковской цепи для написания кода, и код наконец начал работать!"