Любой, кто пытался прикрутить LLM к реальному продакшену в узком домене (медицина, право, инженерия), проходил стадию отрицания: «Да ладно, сейчас промпт подкручу, RAG прикручу — и полетит».

Не полетит. ?

На этой неделе (январь 2026 г.) вышел любопытный китайский препринт "Chinese Labor Law Large Language Model Benchmark". Авторы сделали то, до чего у большинства стартапов не доходят руки: вместо написания очередной обертки над OpenAI API, они построили жесткий бенчмарк и доказали, что General-purpose модели сливают специализированным SFT-моделям, как только дело доходит до специфической логики и расчетов. Ниже - разбор статьи с проекцией на мой опыт разработки neshemyaka.ru (Legal AI для оценки исков). Спойлер: китайцы математически подтвердили то, что пришлось выяснять через боль и сжигание токенов.

Суть проблемы: Generalist vs Specialist

Основная гипотеза авторов: большие модели страдают от "размытия" контекста. Когда модель знает всё обо всём, она начинает галлюцинировать в задачах, требующих строгой импликации (если А, то Б, но только при условии В). Для проверки они собрали LabourLawBench - датасет из 12 типов задач по трудовому праву. И это не просто "вопрос-ответ".

Архитектура бенчмарка (можно сказать, feature map для разработчика)

Если вы пилите LegalTech, забирайте этот список как готовое ТЗ. Авторы выделили 12 задач:

  • Statute Recitation (T1): Точное воспроизведение нормы (Retrieval memory).

  • Knowledge QA (T2-T3): Классические тесты.

  • Case-Type Prediction (T4): Классификация (Multi-class classification).

  • Welfare Compensation Prediction (T5): Самое интересное. Предиктивный расчет компенсаций. Это то место, где LLM традиционно «плывут», пытаясь угадать цифру, а не посчитать её.

  • NER & Mining (T6-T8): Извлечение сущностей, требований и сути спора.

  • Statute Prediction (T9-T10): Предсказание применимой статьи (Reasoning).

  • Case Analysis (T11-T12): Генерация текста решения.

Результаты тестов:

Специализированная модель LabourLawLLM (дообученная на корпусе трудового права) показала лучшие метрики (Rouge-L, F1, Accuracy) по сравнению с базовыми LLaMA, ChatGLM и даже GPT-4 в специфических задачах.​ Особенно показателен провал дженералистов в T5 (Calculations) и T1 (Citation). GPT-4 может написать красивое эссе, но когда нужно маппить 40 видов китайских социальных выплат на фабулу дела — она ошибается.

Методология оценки: LLM-as-a-Judge

Авторы используют гибридную оценку: для классификации/извлечения - Hard Metrics (Accuracy, F1). Для генерации (Case Analysis) - LLM-as-a-Judge (используют GPT-4 для скоринга ответов других моделей). И такой подход постепенно становится стандартом. В своем проекте я пришел к аналогичной схеме: валидировать юридический "ризонинг" регулярками невозможно. Приходится строить каскад, где "старшая" модель оценивает адекватность "младшей".

Как это бьется с моей практикой

Когда я пилил свой сервис первичного скоринга судебных исков neshemyaka.ru, я наступил на те же грабли, что описаны в статье. Ожидание было понятным - User Input -> RAG (простенький, но специализированный в разных поддоменах) -> LLM -> Score.

В реальности же GPT (да и не только она) выдает очень гладкий, уверенный, но юридически бессмысленный текст. Например, она прекрасно «понимает» эмоцию истца, но пропускает пропущенный срок исковой давности, потому что для неё это просто дата в тексте, а не блокирующий фактор.

После этого пришлось уйти от монолитного промпта к пайплайну chain of thought + decomposition, похожему на структуру задач, предлагаемых в статье:

  • Pre-processing (NER): Отдельная задача на выделение дат, сумм и требований (аналог T6/T7 из статьи).

  • Reasoning Layer: Модель не "пишет ответ", а сначала классифицирует тип спора (аналог T4).

  • Validation: Вместо одной модели работает ансамбль (consensus check). Если GPT, Claude или другая модель расходятся в оценке шансов (например, разброс > 20%), система помечает этот кейс как "неопределенный".

Выводы из статьи

  1. Supervised Fine-Tuning жив, а RAG - не панацея. Если вам нужен специфический формат вывода (например, JSON с разбивкой по 40 видам компенсаций), проще дообучить небольшую модель (7B-13B), чем мучить контекстное окно промптами на 10к токенов.

  2. Decomposition "is a кing". Не пытайтесь решить задачу одним запросом "Будь юристом". Разбивайте её этапы - "Классифицируй", "Найди нормы", "Посчитай", «Сведи».

  3. Бенчмарки решают. Пока у вас нет своего "золотого датасета" (хотя бы 100 размеченных кейсов, или 600 - как в статье), вы не разрабатываете AI, вы просто играете в казино с API OpenAI.​

P.S. Кому интересна статья - ссылка на arXiv. Код neshemyaka.ru пока не открывал, но сам сервис доступен — можно покидать в него иски и посмотреть, как он "галлюцинирует", но уже весьма уверенно.?

Комментарии (11)


  1. Bardakan
    17.01.2026 13:14

    Уже же многократно писали, что llm в принципе не тянет длинные тексты - хорошо помнит, что было в начале и в конце, а контекст середины забывает и вместо него сочиняет ерунду


  1. eeglab
    17.01.2026 13:14

    Юристы одни из первых кандидатов на "выход". Очевидно, что развитие LLM "съест" эту профессию в первую очередь. Такого огромного количества данных, которые сейчас есть, ни один человечий мозг переварить не способен и состязательный принцип в юриспруденции сейчас превратился в то, как хитро юристы способны крутить "флюгер закона". Chatgpt 4 не может конечно и не мог изначально, но уже 5.2 , он конечно тоже более годится для проверки фактов, но вот claude очень даже неплохо может писать и исковые и возражения, получше некоторых юристов точно (совместно с проверкой фактов в chatgpt)


    1. ZanZy
      17.01.2026 13:14

      юристы - это решалы. Законы там на десятом месте. Главное с кем надо о чём надо перетереть. Качество адвоката и его гонорар определеяется не тем как хорошо он знает вопросы, а уровнем на котором он способен порешать. В любой стране.


      1. eeglab
        17.01.2026 13:14

        Ну вот и печально, человечество куда то не туда свернуло


        1. pigeondoves
          17.01.2026 13:14

          Строгость законов компенсируется необязательностью их исполнения. Если бы все было по букве, мы бы давно в лагерях сидели. Так что я не против того что многие вопросы решаются по свойски.


          1. ZanZy
            17.01.2026 13:14

            с чего бы это мы все сидели в лагерях? дичь пишете.


            1. pigeondoves
              17.01.2026 13:14

              Художественная гипербола того неоспоримого факта что закон и справедливость не знают понятия милосердия


  1. ZanZy
    17.01.2026 13:14

    Ну надо же! Вот это да! Специалисты в своих узких вопросах обходят универсалов! Ну кто бы мог подумать! :-)))