Публичные бенчмарки LLM дают ориентиры по общему уровню моделей, но не отвечают на вопрос, как они ведут себя в конкретной задаче. А прикладные сценарии чувствительны к деталям: формату входных данных, структуре ответа, требованиям к точности. В этих условиях различия между моделями становятся более заметными.
Даже у близких по классу моделей небольшие различия в архитектуре и обучении дают заметный разброс в качестве ответов.
Качество моделей сильно зависит от типа задачи — одни лучше следуют инструкциям, другие лучше формулируют текст, третьи реже галлюцинируют.
Одна и та же модель может быть сильной в reasoning-задачах и значительно слабее в саммаризации или QA.
В этой статье расскажем, как оценивали открытые модели для создания саммари записей встреч и поделимся метриками, которые отражают полезность результата для бизнес-процессов заказчика.

Содержание
Что мы сделали
Наш заказчик, компания FollowUP, создаёт сервис для автоматического протоколирования и анализа рабочих встреч. Команде разработчиков Doubletapp нужно было разработать систему, которая позволяет сравнивать open-source LLM в рамках конкретной бизнес-задачи — генерации саммари.
Как это работает
Мы заменили универсальные бенчмарки на прикладную систему оценки, заточенную под корпоративные данные.
Оценка качества строится по двум направлениям:
Полнота саммари
Для каждой транскрипции автоматически формируется набор контрольных вопросов:
какие задачи обсуждались,
какие решения были приняты,
какие договорённости зафиксированы.
Далее проверяется, насколько саммари покрывает эти вопросы.
Так мы измеряем прикладную полезность текста — можно ли из него восстанавливать содержание встречи.
Достоверность
Из саммари выделяются ключевые утверждения и сопоставляются с исходной транскрипцией.
Это позволяет:
фиксировать галлюцинации,
проверять фактическую точность,
контролировать риск искажения договорённостей.
Изначально рассматривались готовые решения оценки (включая RAGAS), но они оказались недостаточно точными в генерации вопросов именно под контекст деловых коммуникаций.
Поэтому мы разработали собственную методику — она учитывает специфику разговорных данных, лучше отражает бизнес-смысл встречи и даёт стабильную сравнимость моделей.
Как это устроено технически
Под капотом — повторяемый процесс из четырёх шагов:
Берем набор транскрипций, собранных из различных открытых источников.
Прогоняем через них тестируемую модель и получаем саммари. В одной и той же системе сравниваем и локальные открытые модели (Qwen, Mistral, Llama, Gemma), и коммерческие API (GPT-5, GPT-4.1) — для нас это просто разные источники саммари.
По каждой транскрипции отдельно более сильная модель-судья (GPT-4.1 на момент работы) готовит набор контрольных вопросов и отдельно разбирает саммари на список утверждений.
Считаем по каждой модели две метрики — полноту и достоверность — и сводим в общую таблицу.
Ниже рассмотрим, как именно получить полноту и достоверность в нашей задаче.
Полнота (Recall)
Мы оцениваем полноту по конкретным разделам, которые важны в протоколе встречи. Проанализировав реальные запросы клиента к моделям, мы выделили четыре таких раздела:
задачи (что и кому поручено),
решения (что зафиксировано),
участники (кто был и в каких ролях),
отложенные вопросы (что вынесено за рамки встречи).
Под каждый раздел у нас свой шаблон промпта. По нему сильная LLM генерирует Yes/No-вопросы, в которых корректный ответ для качественного саммари — «Да».
Например:
Упоминается ли в саммари, что Андрей должен провести онбординг для Елены по использованию бота для рассылок?
Затем вторая LLM смотрит на саммари и отвечает по каждому вопросу: Yes / No / Partially. Recall считается как (Yes + 0.5 · Partially) / N. Частичный ответ важен — на практике саммари часто упоминает задачу, но теряет ответственного или срок, и это полезно отличать от полного пропуска.
Достоверность (Precision)
Здесь обратная процедура. LLM-судья разбивает саммари, полученное от проверяемой модели, на список отдельных утверждений, и каждое утверждение сверяется с исходной транскрипцией: 1 — подтверждается, 0 — не подтверждается. Precision = доля подтверждённых утверждений, то есть прямое измерение доли галлюцинаций.
Пример отказа из реального прогона.
Утверждение саммари: «Предложения и рекомендации: внедрение программного обеспечения для отслеживания финансовых потоков, изучение опыта других инвесторов в аналогичных проектах».
Вердикт: 0. «В расшифровке обсуждалось внедрение софта, но не упоминалось изучение опыта других инвесторов».
Что показал прогон на 432 встречах:
Модель |
Параметров, B |
Квантование, бит |
Recall |
Precision |
F1 |
GPT-4.1 |
— |
— |
0.655 |
0.966 |
0.781 |
Qwen2.5-72B-Instruct GPTQ-Int4 |
72 |
4 |
0.479 |
0.947 |
0.637 |
Mistral-Small-3.1-24B-Instruct-2503 |
24 |
16 |
0.438 |
0.894 |
0.588 |
Mistral-Small-3.1-24B Q8 (GGUF) |
24 |
8 |
0.429 |
0.921 |
0.585 |
Mistral-Small-3.1-24B Q4_K_M (GGUF) |
24 |
4 |
0.424 |
0.917 |
0.580 |
GPT-4o |
— |
— |
0.378 |
0.934 |
0.538 |
Qwen2.5-32B-Instruct GPTQ-Int8 |
32 |
8 |
0.373 |
0.899 |
0.527 |
Qwen2.5-32B-Instruct GPTQ-Int4 |
32 |
4 |
0.351 |
0.912 |
0.507 |
gemma-3-27b-it qat-q4_0 (GGUF) |
27 |
4 |
0.338 |
0.845 |
0.483 |
Qwen2.5-7B-Instruct GPTQ-Int4 |
7 |
4 |
0.301 |
0.836 |
0.443 |
Llama-3.3-70B-Instruct Q4_K_M |
70 |
4 |
0.245 |
0.874 |
0.383 |
Результаты проприетарных моделей (GPT-4.1, GPT-4o) приведены здесь для сравнения и калибровки шкалы — основная задача проекта была выбрать опенсорс-модель, которую можно развернуть у клиента в контуре.
Несколько наблюдений, которые без такой системы оценки увидеть было бы нечем:
Размер сам по себе ничего не гарантирует. Llama-3.3-70B на этой задаче проигрывает по recall даже Qwen-7B — то есть «выбрать модель пожирнее» не работает.
Квантование почти не съедает качество в семействе Mistral-Small-3.1: переход с FP16 на Q8 и далее на Q4 даёт разницу в третьем знаке. Практический вывод: 24B-модель в Q4_K_M помещается на одну консьюмерскую 4090 и при этом сохраняет precision 0.917.
Лучший открытый вариант — Qwen2.5-72B-Int4 — догоняет еще актуальную на момент исследования GPT-4o по precision (0.947 против 0.934) и заметно обгоняет по recall (0.479 против 0.378), укладываясь при этом в 2×A100 40GB.
Цифры подтверждают адекватность методики. Внутри одного семейства метрики снижаются плавно и предсказуемо при уменьшении размера и битности (Qwen 72B → 32B → 7B; Mistral Q8 → Q4). Это тот результат, который и должен получиться, если система оценки действительно измеряет качество, а не шум — то есть бенчмарку можно доверять и для сравнения моделей из разных семейств.
Результат
Вместо разового сравнения моделей бизнес получил систему, которая позволяет:
регулярно сравнивать open-source LLM между собой,
выбирать модель под конкретную задачу,
снижать риск внедрения модели с скрытыми проблемами качества,
встроить оценку качества прямо в процесс развития продукта.
В Doubletapp мы проектируем и внедряем системы оценки LLM под конкретные продуктовые сценарии заказчика.
Если вам важно понять, как модели работают именно в вашем кейсе и какие из них оптимальны с точки зрения качества и инфраструктуры, давайте обсудим подход и подберем решение.
Больше кейсов — по ссылке.
Комментарии (4)

janvarev
05.05.2026 14:41Было бы интересно увидеть свежие модели:
Gemma 4, Qwen 3.5 - интересно, как в сравнении с GPT-4.1
Судью можно оставить того же, но лучше тоже проапгрейдить.

JDTapp Автор
05.05.2026 14:41Сейчас, к сожалению, сравнить не можем, но про судью, кстати, интересное замечание - приятный бонус подхода LLM-as-a-Judge состоит в том, что с выходом новых моделей можно получить прирост качества системы оценки по сути забесплатно, просто меняя модель.
AlexanderAnisimov
Это по состоянию на какую дату такой набор моделей? Без четвертой геммы странно все это выглядит - она по бенчмаркам прям сильно продвинулась.
Я для своей приложухи (генератор тайм-кодов для ютуб-подкастов, ссылка в профиле) тоже хотел сделать какую-нибудь тулзу для сравнения качества моделей (они у меня из оупенроутера). Но руки наверно никогда не дойдут. Джеменай-про даже для трехчасовых роликов работает, кажется, идеально. Гипотетическая экономия в пару долларов (допустим, заменить gemini на xiaomi) не сопоставима с затратами на ловлю блох. Для коротких (в пределах часа) и флэш неплохо справляется - он вообще копейки стоит.
Если бы я решал такую задачу, то наверно сделал бы так: разбил бы исходный транскрипт на "тематические разделы" (а-ля, тайм-коды), т.е. сделал бы оглавление/агенду и потом уже во вторую итерацию по каждому пункту агенды (временному интервалу) отдельно выделял бы "принятые решения", "открытые вопросы", "поручения" и т.п.
И в конце уже склеить в общий массив.
Мне кажется это бы снизило когнитивную нагрузку. По моему опыту могу сказать что качество результата сильно зависит от длительности транскрипта. Понятно что если в квен-7б скормить двухчасовой транскрипт на русском со сложной постановкой задачи, то он такого насаммаризирует что кровь из глаз потом не отмыть. А по частями ему наверняка было бы легче.
Интуитивно кажется что если четвертую гемму грамотно нафайнтюнить отдельно на каждую подзадачу (отдельно на агенду, отдельно на извлечение "принятых решений" из пунктов агенды и т.п.), то она наверняка сможет соревноваться с какой-нибудь пятой гопотой.
JDTapp Автор
Весна 2025. Сейчас уже модели были бы другие, конечно, и версии Qwen новые вышли, и Gemma, да. Но подход тот же, и он подходит, чтобы наш клиент сейчас уже самостоятельно мог в пайплайне заменить модели и получить оценки.
Насчет Gemini и экономии - согласен, если экономия минимальная, и нет потребности разворачивать локально для сохранения данных внутри, то любые небольшие опен-сорс модели скорее всего проиграют моделям топовых лаб. Тут нашему клиенту было важно именно иметь локальную модель в своем контуре, чтобы данные его не покидали.
Про подход к решению - такой может сработать вполне. Тут мы не говорили о том, как именно получаются саммари - пайплайн автоматической оценки качества требует транскрипции и саммари для оценки, как именно получается саммари ему не важно, поэтому такой подход тоже можно было бы оценить.
Про файнтюнинг - мы как раз делали такое для других подобных задач у другого клиента, тюнили gpt-oss-120b. Качество ответов росло, хотя и проигрывало GPT-5 как раз. Но в целом, если есть данные, и нужна локальная модель, тюнить однозначно полезно.