Еще десять лет назад автоматизация обработки документов опиралась на OCR и жесткие шаблоны. Сегодня в этой сфере все активнее заявляют о себе VLM — технологии, способные понимать контекст и быстро адаптироваться к новым задачам. Но меняют ли они правила игры полностью или лишь дополняют существующие? 

Мы провели исследование и выяснили, что правила изменились, но говорить о полном забвении классических IDP-решений рано. Будущее будет за гибридом, который сочетает эффективность IDP с новыми возможностями VLM.

Почему  VLM эффективны в обработке документов

Начнем с азов, но без воды

VLM, так же как и LLM, обучены на колоссальных объемах текста: книгах, статьях, коде, форумах, профессиональной документации. И при этом понимают как текст, так и изображения: могут определить, где в документе блок с подписью, печать, таблица с перекрывающимися ячейками или график с пометками ручкой.  

Главная сила моделей — контекстное понимание. Представьте, что вы дали LLM отсканированный договор аренды и просите: 

«‎Извлеки сумму ежемесячного платежа, имя арендодателя и дату окончания договора. Если дата окончания не указана явно, вычисли ее, исходя из срока действия». 

Для решения задачи с помощью классического IDP нужен шаблон, предварительная разметка и обучение. VLM справится без этого. Модель прочитает текст, найдет соответствующую информацию и свяжет логические цепочки: «Срок действия договора — 11 месяцев с 01.03.2025, а значит окончание —  01.02.2026». 

Круто? Круто. Невозможно отрицать новую ценность для бизнеса, которую VLM могут привнести в автоматизацию обработки документов особенно слабо– и неструктурированных. 

Но можно ли говорить, что уже сейчас модели способны заменить проприетарный софт? Мы попробовали на практике оценить их готовность к решению конкретных задач обработки документов и целесообразность внедрения для бизнеса.

Методология и метрики исследования

В рамках исследования мы проверили, насколько хорошо VLM справляются с задачей извлечения данных из документов с таблицами, в том числе многостраничных.

Методику использовали следующую:

  1. Попросили несколько VLM извлечь поля из различных финансовых и бухгалтерских документов

  2. Проводили замеры на облачных моделях через OpenRouter и сравнивали их с результатами нашей IDP-платформы ContentCapture 14.9

  3. Использовали JSON-схемы для генерации ответов, чтобы модель следовала заранее зафиксированному формату ответа

  4. Обрабатывали как одностраничные, так и многостраничные документы с небольшим числом страниц — одним запросом, аналогично одностраничным

  5. Проводили измерения на датасете, который включает наиболее распространенные типы финансовых и бухгалтерских документов: акт выполненных работ (форма КС-2), счет, счет-фактура, ТОРГ-12, УКД, УПД. Общее количество документов 764

  6. Использовали синтезированные документы высокого качества, а в перспективе планируем аналогичное исследование с искаженными образцами реальных документов.

Сводные результаты исследования
Сводные результаты исследования

Результаты распознавания документов сравнивали по нескольким классическим метрикам: 

  • PassThroughRate: в документе точно распознаны все поля;

  • FieldF1: мера количества точно найденных полей документа – чем больше правильных полей найдено, тем выше F1;

  • Char F1: оценка количества точно распознанных символов во всех полях документа;

  • Time per image: среднее время распознавания одного изображения.

Результаты: IDP vs VLM

PassThroughRate — одна из самых строгих метрик качества. Достаточно одного неверно распознанного символа в поле, чтобы результат по всему документу обнулился. По этому показателю ContentCapture с результатом 1,44 % заметно уступает большинству моделей.

Лидером стала Gemini-2.5-Flash, продемонстрировавшая 22,91 % — то есть почти в каждом пятом документе все поля распознаны без единой ошибки. Высокую точность VLM обеспечивает способность восстанавливать недостающую или искажённую информацию на основе контекста и статистических закономерностей. Если символ размыт или обрезан, модель анализирует весь документ целиком. Это позволяет ей «угадать» правильное значение с высокой вероятностью.

В отличие от традиционного OCR, который ограничен окрестным окружением, VLM видит документ целиком. За счет этого модели выдают больше чистых результатов по PassThroughRate. В то же время даже незначительные погрешности классических IDP-решений, например, опечатка или лишний пробел,  приводят к обнулению метрики, несмотря на то, что остальной документ распознан идеально.

По метрике Field F1 ContentCapture лидирует с показателем 94.49%. Это говорит о том, что IDP-система успешно справляется с точным извлечением данных из полей. Ближайшие конкуренты — LLaMA-4-Maverick, Gemini-2.5-Pro — показывают неплохой результат с отставанием примерно на 3% — 91,6% и 91,4% соответственно. Однако при большом и очень большом количестве полей в абсолютном значении эта цифра будет весомой, и разрыв в показателях вырастет.

По CharF1 ContentCapture c результатом 95.09% немного уступает ряду облачных моделей. В целом, и те, и те хорошо справляются с распознаванием отдельных символов в полях. Считаем, что пока ничья.

В случае с time per image ContentCapture обрабатывает документ в среднем за 10 секунд — из них около двух секунд уходит на импорт и предварительную обработку, а 8 — непосредственно на распознавание. Это в разы быстрее большинства протестированных VLM.

Наиболее близкие результаты по скорости показали Gemini-2.0-Flash (16,5 секунд) и GPT-4o (15 секунд), однако обе модели значительно уступают ContentCapture по качеству извлечения данных.

В рамках исследования мы измеряли время ответа через сервис OpenRouter, и эти данные могут отличаться от непосредственной скорости работы моделей. Мы сознательно пошли на упрощение: во-первых, потому что точные сведения об аппаратной конфигурации и параметрах запуска моделей недоступны. Во-вторых, для целей предварительного сравнения такой подход вполне корректен.

Углубленный бенчмарк с контролем «железа» и настроек потребовал бы значительных ресурсов и времени, что выходит за рамки задачи исследования — оценить целесообразность практического использования VLM для распознавания документов здесь и сейчас.

Вот результаты по одному конкретному типу документов — ТОРГ-12. Их в исследовании было 100 штук. 

Результаты исследования по одному типу документов  
Результаты исследования по одному типу документов  

Здесь картина в целом та же, что и по своду результатов:

  • По PassThroughRate классическое IDP-решение, предсказуемо, не проходит, а модели показывают широкий разброс результатов — от 0% у Gemma-3-27b-it до 43% у Gemini 2.5 Flash Preview 05-20. В среднем показатель — 19%. 

  • По Field F1 ContentCapture снова показывает лучший результат — 97.09%. VLM отстают, и некоторые, довольно, прилично: на 10 и более %.

  • По CharF1 ContentCapture сохраняет паритет с большинством моделей, уступая лучшему результату Сlaude Sonnet 4 около 5%. 

  • По time per image: ТОРГ-12, как и остальные документы, ContentCapture обрабатывает в среднем за 10 секунд. Результаты VLM разнятся от практически идентичных 10,6 секунд у Gemini 2.0 Flash-001 до 97 секунд у Qwen2.5-VL-72B-Instruct.

Наше исследование показало, что классическое IDP-решение успешно справляется со своей ключевой задачей — точным и быстрым извлечением данных из структурированных документов. Высокие показатели по Field F1 (94,49% в среднем, до 97% на ТОРГ-12) и низкое время обработки (10 секунд на документ) подтверждают эффективность этих систем для задач корпоративного сектора.  

VLM в целом уверенно справляются с распознаванием, но в некоторых документах теряются и могут галлюцинировать — подставлять статистически вероятные, но фактически неверные значения. Это делает их ненадежными для задач, где важна абсолютная точность.

Почему VLM прямо сейчас не подходят для реального использования  

Перейдем от условных метрик к практической стороне вопроса — затратам на внедрение и эксплуатацию.  

ContentCapture работает на 16-ядерном процессоре, стоимость которого составляет около 150 тысяч рублей. Для обработки документов на такой машине можно запустить 16 потоков одновременно. Одна страница обрабатывается примерно 10 секунд, 16 страниц — те же 10 секунд. 

VLM же требуют мощных видеокарт. При этом на ней можно обрабатывать только одну страницу за раз. Хотите обрабатывать 16 страниц параллельно? Приобретайте 16 видеокарт  по 300 тысяч рублей в среднем каждая*.

Стоимость железа, необходимого для потоковой обработки с помощью VLM, обойдется в несколько миллионов рублей. Прибавьте к этому расходы на охлаждение, электропитание, обслуживание. В таких условиях даже высокое качество распознавания не всегда окупает эксплуатационные издержки.

*Выбор видеокарт огромен — от 50 тысяч рублей до нескольких миллионов. В данном примере мы ориентировались на NVIDIA RTX 5090 с 32 ГБ видеопамяти.

В итоге по точности извлечения данных ContentCapture превосходит большинство VLM, а по стоимости владения и эффективности использования ресурсов намного их опережает. Это не случайность, а результат глубокой специализации: когда речь идет о промышленной обработке миллионов документов, где на бизнес-результат влияет множество факторов, оптимизированное под задачу решение остается безальтернативным.

Будущее за интеграцией

Главный вывод, к которому нас приводят данные, заключается в том, что будущее обработки документов — не в противостоянии подходов, а в их синтезе. VLM должны использоваться как усиление классических IDP-решений.

Наиболее перспективным выглядит подход с гибридной архитектурой: быстрое и дешевое распознавание и извлечение данных через OCR с последующей контекстной постобработкой и верификацией с помощью VLM. Это позволяет компенсировать отдельные недостатки классических систем и одновременно усилить их главное преимущество — экономическую эффективность на масштабе.

Преждевременно рассчитывать, что VLM сами по себе заменят IDP. Но было бы наивно игнорировать их потенциал. Победит не тот, кто выберет одну технологию, а тот, кто заставит их работать вместе. Об этом как раз и расскажем в следующих статьях. 


Это блог компании Content AI. Мы помогаем работать с информацией умнее — автоматизировать обработку документов, извлекать данные и повышать качество бизнес-процессов с помощью технологий и AI. Здесь рассказываем, как строим собственные продукты и делимся опытом, архитектурными решениями и кейсами внедрения интеллектуальной автоматизации.

Наш Telegram-канал со всеми новостями: https://t.me/content_ai

Комментарии (0)