Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.
Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

А вот что удалось извлечь из него с помощью стандартного OCR-модуля Tika:

Именно для решения таких задач на сцену вышли современные мультимодальные модели (VLM - Visual Language Models). Они не просто «читают» текст по буквам, а «смотрят» на изображение целиком, понимают его структуру и возвращают осмысленный результат, например, в готовом Markdown или HTML.
Мы решили провести практическое сравнение и взяли шесть популярных открытых моделей, чтобы стравить их с нашим «кошмарным» документом. А для полноты картины прогнали через них еще два кейса: идеальную печатную страницу и чисто рукописный текст. Поехали!
Как заставить LLM работать в режиме OCR: магия системного промпта
Прежде чем мы перейдем к результатам, важный практический нюанс. Универсальные мультимодальные LLM (такие как Gemma или Qwen) по умолчанию не заточены под OCR. Если просто попросить их «описать картинку», они могут начать фантазировать. Чтобы переключить их в строгий режим оцифровщика, нужен правильный системный промпт. Мы использовали вот такую инструкцию, которая заметно снижает галлюцинации и заставляет модель аккуратно работать со структурой.
Ты - специалист по оцифровке документов.
ЗАДАЧА: Верни весь текст документа.
ФОРМАТ ОТВЕТА:
Выведи весь распознанный текст в формате Markdown.
ВАЖНО:
- Документ может содержать рукописный текст.
- Документ на русском языке.
- Внимательно оформляй таблицы, чтобы они были в формате Markdown. Сохраняй исходную структуру таблиц.
Листинг 1. Системная инструкция для переключения универсальных LLM в «режим OCR».
Знакомьтесь с участниками
Мы разделили модели на две группы, чтобы сравнение было честным.
Специализированные OCR/VLM
Это модели, изначально созданные для задач распознавания и анализа документов.
LightOnOCR 1B - сверхлёгкий спринтер. Эта модель создана с упором на скорость и низкие требования к ресурсам. Идеальна для потоковой обработки, хорошо извлекает печатный текст и почти не галлюцинирует.
DeepSeek OCR (~3B) - структурный аналитик. Открытая модель с интересной идеей «оптического сжатия контекста». Её конёк - структурное распознавание, особенно таблицы и рукописные цифры.
PaddleOCR VL 0.9B - компактный универсал. Маленькая, но мощная модель (NaViT + ERNIE 4.5), которая поддерживает более 100 языков. Её суперсила — восстановление даже самых «ломаных» табличных структур. Может работать даже на CPU.
Универсальные мультимодальные LLM
Это большие языковые модели, которых научили «видеть». Они могут не только распознавать текст, но и рассуждать об изображении.
Gemma 27B Vision - тяжеловес от Google. Крупная модель с большим контекстом. Неплохо справляется с таблицами, но на длинных документах может «забываться» и галлюцинировать в конце вывода.
Qwen3 Omni - швейцарский нож. Модель из «omni modal» семейства от Alibaba, работающая с текстом, картинками, аудио и видео. Демонстрирует высокое качество OCR и формирует аккуратные, читаемые абзацы.
Qwen3 VL 30B A3B (MoE) - флагман. Старшая модель в линейке с огромным контекстом и сильными аналитическими способностями. По нашим наблюдениям, показывает самый ровный и сбалансированный результат по всем критериям.
Критерии оценки были просты: точность текста, сохранение структуры (особенно таблиц), распознавание рукописи, скорость и стабильность (отсутствие галлюцинаций).
Битва за сложный документ: результаты основного теста

А теперь самое интересное. Как наши бойцы справились с главным тестовым изображением?
LightOnOCR 1B
Эта модель полностью оправдала свою репутацию спринтера: обработка прошла молниеносно. Общее качество распознавания печатного текста оказалось высоким, а галлюцинаций практически не было. Однако, когда дело дошло до сложной таблицы и рукописных полей, её магия иссякла. Структура таблицы была восстановлена слабо, а рукопись осталась нечитаемой.

DeepSeek OCR
DeepSeek также показал себя быстрым и уверенно справился с таблицей, что является его сильной стороной. Модель даже смогла распознать рукописные числа. Из минусов - частичная потеря оригинального оформления, а полноценный рукописный текст (слова, а не цифры) дался ей с трудом.

PaddleOCR VL 0.9B
На нашем примере PaddleOCR показала, пожалуй, лучшее общее качество среди специализированных моделей. Она уверенно вытащила даже мелкий курсив, а таблицу восстановила почти идеально, сохранив структуру. Рукописный текст был распознан частично. Единственный компромисс - средняя скорость работы.

Gemma 27B Vision
Переходим к тяжеловесам. Gemma хорошо сохранила табличную структуру и распознала рукописные цифры. Однако за это пришлось заплатить скоростью. Кроме того, на длинном выводе мы заметили её склонность к «хвостовым галлюцинациям» - модель начинает додумывать информацию в конце. Распознавание рукописных слов также было неполным.

Qwen3 Omni
Эта модель продемонстрировала высокое качество распознавания печатного текста, включая мелкий курсив, и неплохо справилась с таблицей и рукописными числами. Но, как и Gemma, она работает медленнее специализированных решений, а форматирование сохраняет не идеально.

Qwen3 VL 30B A3B
Флагманская модель Qwen показала самый сбалансированный и сильный результат. Она отлично справилась со всеми аспектами: печатный текст, мелкий курсив, сложная таблица. А в распознавании рукописного текста (и чисел, и слов) она превзошла всех остальных участников. Цена за такое качество - более низкая скорость по сравнению с лёгкими моделями и не всегда идеальное форматирование.

Промежуточный итог: для простых документов с упором на скорость лучше всего подходят LightOnOCR и PaddleOCR VL. Для сложных, комплексных задач, где важна каждая деталь, лидерство захватывает Qwen3 VL. Универсальные модели (Qwen, Gemma) также могут быть полезны для точечного извлечения полей и других интерактивных задач.
Дополнительные раунды: идеальная печать и суровая рукопись
Чтобы проверить модели в крайних условиях, мы взяли еще два изображения: чистую печатную страницу и полностью рукописный текст.


Тест 1. Идеальный печатный документ
Здесь почти все модели показали себя достойно, но с нюансами.
LightOnOCR и DeepSeek OCR сработали практически эталонно и очень быстро. LightOnOCR выдал чистый текст, DeepSeek - текст с удобными структурными метками.
Qwen3 (Omni и VL) также приблизились к эталону, сохранив абзацы и списки. Результат Qwen3 VL можно назвать идеальным, но он требует больше ресурсов.
Gemma 27B Vision выдала качественный результат, но была медленнее специализированных аналогов.
PaddleOCR VL в целом справилась хорошо, но допустила несколько странных ошибок, заменив кириллические буквы на похожие латинские (например, «МОСКВА» → «MOCKBA»).
Вывод: для оцифровки качественных печатных документов можно смело брать любую быструю специализированную модель.

Тест 2. Суровый рукописный текст (HTR)
А вот здесь началось настоящее расслоение. Распознавание сплошного рукописного текста (Handwritten Text Recognition) - всё ещё сложнейшая задача.
Победители: Qwen3 VL и Qwen3 Omni показали лучший результат. Текст, который они выдали, был не идеален, встречались замены похожих букв, но общий смысл сохранялся, и абзацы были вполне читаемы. Это наиболее жизнеспособные варианты для работы с рукописью.
Середнячок: Gemma 27B Vision справилась средне. Текст можно было разобрать, но требовалась серьёзная постредактура из-за замен слов и неверных переносов.
Проигравшие: LightOnOCR, PaddleOCR VL и DeepSeek OCR с этой задачей не справились. Их результат представлял собой набор несвязных обрывков, искаженных слов и мешанины из кириллицы и латиницы. Для HTR эти модели не подходят.
Вывод: если вам нужно распознавать рукописные документы, на данный момент семейство Qwen3 VL - ваш лучший выбор среди открытых моделей.


Выводы и практические рекомендации
Итак, какой инструмент выбрать для вашей задачи?
Потоковая оцифровка простых печатных документов (счета, акты, письма).
Ваш выбор - LightOnOCR 1B (если нужна максимальная скорость) или PaddleOCR VL 0.9B (если важна стабильность распознавания таблиц и возможность запуска на CPU). Это дёшево, быстро и надёжно.Работа со «сложными» формами (анкеты, отчёты с таблицами, мелким курсивом и рукописными вставками).
Здесь безоговорочный лидер - Qwen3 VL 30B A3B. Эта модель обеспечивает наилучший баланс качества по всем фронтам. Она медленнее, но результат того стоит.Распознавание сплошного рукописного текста.
Только Qwen3 VL и, с оговорками, Qwen3 Omni. Остальные модели пока не готовы к таким вызовам.
Наш опыт в продакшене
В своих проектах в качестве основной модели мы используем именно семейство Qwen3 VL. Причина проста - универсальность. С хорошо составленным системным промптом эта модель уверенно справляется почти со всеми типами документов, которые нам встречаются: от простых актов до многоязычных таблиц с рукописными пометками. В качестве резервных опций держим PaddleOCR VL (для задач, где критичны только таблицы) и LightOnOCR (для сверхбыстрой обработки простых до��ументов).
В заключение хочется сказать, что мир OCR стремительно меняется. Если раньше мы боролись за каждую букву, то теперь боремся за структуру, контекст и смысл. Лёгкие специализированные модели отлично закрывают 80% рутинных задач, а для самых сложных и критичных кейсов на помощь приходят большие мультимодальные LLM. Главные нерешённые вызовы - это идеальная реконструкция сложных таблиц и полноценное чтение беглого рукописного текста. Но, глядя на текущий прогресс, кажется, и этого ждать осталось не так долго.
shadrap
Спасибо за обзор ! Насколько я понимаю , Квен может работать на цпу ? Можно ваши тайминги по железу на котором вы запускали модели ? Что есть низкая скорость а что высокая ?