Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — команды, которая уже почти десять лет прокладывает путь в мире машинного перевода и распознавания речи. За это время мы достигли определенных результатов: наш API умеет мгновенно переводить тексты на более чем 100 языков, используя языковые модели с 500 миллионами параметров, оптимизированные специально под задачу быстрого и качественного перевода.
Сегодня я поделюсь тем, как мы смогли удовлетворить еще одну ключевую потребность пользователей и расскажу, почему наше решение для перевода документов может стать важным инструментом в вашей работе с языками.
ВНИМАНИЕ: Если кому надо переводить небольшие объемы книжки итд - напишите в личку, дадим бесплатный доступ.
Почему мы создали переводчик документов
Много лет мы помогали компаниям с обработкой текстов, переводом сайтов, распознаванием голосовых сообщений и созданием субтитров. Но со временем мы заметили: есть особая категория пользователей, которым не нужен API и не нужно on-premise решение для большого количества документов. Им нужно просто перевести один или несколько файлов.
Реальная задача — перевести документ с сохранением всех таблиц, заголовков, списков и при этом не испортить верстку.
Если вы хоть раз пытались перевести документ на 30-100 страниц — будь то договор, презентация, отчёт или инструкция — вы знаете, насколько это может быть сложно. Конечно, если это просто обычный текст, можно попробовать копипаст. Но представьте, что в документе есть таблицы и списки, картинки, разные шрифты и стили, сноски, заголовки — просто так скопировать и вставить не получится, многое приходится делать вручную, а это требует времени.
Кажется, эту проблему должны были давно решить. Огромное количество документов крутится между странами, в компаниях, на проектах. Перевод — это рутинная, но критически важная часть бизнес-процессов. Однако даже в 2025 году перевод документов остается вызовом. На рынке много решений, но у одних не сохраняется структура и форматирование, другие слишком дорогие или предлагают много ненужных функций, а качество перевода оставляет желать лучшего.
Мы взялись за эту задачу и решили её.
Что такое Lingvanex Document Translator?
Это простой веб-инструмент, который переводит ваши документы быстро и без потерь. Просто загружаете файл — DOC, DOCX, ODT, PDF* (с текстом, не скан), CSV, PPTX, XLSX, XLS, RTF или TXT, выбираете нужный язык из более чем 100 доступных и получаете готовый переведённый файл с сохранением исходного форматирования и структуры.

Мы сконцентрировались на реальной задаче — быстром, качественном и аккуратном переводе документов любого формата с сохранением всей структуры и стиля. Это именно тот инструмент, который экономит часы ручной работы и помогает бизнесу быть оперативным и точным в международной коммуникации.
Как это работает?
Технически процесс разбивается на три этапа:
Анализ структуры. Документ разбирается на части: блоки текста с разным стилем форматирования, таблицы, заголовки, списки. Для каждого формата — свой подход.
Перевод с учётом контекста. Мы используем собственные нейросетевые модели, как и для Lingvanex API, обученных на огромных корпусах текстов самых разных тематик: юридических, медицинских, технических, новостных и разговорных. Переводчик умеет работать с терминами, правильно обрабатывать сокращения и имена собственные, что важно для точности.
Сборка документа. После перевода мы восстанавливаем исходное форматирование. Заголовки остаются заголовками, таблицы — таблицами, списки — списками, а презентации и Excel-файлы сохраняют свой оригинальный вид.
Какие форматы поддерживаем?
Вы можете загружать самые разные документы — мы умеем работать с основными офисными форматами:
DOC / DOCX — сохраняем всё: стили, таблицы, колонтитулы и даже мелочи вроде отступов или курсива.
ODT — переводим документы OpenDocument без потерь в структуре.
PDF — цифровые, с текстом или доступные для поиска. Сканированные или содержащие только изображения PDF-файлы пока не поддерживаются.
CSV — аккуратно переводим содержимое ячеек, при этом структура таблицы остается неизменной.
PPTX — переводим каждый слайд, включая текст, подписи и оформление, не нарушая структуру презентации.
XLS / XLSX — поддержка перевода таблиц, ячеек, чисел и формул с сохранением исходного вида.
RTF — базовое форматирование, текст и структура — всё будет переведено.
TXT — просто текст? Отлично, справимся быстро и чётко.
Качество перевода
Когда мы говорим о переводе документов, важна не только скорость и сохранение форматирования, но и качество перевода. Чтобы объективно оценивать наши модели, мы регулярно проводим сравнительное тестирование качества перевода между Lingvanex и конкурентами.
В Lingvanex мы применяем как классическую метрику BLEU, так и современную контекстно-зависимую метрику COMET, чтобы объективно оценить точность и естественность перевода.
Что показывают метрики?
BLEU — измеряет совпадение между машинным переводом и эталонным переводом на уровне n-грамм. Значения BLEU обычно варьируются от 0 до 100, при этом показатели выше 50 считаются очень хорошими, особенно для сложных языковых пар и больших текстов.
COMET — более новая метрика, основанная на нейросетевых моделях, оценивающая качество перевода с учётом контекста и семантики, приближая оценку к человеческой. Значения COMET обычно представлены в диапазоне от 0 до 100, где результаты выше 90 считаются отличными.
А теперь — конкретика.

Lingvanex стабильно показывает очень высокие результаты по BLEU, превышая 50 баллов по всем языковым направлениям — что говорит о высоком качестве точности перевода. Особенно примечателен заметный отрыв при переводе на арабский язык.

По метрике COMET, которая учитывает не только точность, но и контекст, наши модели демонстрируют отличные значения выше 90 для большинства языков, что сравнимо или превосходит Google Translate. Это значит, что перевод сохраняет глубину смысла и стилистическую естественность, что критично для сложных и профессиональных текстов.
Чем это решение может быть полезно:
Документ не потеряет смысл и контекст даже в сложных языковых парах.
Перевод будет точным и готовым к использованию без длительной ручной правки.
Вы экономите время и ресурсы, получая профессиональный результат, который можно сразу применять в бизнесе, образовании, юриспруденции и других сферах.
Где может быть полезен переводчик документов
Образовательные платформы и онлайн-школы
Сервисы вроде Coursera, Udemy или корпоративные LMS часто содержат десятки лекций в форматах .pptx и PDF, а также субтитры в .srt. Преподавателю нужно перевести всё это на несколько языков — вручную на это ушли бы недели. File Translator позволяет справиться за часы, значительно экономя время.Юридические фирмы
Типичный документ — объемный договор на 50 страниц с таблицами, колонтитулами, оглавлением и юридической терминологией. Ручной перевод занимает много времени и стоит дорого. Оптимальный подход: сначала черновой перевод с помощью переводчика документов Lingvanex, затем финальная вычитка профессионалом. Итог — экономия до 70% бюджета и времени.Финансовый сектор и банки
Перевод отчетов в PDF и Excel, документов по оценке рисков, клиентских досье, инструкций по процедурам KYC. Lingvanex обеспечивает оперативный и точный перевод, соответствующий требованиям отрасли.
Первый файл можно перевести — бесплатно. Нужно больше документов для теста? Напишите мне - все сделаем
Решение для бизнеса
Если вы хотите переводить файлы без ограничений и без доступа в интернет, то у нас есть решение в докер-контейнере, которое вы можете развернуть локально у себя в компании. Интерфейс будет выглядеть также как on-line версия. Есть возможность переводить файлы через REST API.
Если хотите протестировать — пишите на мой личный ящик info@lingvanex.com. Дам до 2 месяцев демо бесплатно, сможете перевести десятки тысяч файлов на GPU типа RTX 3090. Развернете у себя на сервере и попробуете. Со своей стороны гарантирую качественный сервис и поддержку!
Итого
Я понимаю, что есть много таких бесплатных сервисов. Моя цель сделать качественный перевод файлов, где есть именно сложное форматирование и большой объем страниц. Сейчас работаем над добавлением перевода сканированных документов (OCR). Жду ваших отзывов и предложений.