Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — команды, которая уже почти десять лет прокладывает путь в мире машинного перевода и распознавания речи. За это время мы достигли определенных результатов: наш API умеет мгновенно переводить тексты на более чем 100 языков, используя языковые модели с 500 миллионами параметров, оптимизированные специально под задачу быстрого и качественного перевода. 

Сегодня я поделюсь тем, как мы смогли удовлетворить еще одну ключевую потребность пользователей и расскажу, почему наше решение для перевода документов может стать важным инструментом в вашей работе с языками.

ВНИМАНИЕ: Если кому надо переводить небольшие объемы книжки итд - напишите в личку, дадим бесплатный доступ.

Почему мы создали переводчик документов

Много лет мы помогали компаниям с обработкой текстов, переводом сайтов, распознаванием голосовых сообщений и созданием субтитров. Но со временем мы заметили: есть особая категория пользователей, которым не нужен API и не нужно on-premise решение для большого количества документов. Им нужно просто перевести один или несколько файлов.

Реальная задача — перевести документ с сохранением всех таблиц, заголовков, списков и при этом не испортить верстку. 

Если вы хоть раз пытались перевести документ на 30-100 страниц — будь то договор, презентация, отчёт или инструкция — вы знаете, насколько это может быть сложно. Конечно, если это просто обычный текст, можно попробовать копипаст. Но представьте, что в документе есть таблицы и списки, картинки, разные шрифты и стили, сноски, заголовки — просто так скопировать и вставить не получится, многое приходится делать вручную, а это требует времени.

Кажется, эту проблему должны были давно решить. Огромное количество документов крутится между странами, в компаниях, на проектах. Перевод — это рутинная, но критически важная часть бизнес-процессов. Однако даже в 2025 году перевод документов остается вызовом. На рынке много решений, но у одних не сохраняется структура и форматирование, другие слишком дорогие или предлагают много ненужных функций, а качество перевода оставляет желать лучшего.

Мы взялись за эту задачу и решили её. 

Что такое Lingvanex Document Translator?

Это простой веб-инструмент, который переводит ваши документы быстро и без потерь. Просто загружаете файл — DOC, DOCX, ODT, PDF* (с текстом, не скан), CSV, PPTX, XLSX, XLS, RTF или TXT, выбираете нужный язык из более чем 100 доступных и получаете готовый переведённый файл с сохранением исходного форматирования и структуры.

Мы сконцентрировались на реальной задаче — быстром, качественном и аккуратном переводе документов любого формата с сохранением всей структуры и стиля. Это именно тот инструмент, который экономит часы ручной работы и помогает бизнесу быть оперативным и точным в международной коммуникации.

Как это работает?

Технически процесс разбивается на три этапа:

  1. Анализ структуры. Документ разбирается на части: блоки текста с разным стилем форматирования, таблицы, заголовки, списки. Для каждого формата — свой подход.

  2. Перевод с учётом контекста. Мы используем собственные нейросетевые модели, как и для  Lingvanex API, обученных на огромных корпусах текстов самых разных тематик: юридических, медицинских, технических, новостных и разговорных. Переводчик умеет работать с терминами, правильно обрабатывать сокращения и имена собственные, что важно для точности.

  3. Сборка документа. После перевода мы восстанавливаем исходное форматирование. Заголовки остаются заголовками, таблицы — таблицами, списки — списками, а презентации и Excel-файлы сохраняют свой оригинальный вид.

Какие форматы поддерживаем?

Вы можете загружать самые разные документы  — мы умеем работать с основными офисными форматами:

  • DOC / DOCX —  сохраняем всё: стили, таблицы, колонтитулы и даже мелочи вроде отступов или курсива.

  • ODT — переводим документы OpenDocument без потерь в структуре.

  • PDF — цифровые, с текстом или доступные для поиска. Сканированные или содержащие только изображения PDF-файлы пока не поддерживаются.

  • CSV — аккуратно переводим содержимое ячеек, при этом структура таблицы остается неизменной.

  • PPTX — переводим каждый слайд, включая текст, подписи и оформление, не нарушая структуру презентации.

  • XLS / XLSX — поддержка перевода таблиц, ячеек, чисел и формул с сохранением исходного вида.

  • RTF — базовое форматирование, текст и структура — всё будет переведено.

  • TXT — просто текст? Отлично, справимся быстро и чётко.

Качество перевода 

Когда мы говорим о переводе документов, важна не только скорость и сохранение форматирования, но и качество перевода.  Чтобы объективно оценивать наши модели, мы регулярно проводим сравнительное тестирование качества перевода между Lingvanex и конкурентами. 

В Lingvanex мы применяем как классическую метрику BLEU, так и современную контекстно-зависимую метрику COMET, чтобы объективно оценить точность и естественность перевода.

Что показывают метрики?

  • BLEU — измеряет совпадение между машинным переводом и эталонным переводом на уровне n-грамм. Значения BLEU обычно варьируются от 0 до 100, при этом показатели выше 50 считаются очень хорошими, особенно для сложных языковых пар и больших текстов.

  • COMET — более новая метрика, основанная на нейросетевых моделях, оценивающая качество перевода с учётом контекста и семантики, приближая оценку к человеческой. Значения COMET обычно представлены в диапазоне от 0 до 100, где результаты выше 90 считаются отличными.

А теперь — конкретика.

Lingvanex стабильно показывает очень высокие результаты по BLEU, превышая 50 баллов по всем языковым направлениям — что говорит о высоком качестве точности перевода. Особенно примечателен заметный отрыв при переводе на арабский язык.

По метрике COMET, которая учитывает не только точность, но и контекст, наши модели демонстрируют отличные значения выше 90 для большинства языков, что сравнимо или превосходит Google Translate. Это значит, что перевод сохраняет глубину смысла и стилистическую естественность, что критично для сложных и профессиональных текстов.

Чем это решение может быть полезно:

  • Документ не потеряет смысл и контекст даже в сложных языковых парах.

  • Перевод будет точным и готовым к использованию без длительной ручной правки.

  • Вы экономите время и ресурсы, получая профессиональный результат, который можно сразу применять в бизнесе, образовании, юриспруденции и других сферах.

Где может быть полезен переводчик документов

  1. Образовательные платформы и онлайн-школы
    Сервисы вроде Coursera, Udemy или корпоративные LMS часто содержат десятки лекций в форматах .pptx и PDF, а также субтитры в .srt. Преподавателю нужно перевести всё это на несколько языков — вручную на это ушли бы недели. File Translator позволяет справиться за часы, значительно экономя время.

  2. Юридические фирмы
    Типичный документ — объемный договор на 50 страниц с таблицами, колонтитулами, оглавлением и юридической терминологией. Ручной перевод занимает много времени и стоит дорого. Оптимальный подход: сначала черновой перевод с помощью переводчика документов Lingvanex, затем финальная вычитка профессионалом. Итог — экономия до 70% бюджета и времени.

  3. Финансовый сектор и банки
    Перевод отчетов в PDF и Excel, документов по оценке рисков, клиентских досье, инструкций по процедурам KYC. Lingvanex обеспечивает оперативный и точный перевод, соответствующий требованиям отрасли.

Первый файл можно перевести — бесплатно. Нужно больше документов для теста? Напишите мне - все сделаем

Решение для бизнеса

Если вы хотите переводить файлы без ограничений и без доступа в интернет, то у нас есть решение в докер-контейнере, которое вы можете развернуть локально у себя в компании. Интерфейс будет выглядеть также как on-line версия. Есть возможность переводить файлы через REST API.

Если хотите протестировать — пишите на мой личный ящик info@lingvanex.com. Дам до 2 месяцев демо бесплатно, сможете перевести десятки тысяч файлов на GPU типа RTX 3090. Развернете у себя на сервере и попробуете. Со своей стороны гарантирую качественный сервис и поддержку!

Итого

Я понимаю, что есть много таких бесплатных сервисов. Моя цель сделать качественный перевод файлов, где есть именно сложное форматирование и большой объем страниц. Сейчас работаем над добавлением перевода сканированных документов (OCR). Жду ваших отзывов и предложений.

Комментарии (0)