Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. 

За последний год мы сильно переработали наше API переводчика, сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с  Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод.

Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060.

Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Стоит отдельно отметить результаты тестов  на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.

В таблице качество перевода сравнивается по 2 метрикам - BLEU и COMET.


BLEU — давний стандарт для тестирования качества перевода. По умолчанию будем использовать версию SacreBleu. Эта версия используется в конференции по машинному переводу WMT и различных международных соревнованиях. Мое мнение: метрика BLEU устарела и не может учитывать ситуации, когда в переводе используются синонимы. Поэтому, для нашей команды приоритет отдается метрике COMET, как наиболее точно коррелирующей с оценкой, которую бы дал человек.


COMET — метрика, разработанная для решения проблемы сравнения синонимов, с которыми не справляются метрики, основанные на символьном сравнении двух строк. Если результатом перевода будет похожая по смыслу фраза, но описанная другими словами, то метрика покажет похожие результаты. Стоить отметить, что ее результат также будет зависеть от разнообразия языкового корпуса, на котором будет построен классификатор для сравнения. Данная метрика широко используется, как альтернатива метрике BLEU.

Еще один пример для сравнения качества перевода английско- испанской пары.

Где применяется API перевода

  1. Описания товаров в интернет-магазинах (отелей, каталога недвижимости и др). После того, как переведенные страницы проиндексированы поисковиками, можно получить дополнительный трафик, иногда очень много.

  2. Аналитика данных на разных языках. Сначала данные переводятся на один из языков и потом анализируются другими алгоритмами. Например: финансовых новостей, отзывов, комментариев.

  3. Как интеграция функции перевода в другие приложения. Например в браузер, для перевода веб-страниц.

  4. Для интеграции в системы поддержки пользователей.

  5. Перевод новостных ресурсов и форумов.

Почему стоит использовать нас?

  1. Качество перевода на уровне конкурентов, а в некоторых языковых парах оно их превосходит. Тут зависит от направления перевода. Не существует переводчика, который одновременно лучше на всех языковых парах и тематиках. Поэтому надо выбрать под свою задачу.

  2. Цена API составляет $5 за миллион символов. Но если у вас большие объемы, можем сделать $1 за миллион символов.

  3. Стабильность работы. За месяц у нас Uptime - 99.9452%, за год - 99.9352%. Например Google Translate API гарантирует 99.9% в месяц.

  4. Безопасность. Мы гарантируем, что данные наших пользователей удаляются сразу после завершения перевода. Мы не храним переведенные данные и не используем их для обучения наших моделей. Наши процессы полностью соответствуют требованиям GDPR и CCPA.

  5. Качество технической поддержки. Я ценю своих клиентов и как руководитель компании, постоянно смотрю за уровнем сервиса, чтобы все были максимально довольны. По любым вопросам мне можно написать на почту, которую я смотрю каждый день с 8 утра до 24, без праздников и выходных. 

Как подключить API за 5 минут

  1. Перейдите на https://lingvanex.com/ru/products/translationapi/

  2. Зарегистрируйтесь и получите API-ключ

  3. Используйте документацию 

Как это выглядит технически

Вот пример запроса:

{

 "platform": "api",

  "from": "en_GB",

  "to": "es_ES",

  "data": "Hello my dear friend."

}

И ответ:

{

  "result": "Hola mi querido amigo."

}

Локальное решение:

У нас есть возможность развернуть докер с REST API переводчика локально на ваших серверах. Достаточно любого GPU, работает очень быстро и без доступа в интернет.

  1. Для больших объемов. Если вам нужно переводить неограниченно большие объемы текста, файлов, аудио, сайта по фиксированной цене. Например от миллиона веб-страниц в день.

  2. Для максимальной конфиденциальности. Если вы банк, госструктура или работаете с конфиденциальной информацией - то это решение для вас. Полный контроль над вашими данными.

Для всех читателей Хабра

  1. Для теста перевода API могу дать 30 миллионов символов для перевода на 6 месяца бесплатно. Если нужно больше - пишите. 

  2. Также могу дать сервер переводов на тест на месяц. Это продукт, над которым я, как инженер, работал более 6 лет и надеюсь он вам понравится с точки зрения масштабируемости, скорости и функциональности.

Комментарии (4)


  1. undersunich
    14.05.2025 13:11

    Нужен синхронный перевод языков в реальном времени для встраивания в видеоконференции, видеомитинги и т.д. У Вас есть такое? Если нет сделайте и напишите статью - очень всем надо !


    1. Aliaksei_Rudak Автор
      14.05.2025 13:11

      Давайте попробуем интегрировать его в конференции. Расскажите ваш кейс. Написал вам в личку


  1. mikenerevarin
    14.05.2025 13:11

    Как дела с Европейским Португальским? Хотел бы потестить для своего пет-проекта, ценник у Deepl в 20$/миллион кусается, пока живу на nllb-200-distilled-1.3B, но качество хромает


    1. Aliaksei_Rudak Автор
      14.05.2025 13:11

      Написал вам в личку