Привет, Хабр! Меня зовут Иван Чаплыгин и я руковожу отделом переводов в компании КРОК. Сегодня расскажу про пять основных барьеров на пути к повсеместному внедрению искусственного интеллекта и машинного перевода в масштабах крупной компании, и о том, как их можно обойти. Предлагаю сразу оставить за скобками проблему качества перевода как таковую и поговорить о более земных насущных вещах — как лучше использовать ИИ и что нужно продумать заранее, чтобы не наломать дров. Причем некоторые пункты касаются не только перевода, но вообще любой деятельности, которую мы автоматизируем с помощью ИИ. За подробностями добро пожаловать под кат.

Последние лет десять мне говорят, что машинный перевод становится все лучше, и да, с этим не поспоришь. Кто-то превозносит машинный перевод и особенно ИИ, кто-то всячески критикует, кто-то его опасается, но при этом все тихой или не очень тихой сапой пользуются плодами технического прогресса. Очевидно, что современные технологии ускоряют работу переводчика, особенно в отраслевом переводе (про художественный перевод судить не берусь), однако всеобщая эйфория (она же — страх потерять работу) немного преждевременная. К сожалению, а в моем случае, скорее, к счастью, о полной автоматизации речь не идет, хотя существенно повысить производительность можно уже сейчас. Итак, что же нам мешает полностью все автоматизировать, и как обойти барьеры на пути в светлое цифровое будущее.

Барьер №1. Доступность сервисов и объем переводов 

Так уж сложилось, что в настоящий момент ряд переводческих сервисов недоступен в России. В частности, DeepL, Gemini и последнее поколение ChatGPT. Те же, что по-прежнему доступны, в большинстве своем не готовы обрабатывать большие документы. Отделу переводов вряд ли будет интересен перевод одного абзаца или, скажем, тысячи слов. Часто нужен перевод нескольких сотен страниц за раз. Поэтому ChatGPT пусть и не в последнем поколении, хотя неплохо переводит, с большим объемом не поможет. Итак, какие у нас варианты, помимо очевидного использования VPN?

  1. Под небольшие тексты подойдет ChatGPT и DeepSeek, а также движки на основе нейросетей, например, machinetranslation.com/ru. В частности, последний агрегирует ответ из нескольких ИИ сразу. Вы отправляете текст на перевод, и сервис предлагает как практически дословный перевод, так и варианты перевода от Claude, Gemini, ChatGPT, Grok и Libre. При этом продолжить обсуждение с любой из этих нейросеток нельзя. Ограничение по объему перевода: 100 тыс. слов в месяц в бесплатной версии и 250 тыс. в платной. Подгрузить целый документ тоже не получится. В целом удобный сервис, чтобы сравнить разные варианты перевода. Но результат весьма посредственный, возможно, потому что вы вставляете только текст на перевод, но не можете отдельно прописать промпт. 

  2. С той же задачей (перевод пары абзацев) DeepSeek справляется на порядок лучше, потому что в отличие от machinetranslation.com/ru тут можно написать промпт и продолжить редактирование перевода в чате. При попытке загрузить документ на 14 тыс. слов DeepSeek неплохо перевел первые 600 слов, остальное проигнорировал. Зато после указания на неудачные места немного улучшил текст, пусть и не кардинально. По сути, с самыми трудными местами, вызывающими затык у «белкового» переводчика, нейронка не справляется, по крайней мере пока. С учетом удобного (имхо) веб-интерфейса для небольших текстов я бы использовал DeepSeek. 

  3. Кроме того, в РФ доступен google translate и движки на его основе, например, onlinedoctranslator.com. Хотя Google уже успел прикрутить искусственный интеллект к своему движку машинного перевода, на больших объемах (больше трех абзацев) это по-прежнему не ИИ, а, скорее, классический машинный перевод, т.е. не такой гладкий, как у ИИ, но зато без галлюцинаций. Так что если нужно быстро отдать большой объем не глядя, то хотя это всегда «кот в мешке», google translate имхо безопаснее, т.к. в отличие от ИИ лишен воображения и посему не мудрствует лукаво. В google translate можно переводить бесплатно и без ограничений, что на сегодняшний день в России делает этот движок предпочтительным вариантом.

  4. Несомненный плюс onlinedoctranslator.com, движка на основе google translate — способность переводить большие объемы текста, сотни страниц (в случае текста в MS Word) за раз. Есть чисто технические ограничения на количество страниц в переводимом документе (в случае PDF не более 60 страниц за раз) и на размер файла (5–10 МБ максимум), при этом сервис сохраняет исходное форматирование или почти сохраняет, что тоже безусловное благо. А техническое ограничение можно обойти, если сначала разбить файл PDF на части, перевести все части одна за другой и потом склеить файл обратно. Поэтому для больших объемов это самый оптимальный вариант. Опять-таки «кот в мешке», но если вам нужен нормальный перевод, его в любом случае придется отдать на проверку человеку.

Барьер №2. Единообразие терминов и аббревиатур 

Наверняка вы замечали, что машинный переводчик вариативно подходит к переводу терминологии. И с увеличением объема текста проблема усугубляется. Помимо собственно переводческой проблемы, когда ОС переводится где-то как OS или operating system (т.е. операционная система), а где-то как FA или fixed assets (т.е. основные средства), есть и чисто организационная, структурная проблема — когда перевод-то правильный, но это термин, и он должен везде переводится одинаково. Например, АСУ ТП – автоматизированная система управления технологическими процессами. Можно взять (automated) process control system, можно аббревиатуру PCS или APCS, а можно SCADA. Хорошая новость в том, что проблема лечится. 

В ChatGPT можно указать, какие термины использовать, такая же опция есть в DeepSeek. Но какие именно термины задавать для ИИ? Вот это придется смотреть вручную. Вряд ли имеет смысл вытаскивать термины из текста до перевода — просто вы же не знаете, какие именно термины и как ИИ переведет и где будет вариативность. Логичнее сначала сделать перевод, посмотреть, где поплыла терминология, и уже потом составить список терминов и заново прогнать через ИИ. Но в любом случае какая-то доля ручного труда здесь остается. Каждый раз вводные придется задавать вручную – либо до перевода, либо, что вероятнее, после. И тогда придется переводить повторно.

Барьер №3. Адекватность исходного текста

Я бы сказал, что это главный барьер на пути автоматизации перевода. На мой взгляд, пока тексты пишут люди, переводить их тоже будут люди. По ходу перевода у коллег-переводчиков практически всегда возникают вопросы к исходному тексту. То смысл не понятен, то предложение оборвано, то опечатка, то аббревиатура странная, то двусмысленность и возможно несколько вариантов толкования. Таких вот «то» может быть воз и маленькая тележка, и все это потенциальные места, где есть риск, что ИИ споткнется или ошибется, потому что у него нет пока возможности вопросы автору задавать. Решение тут пусть и обходное, но простое: не надо делать одну и ту же работу дважды. 

Поэтому мы сначала делаем машинный перевод исходного текста без каких-либо корректировок на берегу, а потом уже редактируем перевод, сверяя его с оригиналом и задавая вопросы автору. При наличии обтесанного полена в любом случае Буратино получается быстрее, а в зависимости от запроса заказчика степень обтесанности и глубину редактуры можно варьировать. 

Барьер №4. Проблема эксперта в эпоху ИИ

Еще один барьер на пути автоматизации перевода тоже связан с человеческим фактором. Я называю его «проблемой эксперта». Тут есть два момента.

Во-первых, даже если ИИ все правильно перевел, чтобы подтвердить это и удостовериться, что все нормально, проверяющий сам должен быть экспертом в конкретной теме. Допустим, скормил я в ChatGPT текст про Kubernetes. Если я сам не разбираюсь в Kubernetes, то как я пойму, нормальный перевод сделал условный ChatGPT или нет? 

Во-вторых, предположим, что ИИ все правильно перевел и сделал это несколько раз подряд, и, о чудо, проверяющий не нашел ни одной ошибки. Пока такое сложно представить, но думаю, теоретически это возможно. Допустим, все так и условный ChatGPT — реально молодец. Готов ли будет бизнес не глядя подписать, например, договор, переведенный через ИИ, особенно если в нем преобладающую силу будет иметь версия на неродном для топ-менеджера языке? В какой момент бухгалтеры, юристы, технические архитекторы, разработчики, и, что главнее всего, топ-менеджеры компании будут (морально и эмоционально) готовы брать результат, выданный искусственным интеллектом, и использовать его «как есть» без дополнительной проверки экспертом. У меня нет ответа на этот вопрос и я не уверен, что он вообще у кого-то сейчас в мире есть. В каком-то смысле это тоже не проблема ИИ, а опять пресловутый человеческий фактор.

Универсального решения здесь нет. Если проверяет переводчик, ему надо прокачивать технический бэкграунд, погружаться в конкретную тему. Если проверяет технический специалист, ему бы неплохо знать оба языка на достаточно высоком уровне. Главное — не забывать, что как бы ни работал ИИ, ответственность за результат все равно на человеке.

Барьер №5. Конфиденциальность

Большие языковые модели, на которых работает ИИ, – удовольствие не из дешевых. Для них нужна серьезная инфраструктура, куча ресурсов, причем не только человеческих, но также электричество, охлаждение и проч. Далеко не всякая компания может себе позволить такую установку в локальной инфраструктуре. Да и нужно ли? Разумно ли, рентабельно ли держать и поддерживать свой собственный движок ИИ on-premise ради одного перевода с английского? Дешевле держать отдел из в меру компетентных homo sapiens. Если, помимо перевода, с ИИ можно будет еще кучу всего полуавтоматизировать, то, возможно, игра стоит свеч, но точно вам сейчас опять-таки никто не скажет, потому что хайпа много, а конкретики пока гораздо меньше. 

Если не разворачивать ИИ в локальной инфраструктуре, а пользоваться онлайн-сервисами (все из пункта 1 в начале статьи — это онлайн-сервисы), то в полный рост встает проблема конфиденциальности данных. Провайдеры, конечно, пишут, что, мол, ваш текст никуда не пойдет и через час мы его удалим, но вы точно готовы поверить им на слово? Когда на кону выигрыш тендера на миллионы долларов, конкуренты готовы на все. Почему бы не приплатить немного одному не самому добродетельному сотруднику в штате провайдера? Он сольет документ конкуренту, тот поставит цену на пару тысяч ниже и получит вожделенный контракт. Тут все способы хороши. И чем ставки выше, тем конкуренты менее разборчивы в средствах. В общем, риск утечки данных налицо. 

Можно ли нивелировать эти риски? В принципе, можно. Если речь про перевод, то перед тем как отправить текст в онлайн-сервис, мы просим коллег-менеджеров или сами по их инструкции вырезаем из текста всю конфиденциальную информацию: имена, явки, пароли, названия, деньги – вообще все, что может хоть как-то идентифицировать участников сделки. Тут все просто: совместно с заказчиком перевода определяем, что у нас является конфиденциальной информацией. Составляем список того, что нужно заменить. Затем, например, берем название заказчика и через Ctrl +H меняем его во всем тексте на уникальный набор букв и символов, который точно не возникнет в тексте после перевода, например, vv**rt. А уже после перевода опять через Ctrl + H меняем все обратно.  

Заключение

ИИ помогает человеку (в моем случае, переводчику), но не заменяет его. Не заменяет не потому, что ИИ плох, а потому, что человек слишком специфическое животное и у него столько тараканов в голове и скелетов в шкафу, что аж диву даешься. А про то, что знать язык и уметь с него переводить – это не одно и то же, я подробно, в красках и временами даже с огоньком пишу в телеграм‑канале «X‑ren переведешь».

Комментарии (5)


  1. Vera_Borodko
    30.07.2025 08:22

    никогда не думала про Барьер 4. спасибо


    1. agrio_chivas Автор
      30.07.2025 08:22

      Это да, как-то сразу не думаешь об этом. А задашь вопрос ChatGPT, он тебе что-то ответит, и потом все равно приходится идти гуглить или технического эксперта трясти, чтобы удостовериться, что ИИ тебе не соврал по доброте душевной. Зато справедливости ради надо сказать, что ответ ИИ может натолкнуть на интересную мысль, которая даже в голову не приходила, и помочь начать думать или искать в правильном направлении.


  1. Demanih
    30.07.2025 08:22

    Не только google translate позволяет переводить онлайн большие объёмы текста за раз, есть и наш Яндекс https://translate.yandex.ru/doc качество перевода на уровне (если не выше) google translate.


    1. agrio_chivas Автор
      30.07.2025 08:22

      Пробовал несколько раз яндекс-переводчик. Мне показалось, что он сильно проигрывает по качеству google translate, но, возможно, мне просто не повезло и стоит попробовать еще раз.


  1. rapidstream
    30.07.2025 08:22

    У меня возник когнитивный диссонанс между "машинный перевод в масштабах крупной компании" и ручной загрузкой вордовских документов на разные сайты для перевода.

    А где интеграция с CMS и PIM, автоматизация, использование памяти переводов, использование банков терминологии, корректура, ревью, пост-редактура и прочие признаки переводов в энтерпрайзе?

    Без обид, но то, что вы описали выглядит колхозом, особенно с ручной анонимизацией текста. У вас какие объёмы проходят через отдел, что вы по Ctrl+H его туда-сюда меняете?