Машинный перевод — отличный инструмент для передачи смысла в общих чертах. С его помощью можно быстро переводить большие объемы текста сразу на несколько языков, что особенно важно для локализации в условиях ограниченного времени. Технологии машинного перевода развиваются, поэтому его качество постоянно улучшается, но точность машинного выхода напрямую зависит от целевого языка, движка и исходного текста.
Наше агентство постоянно изучает новые способы перевода и локализации и делится опытом и знаниями в этой сфере. В статье собраны рекомендации по подготовке текста к машинному переводу на основе советов IBM (Machine translation tips, вебархив). Эти рекомендации помогут оптимизировать процесс перевода и сократить время на постредактирование.
При адаптации текста к автопереводу на разные языки необходимо уделить внимание стилистике, грамматике, терминологии, пунктуации, орфографии и верстке. Просторечия, неполные предложения, неправильная пунктуация, многозначные слова приведут к ошибкам в переводе. Обо всем подробнее.
Стилистика
Составляйте короткие предложения (от 5 до 20
слов): длинные и сложные предложения, в том числе с точкой с запятой, могут стать источником серьезных ошибок при машинном переводе. В одном предложении рекомендуется описывать только одно действие. Если в предложении есть несколько глаголов, которые описывают разные действия, разбивайте такое предложение. При этом чем шире контекст, тем выше шанс получить приемлемый машинный перевод, предложение должно выражать законченную мысль.Откажитесь от незаконченных фраз: где это возможно, используйте полные предложения. Заголовки и подзаголовки должны быть краткими, точно передавать смысл текста и состоять из одной фразы, но в остальных случаях не жалейте букв. Используйте полные предложения, когда вводите в текст вертикальные маркированные списки.
Откажитесь от идиом, сленговых и жаргонных слов: заменяйте фразы, буквальный перевод которых не имеет смысла. Например, замените «из коробки» на «работает в стандартной поставке», «на лету» на «динамический», а «рыбу» — на «шаблон».
Откажитесь от шуток, сарказма, разговорных выражений, метафор. Не используйте эмотиконы.
Откажитесь от речевых излишеств: вкраплений слов, ненужных со смысловой точки зрения. Если какое-либо слово можно вычеркнуть из текста без потери смысла, то это следует сделать.
✅ Время отклика увеличивается…
❌ Следует принимать во внимание, что время отклика увеличивается…
Минимизируйте прописные буквы, не пишите фразы полностью капслоком: большие буквы дают подсказку о значении слова. Например, ВЕРА, НАДЕЖДА, ЛЮБОВЬ — три добродетели или три женских имени? Движок машинного перевода не сможет это определить.
Замените многозначные единицы текста однозначными: слова, выражения, обороты речи должны обеспечивать контекстуальную точность. Вместо «дед» лучше написать «старик», если это не чей-то кровный родственник (grandfather), а случайный прохожий (old man).
Откажитесь от местоимений: где это возможно, замените их существительными.
Не используйте страдательный залог: где это возможно, используйте эквивалентную конструкцию в действительном залоге.
✅ Мы определяем наиболее эффективный путь
❌ Определяется наиболее эффективный путь
Избегайте чувствительных тем. Потенциально оскорбительный и неприемлемый с точки зрения культуры контент может содержаться даже в стикерах и эмодзи, которые высвечиваются пользователю при наборе текста.
Уделите внимание названиям продуктов: часто их не нужно переводить, но движки этого не знают. Прежде чем использовать название продукта, убедитесь, что оно не будет переводиться. При необходимости внесите соответствующие изменения в текст или перевод.
Убедитесь, что весь текст написан на одном языке: если весь текст на английском, но в нем есть фразы или отдельные слова на французском, движок будет переводить текст с английского, а не с обоих языков. Сочетание латиницы и кириллицы в одном слове также может привести к искажению смысла.
Исключите маркетинговые слоганы: реклама всегда ориентирована на определенную целевую аудиторию, в рекламном сообщении актуализируются свойственные целевой аудитории культурные ценности. Откажитесь от таких слоганов, поскольку у движков, скорее всего, возникнут проблемы с их переводом.
Соблюдайте синтаксическое единообразие в перечнях: передавать однородные члены необходимо с помощью одинаковых частей речи. Например, если один пункт начинается с глагола, все остальные пункты также должны начинаться с глагола.
«Локальные устройства способны:
- анализировать структуру трафика,
- определять активные приложения в сети,
- оценивать производительность приложений по каждому потоку.»
Откажитесь от слов «пожалуйста» и «спасибо»: в некоторых культурах эти слова, которые часто употребляются между делом как формула вежливости, имеют сакральный смысл.
Оформляйте даты в нечисловом формате: числовые форматы дат различаются в зависимости от страны (ДД/ММ/ГГГГ в Великобритании vs ММ/ДД/ГГГГ в США vs ГГГГ/ММ/ДД в Корее, Китае, Иране), поэтому 01.09.03 может означать как 1 сентября 2003 года, так и 9 января 2003 года и 3 сентября 2001 года.
✅ 1 сентября 2003 года
❌ 01.09.03
Грамматика
Соблюдайте правила пунктуации: пропуск точек и запятых может привести к неправильному толкованию информации движком машинного перевода.
Убедитесь, что существительные согласуются с глаголами по лицам, родам и числам.
Используйте глаголы настоящего времени: во многих языках у глаголов нет таких признаков, как залог и время. Где это возможно, замените глаголы будущего и прошедшего времени.
✅ При запуске программы появляется сообщение об ошибке
❌ При запуске программы появится сообщение об ошибке
Убедитесь, что местоимения согласуются с существительными по роду, числу и падежу.
Уделите внимание позиции определений, дополнений, обстоятельств: они должны стоять рядом с главными словами, а не отдельно от них. Не допускайте разрыва сочетаний, то есть не нарушайте порядок слов.
✅ При вводе команд вы не получаете никаких сообщений от программы
❌ При вводе команд программа не отправляет никаких сообщений вам
Откажитесь от конструкций усиления отрицания: например, «никогда не» можно заменить на «всегда».
Ограничьте использование причастных, деепричастных, инфинитивных конструкций: замените их придаточными предложениями. Движку сложнее проанализировать причастные и деепричастные обороты и инфинитивы и подобрать для них точные варианты перевода.
Не нанизывайте падежи: не используйте словосочетания из трех и более существительных подряд («условий фильтрации мастеров экспорта памяти переводов»).
Не используйте слова, которые можно отнести к разным частям речи: некоторые слова, например «простой», могут быть одновременно существительными и прилагательными, что характерно не для всех языков. Если такие слова все же присутствуют в тексте, они должны быть выражены одной частью речи.
Не используйте различные синтаксические элементы в качестве однородных: например, глагол и существительное не могут выступать в роли однородных членов.
«Потребности включают в себя следующие:
- для поддержки процессов разворачиваются основные приложения;
- IP-телефония;
- мобильность.»
Вставьте, где необходимо, пропущенные слова.
✅ Названия файлов отображаются прописными буквами, а расширения файлов отображаются строчными буквами.
❌ Названия файлов отображаются прописными буквами, а расширения файлов — строчными.
Не опускайте подчинительные союзы (когда, что, чтобы, если и т. д.).
✅ Мы заметили, что страница отображается некорректно.
❌ Мы заметили: страница отображается некорректно.
Не выделяйте тире пояснения и дополнения в середине предложения: используйте запятые вместо тире или видоизменяйте текст.
✅ Если страница отображается некорректно, текст съезжает или перекрывает фото, обновите страницу.
❌ Если страница отображается некорректно — текст съезжает или перекрывает фото — обновите страницу.
Терминология
Используйте терминологию последовательно: описывайте одни и те же объекты одними и теми же терминами по всему тексту. Не применяйте для одного и того же понятия различные, близкие по смыслу термины (синонимы).
Приводите пояснения к специфическим терминам.
Не используйте понятия, значения которых могут меняться в зависимости от контекста: к ним относятся, например, «отечественный» и «зарубежный».
Соблюдайте правила употребления прописных букв, расстановки переносов, словообразования.
Пишите с заглавной буквы только имена собственные.
Откажитесь от специальных символов: значения некоторых из них могут меняться в зависимости от контекста. Например, октоторп (#) используется не только как знак номера, но также как знак фунта.
Замените сокращения и аббревиатуры полными словами, названиями или словосочетаниями: движки машинного перевода распознают далеко не все общепринятые сокращения.
Пунктуация
Не используйте косую черту в сочетаниях «и/или», то есть как знак альтернативности понятий: перепишите предложение так, чтобы оно читалось однозначно и легко.
✅ Изготовитель и адрес производства
❌ Изготовитель и/или адрес производства
Не указывайте изменяемые окончания в скобках: используйте фразу «один или более», пишите слово сразу во множественном числе, перефразируйте текст.
✅ Даю согласие
❌ Я согласен(-на)
Не используйте амперсанд (&) вместо союза «и».
Используйте запятые при перечислении.
✅ Какова сфера вашей деятельности в данный момент (учеба, работа, фриланс)?
❌ Какова сфера вашей деятельности в данный момент (учеба работа фриланс)?
Орфография
Убедитесь, что в тексте нет орфографических ошибок: слова с ошибками приведут к искажению смысла в переводе.
Соблюдайте единообразие в написании слов: убедитесь, что термины, сокращения и имена собственные всегда пишутся одинаково, включая прописные и строчные буквы.
Верстка
Преобразуйте изображения в редактируемый текст.
Откажитесь от выделения курсивом, подчеркиванием, полужирным, цветом и прочей разметки.
Машинный перевод без постредактирования может подойти для второстепенных материалов: базы знаний, справки, статей в FAQ, техподдержки, чата с саппортом на лету, комментариев и отзывов. Ожидания по качеству у пользователей такого контента ниже. В остальных случаях к вычитке машинного перевода рекомендуется привлекать постредактора.
Слабых мест у машинного перевода пока много:
· грамматика (нарушение согласования в падежах, числах, родах, временах);
· синтаксис (порядок слов и структура предложений, несвойственные для языка);
· орфография и пунктуация (употребление диакритических знаков, апострофов, заглавных букв);
· терминология (неверное употребление терминов в тексте, несоблюдение единообразия терминологии);
· смысл и точность перевода (неправильный перевод, опущения, добавления, повторы, машинные неологизмы);
· стиль (смешение стилей, буквальный перевод, сухой информативный язык, который не передает образность);
· форматирование (теги, переменные, ссылки, некорректное отображение знаков);
· зоны локализации (форматы даты и времени, денежные величины, единицы измерения).
Еще одна проблема машинного перевода: на некоторые языки он выполняется через «языки-посредники», так как параллельных текстов все еще недостаточно для обучения движка. Перевод с иврита на русский может выполняться через английский, при этом африканское государство Togo превращается в «Идти».
ИТОГО
Соблюдайте основные требования к изложению при написании текста: хороший перевод начинается с качественного исходного текста.
Выполняйте предредактирование, или подготовку текста к машинному переводу: исправляйте грамматические, пунктуационные и орфографические ошибки в исходном тексте, устраняйте многозначность и упрощайте синтаксическую структуру.
Обращайтесь к постредакторам, если машинный перевод нужно вычитать и отредактировать: эта услуга называется MTPE или PEMT, постредактирование машинного перевода.
Выполняйте тестирование локализации, или LQA: тестировщики вычитывают текст в готовом продукте, фиксируют проблемы и описывают их решения в отдельных файлах или программах.
Разбирайте обратную связь от пользователей: опыт показывает, что не все обращения по проблемам перевода связаны с ошибками, но этот инструмент внешнего контроля качества не стоит недооценивать.
Материал публикуется в целях ознакомления.
Комментарии (3)
E_I_P
01.06.2024 08:12Я читал, что в штаб-квартире НАТО уже приблизительно 50 лет используется машинный перевод документов на 5 языков. Наверняка им пришлось рассматривать те же проблемы.
makushevkm
01.06.2024 08:12Полезная статья. Многие советы отсюда полезны не только для улучшения машинного перевода, но и в целом справедливы для хорошего текста.
AlexM2001
Мария, спасибо за интересную публикацию!
Перевожу довольно много технической документации.
Я не лингвист/филолог.
Насколько понимаю качество машинного перевода зависит в т.ч. насколько хорошо формализуется язык. Насколько однозначны правила склонения, спряжения и т.д. в данном языке.
Например немецкий для машинного перевода очень сложный язык.