Меня немного удивила статья уважаемых специалистов по локализации, сравнивающая различные движки перевода. По-моему, и гугловский, и яндексовский переводчики, и даже DeepL уже полгода как списаны в утиль и представляют исключительно исторический интерес.

Перевожу в последнее время только нейросетями и часто даже при наивном подходе получаю нормальные результаты. Наивный подход - это зайти в ChatGPT и написать "Please translate `大型アプデ!セルフレジの導入で大富豪となったスーパーマーケット経営ゲーム` from Japanese to English".

Лучше, конечно, будет обогатить запрос и дать нейросетке возможность уточнить область поиска слов. Контекст скармливаю следующим путем:

  • Перечисляю термины и имена собственные, перевод которых мне нужен именно в определенном виде. Например говорю, что pitch accent надо переводить как "питч акцент", а не "музыкальное ударение".

  • Если надо перевести абзац литературного текста - скармливаю еще пяток абзацев, которые были рядом, заодно прибавляя преамубулу в духе "о чем произведение вообще", что "стиль автора напоминает нашего Чехова" и что "Танака в этом произведении вырос в неблагополучной семье и говорит как гопник".

  • Если надо перевести какие-то таблицы или менюшки в какой-то программе или еще чего-то спископодобное - рассказываю, на что похоже приложение и какие у него есть аналоги.

  • Если для программки есть английский и испанский ручной перевод - можно скормить оба, точность итогового русского возрастет.

  • Еще можно привести кусок хорошо написанной статьи, в которой автор описывает какие-то действия с этим приложением.

Порой проявляется интересный эффект. Пишешь запрос на английском и просишь нагенерировать чего-то на японском. Читаешь - и понимаешь, что сгенерированный текст имеет какой-то... английский акцент, что ли. Как будто учитель японского говорит с учениками, а не носитель с носителем. Учебниковский японский получается. Проблема часто решается тем, что запросы тоже делаются на целевом языке. Причем можно и на корявом японском спросить (например с помощью DeepL'a полученным) - эффект все равно будет.

Нейроговорилки неплохо умеют стилизовать речь и играть в ролевые игры. Поэтому иногда вместо сказанных сухим тоном инструкций вроде "при ответе используй лексику шестилетнего ребенка" эффективнее представиться шестилетним ребенком, сказать электронному болвану, что он тоже шестилетний и переформулировать запрос так, как сформулировал бы его шестилетка.

Стоит пробовать разные движки. Например, бубнящий себе под нос o1-preview от OpenAI не всегда справляется лучше, чем их же 4o. Возможно, потому что бубнит по-английски.

Короче говоря, было бы интересно сравнить работу не этих устаревших движков, а нескольких нейронных сеток. Начать можно с беглого поиска в Google Scholar. Если кто возьмется - тэгните меня, пожалуйста.

Комментарии (6)


  1. d-sh
    23.10.2024 13:45

    Перевод с ИИ в интерактивном режиме заметно лучше. Но вот с автоматическим много проблем. Отказы по цензуре(не обязательно порно-насилие-итп, может быть просто копирайт), лишние слова и фразы, непроизвольный переход в режим диалога когда вместо перевода начинает отвечать на вопрос из текста, ограничения по размеру ответов итд. Есть ещё странные глюки когда из за цензуры из текста незаметно убираются или переписываться слова, адреса пароли явки


    1. LeToan
      23.10.2024 13:45

      Интерактивный, это когда вы знаете , что должно получиться, и подгоняете допзапросами выдаваемые результаты под нужное? Зачем такой перевод вообще нужен?


    1. ganqqwerty Автор
      23.10.2024 13:45

      Вот это офигенное замечание. И причем ведь дальше будет хуже наверняка.


  1. un1t
    23.10.2024 13:45

    Я использую переводчики при чтении контента на иностранном языке. Я же не буду на каждую незнакомую фразу описывать задание для ИИ. Так что переводчики, которые позволяют переводить в один клик тут гораздо удобнее. И качество перевода у deepl в таком применении возможно будет лучше.


    1. ganqqwerty Автор
      23.10.2024 13:45

      Для чтения контента у меня обычно всплывающий словарик Yomitan.


  1. Alexander_Khokhryakov
    23.10.2024 13:45

    Спасибо за ваш комментарий и развернутое мнение!)

    По-моему, и гугловский, и яндексовский переводчики, и даже DeepL уже полгода как списаны в утиль и представляют исключительно исторический интерес.

    Конечно, тут можно много перебирать все "за" и "против" перевода с помощью GPT. Цель нашей статьи - обсудить именно движки перевода и технологии, с помощью которых они переводят. Для нас, как для других переводчиков, работающих в cat-системах со встроенными в них движками перевода, это актуально.
    Согласитесь, если бы МП ушел в прошлое, компании не вкладывали бы в их развитие миллионы долларов. К тому же, практически все МП сейчас содержат нейронку, тот же DeepL. Нейронка + другие виды машинного перевода в сочетании дают неплохие результаты, для совершенствования которых компаниям остаётся только одно - заниматься обучением системы ( а может и не только этим))). Возможно, такими темпами мы когда-нибудь приблизимся к идеальному переводу без помощи человека.

    Хочется упомянуть тут коллег по цеху и отправить ссылку на их публикацию с тестированием: https://t.me/bitvamachine/156

    Лайфхаки в вашей публикации тоже можно использовать, почему бы и нет))) они подходят для людей, готовых работать с промтами и описывать задания, а не для тех, кому нужно решить проблему здесь и сейчас и просто закинуть информацию в переводчик.