Привет, Хабр! Мы с ребятами из Smartcat решили сойти с ума и попробовать перевести на английский все посты, которые были опубликованы здесь до 19 июля 2017 года, а потом оценить, сколько это будет стоить в среднем, если будет переводить Человек VS Машина. Под катом вы узнаете, что у нас из этого получилось.



Без лишних вводных передаю слово scalywhale из Smartcat.

8 729 613 слов


Или 62 397 253 символов — столько текста всего на сайте habrahabr.ru.

Самая распространённая практика среди наших клиентов (в основном это переводческие компании): сначала текст переводят, затем его проверяет редактор, а потом ещё правит корректор. Давайте оставим только этап перевода, так как скорость доставки контента прямо пропорциональна его ценности, да и на Хабре вряд ли все тексты проходят столько итераций.



2500 слов в день — с такой скоростью может в среднем работать переводчик, а значит без выходных и отпуска он управился бы с переводом всего Хабра за 9 лет и 6 месяцев. За это время переводимые тексты потеряют актуальность, плюс к ним добавятся новые, а переводчик, скорее всего, сойдёт с ума.

Переводит Человек


Опытный переводчик-носитель английского берёт в среднем $0,08 (4,80 ?*) за слово, получается $698 369 (41 874 973,45 ?). Без учёта расходов на управление процессом.



Попробуем побыстрее — пусть за проект возьмутся сразу несколько переводчиков, в Smartcat над одним проектом и даже документом можно работать всем вместе одновременно. Соберём команду из 50 человек, их общая производительность составит 125 тыс. слов в день. Значит, сам перевод займет 70 дней, а стоимость останется прежней. Прибавим сюда две недели на поиск подходящих нам кандидатов и тестирование, причём это самый минимум.



SMT vs NMT


Так, давайте попробуем разделаться с задачей ещё быстрее и использовать машинный перевод. Технология, которая, по мнению большинства пользователей интернета, нужна только что-нибудь быстренько и дословно перевести, за последнее время стала переводить так хорошо, что индустрия переводов всерьез обратила на нее внимание. Стоит только вспомнить новости в конце 2016 года, когда сначала появилась новость о том, что переводчик от Microsoft теперь работает с помощью нейронной сети, а потом вышла статья от The New York Times, в которой они рассказали о том, что Google Translate научился переводить тексты почти как человек.

Раньше движки машинного перевода использовали алгоритмы на основе правил и статистических моделей, полученных из больших объемов двуязычных текстов, поэтому она называется Statistical Machine Translation (SMT). Новая технология использует искусственную нейронную сеть, которая самостоятельно изучает глубинные связи в языках на уровне целых предложений, а не отдельных фраз, и на их основе генерирует более точные и хорошо читаемые переводы.

Переводит Машина


В общем, в дело вступает машинный перевод. Для наглядности возьмём эту статью с Хабра объёмом 842 слова. Живой переводчик управится с ней примерно за три часа и попросит $67,4 (4041,38 ?). Давайте облегчим ему работу и одновременно сэкономим. Перевод доверим машине, а редактуру — человеку.

Такой метод перевода называется постредактированием и требует особых навыков. Постредактор должен не только владеть языком, но и понимать, как работает машинный перевод.

Итак, подключаем машинный перевод и ищем постредактора через наш сайт Smartcat. Заливаем вордовский документ с текстом статьи и ставим галочку предварительного перевода через Microsoft Translator. На сайте можно не только переводить, но и искать фрилансеров-переводчиков со всего мира, в том числе постредакторов с родным английским.



Услуги постредакторов стоят дешевле, чем услуги переводчиков. Мы нашли девушку-фрилансера, которая просит $0,022 (1,32 ?) за слово. В сумме перевод текста обходится в $18,5 (1109,28 ?). По словам самой постредакторки, она справилась с задачей быстрее, чем если бы переводила сама — за 2 часа. В качестве движка машинного перевода мы использовали платную версию Microsoft Translator, которая должна переводить лучше. Пересчитаем цифры по тарифу S1:



В итоге перевод по такой схеме выходит на 75% выгоднее и на треть быстрее. Получается, если использовать машинный перевод и нанять 50 постредакторов, то весь Хабр можно перевести за 48 дней за $192 675 (11 553 004,94 ?).

Мнения


Так ли однозначно эффективно использование машинного перевода в профессиональной сфере? Мы собрали для вас несколько мнений от наших клиентов.

Алексей Дягтерев, руководитель платформы электронных торгов B2B-Center, говорит о том, что они стремятся привлечь на площадку иностранные компании. Раньше на английский переводились вручную лишь тексты самых значимых процедур, около 10% от всех лотов. Теперь благодаря машинному переводу международной аудитории доступны заголовки и описания всех 5000 лотов, публикуемых на площадке ежедневно. Качество перевода приемлемое — его достаточно, чтобы узнать информацию и затем уточнить подробности.

«Благодаря машинному переводу и интеграции с системой Smartcat рутинные операции выполняются в автоматизированном режиме, а эффективность использования квалифицированных сотрудников значительно повысилась».

Фёдор Безруков, руководитель отдела одной из крупнейших российских переводческих компаний Logrus IT, утверждает, что толк от новой технологии есть, но не всё так просто.

«Недавно мы получили срочный заказ на перевод технического текста объёмом 900 слов с русского на английский. Подключили сразу три движка машинного перевода — статистический (SMT) и нейронный (NMT) от Microsoft и статистический от Google. А для проверки стилистики и грамматики — ещё и плагин Grammarly. Майкрософтовский NMT и гугловский SMT выдавали наиболее удачные переводы. Перевод был готов за 1 час 40 минут, процесс контролировал переводчик. Получается, мы добились производительности ?500 слов в час».

По словам Фёдора, разница между статистическим и нейронным машинным переводом заключается в том, что нейронные переводчики выдают гораздо более связный текст, но таят опасность: результат может оказаться хорошо читаемой бессмыслицей.

«На данном этапе мы предпочитаем использовать выдачу нескольких движков, чтобы комбинировать преимущества каждого и нивелировать недостатки. Когда NMT-движки можно будет тренировать и обучать терминологии на лету, процесс выйдет на качественно новый уровень».

Недавно к нам обратились коллеги из Weebly, которые решили локализовать свой продукт на 13 языков. Нам сразу стало понятно, что проект не только масштабный, но и сложный — текстовый контент сайта распределён по системе и хранится в разных форматах, плюс он постоянно меняется и обновляется. Нашлось элегантное решение: благодаря интеграции сайта Weebly через API тексты без лишних усилий обрабатывались, переводились и передавались обратно на сайт. Чтобы ускорить работу, над переводом на каждый из языков работала команда из 5—10 человек, а это добрая сотня переводчиков. Мы активно применяли машинный перевод — чтобы перевод шёл быстрее и для проверки текстов на разных языках на макете.

«Команда Smartcat поддерживала нас на каждом этапе. Всякий раз, когда возникали вопросы или вдруг появлялись новые задачи, мы могли рассчитывать на то, что ребята помогут или поделятся опытом. Благодаря Smartcat мы смогли качественно и в сжатые сроки локализовать сайт Weebly на 13 языков, эффективно управляя процессом на каждом этапе: начиная с поиска переводчиков и распределения задач и заканчивая управлением данными и интеграцией в проект автоматизированных решений». Николас Олуча Санчес, менеджер по локализации в Weebly.

«Проект Weebly оказался непростым, а значит интересным. В Smartcat мы развиваем переводческое сообщество и создаем умные технологии, давая возможность компаниям с легкостью масштабировать бизнес. С нами вы можете легко найти исполнителя или собрать целую команду, комбинировать движки машинного перевода, подключать глоссарии и память переводов, а если работы много — всё сделаем за вас. Мы любим сложные задачи, если у вас такие есть — пишите!» Сергей Андреев, менеджер продукта в Smartcat

*Во всей статья конвертация $ в ? по курсу ЦБ РФ на 10 августа 2017 года. Данные с сайта.

Об авторе


Павел Доронин — любит локализацию, переводы и всё, что с этим связано, и работает над созданием лучших инструментов для этого. А ещё любит электронную музыку и синтезаторы (после работы). #i18n #l10n #xl8n

Комментарии (54)


  1. Shtucer
    10.08.2017 15:05
    +9

    Вот всё отлично: посчитали слова, буквы, время, деньги. Словом, все что поддается исчислению… где и как оценить качество перевода? Стоит оно того? Мнения под катом? Окееей, Гугл.


    1. Labadabadubdub
      10.08.2017 15:37
      +14

      Если «Мы… решили сойти с ума и ...» — это русский вариант «We decided to go crazy and ...», то уже как бы понятно.


      1. lostpassword
        10.08.2017 20:55

        А какой вариант вам кажется корректнее?


        1. yorko
          10.08.2017 22:42
          +17

          Упороться


    1. HEKOT
      11.08.2017 08:36
      +4

      image


      1. Chupaka
        11.08.2017 09:55
        +14

        Хорошо, что не Language in the father in law :)


        1. zif
          11.08.2017 14:40
          +3

          Или не «tongue in the father in law»!


      1. khim
        11.08.2017 12:27
        +1

        Можно подумать люди таких ошибок не делают. «Meet on swords» (sic!) как перевод названия блюда «мясо на шпажках» мы в ресторанном меню наблюдали лет 10 назад — тогда о машинном переводе никто не задумывался.


        1. andrejev
          11.08.2017 15:43

          prompt уже тогда был. Им активно делали перевод игр и описание к ним.


          1. khim
            11.08.2017 16:28

            Prompt бы никогда не перевёл «мясо» как «meet» — это чисто человеческая ошибка.


        1. Andrey_911
          11.08.2017 18:05

          А вы различаете профессиональных переводчиков и… официантов ресторана… 10 лет назад? Тогда уже хорошо, что Перевели текст, а не транслитом написали типа «мит он свордс» )


  1. Umed
    10.08.2017 15:23
    +9

    Надо учитывать тот факт, что некоторый процент статей составляют переводы англоязычных статей.


    1. Cloud4Y
      10.08.2017 15:58
      +2

      Около 12,5% было помечено тегом «Перевод» (проводили анализ в апреле)
      Интересно посмотреть на текст, который переведён из перевода и сделать сверку.


      1. profesor08
        10.08.2017 21:55
        +8

        Полагаю что-то типа того:

        Интересно посмотреть на текст, который переведён из перевода и сделать сверку.

        It's interesting to look at the text that is translated from the translation and make a reconciliation.

        Интересно посмотреть на текст, который переводится с переводом и выносить примирение.


      1. Schvepsss Автор
        11.08.2017 10:04

        Спасибо.


      1. scalywhale
        11.08.2017 11:34

        Это, кстати, довольно распространённый способ проверить качество, а также выявить различные узкие места в исходном тексте и переводе.


    1. Schvepsss Автор
      11.08.2017 10:04

      Отличная идея. Поговорим со Smartcat, может быть сделаем UPD статьи.


  1. neverovski
    10.08.2017 15:44
    +5

    Согласен, как оценить качество перевода?


  1. anfield343
    10.08.2017 15:55
    -4

    Лично я не вижу большого смысла тратить столько времени и сил на перевод, уж лучше переводить новые статьи, а старые, если кому-то очень нужно переведет сам. ИМХО.


    1. TimsTims
      10.08.2017 23:13
      +1

      Ну удачи вам в переводе нужных вам статей с китайского языка :)


      1. aelaa
        11.08.2017 11:26

        Статьи (как минимум технические) с китайского языка переводятся в разы проще чем с английского. Проблема только в том чтобы знать язык, но это уже не о переводе :)


        1. TimsTims
          11.08.2017 13:24

          Я имел ввиду, что например среднестатистическому американцу не будет дела до статей на Хабре, ТК он не знает русский язык, а значит, он никак не сможет узнать, что здесь есть потрясающие статьи, как раз те, что ему надо. Это был ответ Г-ну anfield343, поэтому «переведет сам» не работает.


          1. anfield343
            11.08.2017 17:20

            каждый занимается тем, чем хочет, я же никому не сказал «не переводите все эти статьи — это бред». Пусть переводят, я высказал лишь свое мнение, а кто согласен с ним, а кто нет, мне все равно :)


    1. ivan386
      11.08.2017 09:25

      Старые уже устоялись а новые ещё могут редактироваться. Я после публикации часто дополняю и правлю статьи да и корректоры помогают. Ну и потом старые статьи уже получили свою оценку от общества.


  1. Oxoron
    10.08.2017 16:58
    +5

    Иногда я не понимаю системников на русском, а девушка фрилансер переводит технические статьи?
    Для топ 10% статей точно нужен технический переводчик профессионал, пускай и для пост редакции.


  1. QDeathNick
    10.08.2017 18:32
    +6

    А как же комментарии?
    В них ценного не меньше, а иногда и больше чем в статье.


    1. Schvepsss Автор
      11.08.2017 10:07

      Отличная идея, кстати. Тогда встаёт вопрос, стоит ли переводить все комментарии, или, например, только рейтинговые.


  1. gasizdat
    10.08.2017 18:39

    Все уже украдено переведено до вас (https://kukuruku.co/).


    1. ivan386
      11.08.2017 09:35

      А где там ссылки на оригинал?


  1. rboots
    10.08.2017 21:59
    +4

    «Решили перевести на английский» — а зачем вы нам об этом рассказываете, рассказывайте англоязычным. Я бы вас больше ценил, если бы английские (а лучше китайские/испанские) статьи на русский переводили. Хоть у меня английский и беглый, а на родном языке всё равно читать быстрее и приятнее.


    1. HEKOT
      11.08.2017 08:58

      Статья не о результате, а о процессе. В теории. На практике — просто реклама.

      Хабр русскоязычный. С английского или китайского на русский его не перевести. Разве что туда, а потом обратно :)


    1. Schvepsss Автор
      11.08.2017 10:09

      Мы переводим. :)


  1. lxsmkv
    11.08.2017 02:57

    «Как дешевле всего пересчитать все песчинки на пляже?». Никак. Если расходам не противопоставлен больший доход, то это убыточное дело. Независимо от того насколько малы расходы. А про средний доход от одной статьи ничего не было сказано.
    Дональд Кнут напоминает: «Преждевременная оптимизация — корень всех зол»


  1. a-panasenko
    11.08.2017 10:09

    Перевод переводу рознь. Иногда техническая документация в оригинале более понятна, чем перевод. + от ошибок самих редакторов никто не застрахован, они далеко не программисты. Логичнее было бы убрать статьи, которые переводили и сделать выборку по важным (популярным) статьям, которые и переводить. Определенный %, который никто не читает есть и здесь.


  1. Schvepsss Автор
    11.08.2017 10:12
    +1

    Кстати, есть ли англоязычные аналоги Хабр? Раз у нас тема зашла об этом.


    1. scalywhale
      11.08.2017 11:26

      Есть :) Но не такие классные.


      1. Schvepsss Автор
        11.08.2017 11:29
        +1

        Спасибо, это я видела. Но, беря тот же Reddit, там другая идея постинга. :) Мне кажется даже Medium ближе сейчас.


  1. scalywhale
    11.08.2017 11:25
    +2

    Попробую ответить сразу всем комментаторам выше.
    Стоит, конечно, оговориться, что на самом деле Хабр мы переводить не собирались, а использовали его для расчётов. Скажем так, чтобы местные жители понимали масштаб контента, о котором мы говорим. Нашей целью было показать прикладное применение машинного перевода в промышленных масштабах.
    Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок. Переводить описания товаров вручную традиционным способом долго и дорого. Полагаться только на машинный перевод — опасно (помните все эти смешные описания с AliExpress? их, кстати, всё меньше). Сценарий машинный перевод+постредактирование в этом случае — хорошее соотношение по срокам/стоимости.
    E-commerce — самый очевидный пример. Есть ещё различные отзывы на сервисах бронирования, например.

    Пример другого рода — трейдерские сводки. В международных компаниях, где те или иные действия обусловлены событиями в разных точках мира, очень важно получать новостные сводки как можно быстрее (но при этом не «сырой» результат машинного движка). Тут машинный перевод + постредактирование позволяют перевести новость быстро и понятно, успев до того, как она протухнет.

    Мой любимый пример — пачки юридических документов, которые обязательно нужно переводить на другие языки при международных процессах. Задержки в таких случаях могут стоить больших денег.

    Иными словами, Хабр мы переводить не будем, мы лишь на примере Хабра демонстрируем экономическую целесообразность работы с машинным переводом на больших объёмах.


    1. navion
      11.08.2017 12:46
      -1

      Представьте, что у вас интернет-магазин и вы решили выйти на другой рынок.

      Панель от Гугла с этим прекрасно справляется и не нужно хранить переводы у себя.


      1. scalywhale
        11.08.2017 12:57
        +2

        Google Toolbar?
        Но ведь тут у вас вообще нет контроля за качеством того, что там потенциальные покупатели напереводили.


        1. navion
          11.08.2017 13:15
          -1

          Если под выходом на рынок имеется в виду доставка в новые регионы, то этого может хватить.


    1. strokoff
      11.08.2017 14:56
      +1

      Кажется вашей целью являлось — пропиарить свой продукт под видом псевдоинтересных расчетов для местного сообщества. Много упоминаний кампании и 0 выводов, а то что машина переведет быстрее и дешевле людей, было известно еще ежу.


      1. scalywhale
        11.08.2017 16:47

        Ежу не было известно, насколько быстрее и насколько дешевле обойдётся машинный перевод. Мы же привели конкретные цифры, которые могут быть приблизительным ориентиром для бизнеса.


        1. strokoff
          11.08.2017 17:35

          Все верно, ежу это и не нужно, ваша ЦА те у кого есть деньги и бизнес, а не ежи. Понимание фундаментальных принципов освобождает от знания множества фактов.


  1. SkiBY
    11.08.2017 11:26
    +3

    image
    Смоленск. Гостиница Аврора. 2017 год.


    1. user4000
      11.08.2017 12:15
      +4

      ну тогда уж
      Please remove the number


  1. iit
    11.08.2017 14:14

    а что с комментариями? в некоторых статьях есть такие, что полезней самой статьи


    1. scalywhale
      11.08.2017 14:36

      комментарии, пожалуй, потребуют препроцессинга, чтобы движок МТ их понял. Всё-таки, когда люди пишут комментарии, они не так себя дисциплинируют как при написании статей. Конечно, на Хабре качество текста в комментариях повыше, чем, скажем, в сообществе MDK, но, думаю, препроцессинг понадобится.
      Такой подход использует отдел машинного перевода eBay. Им приходится переводить большое количество контента, созданного пользователями (описания товаров), который совсем не заточен на перевод. Ребята из eBay создали (и ежедневно дополняют) набор правил, который изменяет исходный текст перед отправкой в движок машинного перевода так, чтобы на выходе был более качественный перевод: исправление опечаток, расшифровка аббревиатур, исправление сленговых оборотов и т.д.


  1. iklin
    11.08.2017 14:44
    +1

    Мне кажется, эта статья должна быть в хабе «Я пиарюсь». :)


  1. 800147
    11.08.2017 14:44

    Менее девяти миллионов слов на всём Хабре? Я, видимо, как-то не так понял. Как подсчитывалась эта цифра? Как-то маловато по-моему, особенно если сравнить с вот этой статьёй.


  1. excoder
    11.08.2017 15:31
    +2

    Когда-то у Microsoft все статьи были переведены на русский, видимо, их переводчиком. Но переводчик применялся к техническому материалу ну, по сути, вслепую. В результате были постоянно такие перлы как default char unsigned = «символ по умолчанию не подписан».