Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL / forpes.ru

Главная
Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL +6

23.10.2024 10:53

Alexander_Khokhryakov 13 2100 Источник

Многие компании или их сотрудники хоть раз использовали для своих задач онлайн-переводчики. Это быстро, удобно, но результат не всегда точный. Однако такой перевод иногда имеет неприятные последствия: его могут неправильно понять клиенты или бизнес-партнеры, что может испортить репутацию.

В прошлой публикации мы с командой делали обзор на лучшие программы локализации в 2024 году, вы можете прочитать его по этой ссылке. Сегодня же мы рассмотрим популярные движки машинного перевода (МП): Яндекс переводчик, Google Translate и DeepL. Оценим возможности каждого, сравним плюсы и минусы, для каких задач подходит тот или иной переводчик и расскажем, почему лучше не переводить важные документы онлайн. В данной статье будут упоминаться сторонние исследования и тестирования переводчиков с указанными на них ссылками. Приятного чтения!

1) Технологии перевода. Как они работают?
2) Критерии для оценки онлайн-переводчиков
3)Общая информация о переводчиках:
- Google Translate
- Яндекс.Переводчик
- DeepL
4) Таблица
5) Тестирование движков и частые ошибки
6) Выводы

1. Технологии машинного перевода. Как они работают?

С каждым годом технологии перевода развиваются всё больше, а вместе с этим и сокращается языковой барьер между людьми, говорящими на разных языках. Современные системы МП основаны на нейронных сетях и технологиях искусственного интеллекта (AI), которые позволяют улучшить качество перевода. Основная задача таких систем — не просто заменять слова на эквиваленты на другом языке, а учитывать грамматику, контекст и даже стиль текста. Но так было не всегда! Давайте разберемся, каким раньше был машинный перевод.

В 1947 году началась история МП, когда математик Уоррен Уивер впервые предложил использовать ЭВМ для перевода. Последующие несколько лет многие ученые пытались осуществить эту идею, и в 1954 году это получилось. IBM совместно с Джорджтаунским университетом провели публичную презентацию своего эксперимента.

В то время технологии только начинали своё развитие и существовал всего один метод — метод прямого перевода. В нём было очень много минусов и погрешностей. Но и это стало большим прорывом.

С тех пор возникли и другие подходы, помогающие переводить тексты быстро и максимально приближенно к носителю. Рассмотрим некоторые из них:

RBMT (аналитический). Или машинный перевод на основе правил. Одна из самых первых подобных технологий. При таком подходе собираются максимально полные лингвистические базы данных, и чем больше база, тем вернее и правильнее получается перевод. В такие базы входят словари, справочники, описания грамматик, информация о закономерности языка. Не менее важна информация и об алгоритмах перевода. Все эти данные в совокупности влияют на качество итогового варианта — переведенного текста.
За короткое время система успевает провести морфологический, синтаксический анализы и синтез предложений. Один из главных минусов RBMT — игнорирование контекста т.к система четко следует правилам, прописанным в ней.
CBMT. Перевод на основе корпусов текста. Это следующая технология после RBMT, возникла в 1980-х годах. При этом методе перевода используют массив параллельных текстов (корпусов) на двух языках. В отличие от метода, описанного выше, CBMT делает упор на сбор и использование реальных переводов. Система находит соответствия в разных корпусах и на их основе переводит практически любые материалы. К минусам такой модели можно отнести качество перевода. Чем меньше корпус — тем хуже итоговый вариант из-за малого объёма данных (слишком малая выборка). Также если сами тексты в таком корпусе содержат ошибки, то система может их перенять, воспринимая за образец.
EBMT. Или машинный перевод на примерах. Стал применяться с 1984 года. В отличии от перевода на основе корпусов текста, о котором говорилось выше, EBMT использует базу данных из предложений или фрагментов текстов, которые уже переведены. После того, как система получает текст для перевода, она делит его на несколько сегментов (предложений) и ищет похожие в своей базе данных. Далее, сегменты сравниваются с теми что находятся в базе и происходит перевод. Получая новый текст, EBMT запоминает его, образуя память перевода и использует этот запрос для того, чтобы еще больше дополнить свою базу. Минусы такого перевода практически такие же, как и у CBMT — если в памяти системы недостаточно текста, то качество перевода страдает. Также могут быть ограничения для длинных предложений со сложной грамматикой.
SMT. Статистический машинный перевод. У SMT есть несколько подвидов, но в нашей публикации мы не будем в них углубляться, а поговорим лишь об основах. Именно Уоррен Уивер, которого мы упоминали в самом начале, стал основоположником этой идеи. Однако в те годы мощности компьютерной техники не хватало для того, чтобы реализовать эту задумку. Всё стало возможно, начиная с 1990-х годов. Модель SMT основана на теории вероятности, а именно на теореме Байеса. Её задача — найти наиболее вероятный перевод предложения с одного языка на другой. Чем чаще встречается вариант перевода, тем больше шансов, что он правильный. Минус такого подхода, как и у других систем, в большой зависимости от объема находящихся в базе текстов, а также в сложности учитывания контекста. До 2016 года SMT использовал даже Google Translate. Если вас интересует эта тема на более глубоком уровне, то советуем прочитать книгу «Статистический машинный перевод» Филиппа Кена.
NBMT. Машинный перевод на основе нейронных сетей. Как работает этот механизм? Нейронные сети имитируют поведение человеческого мозга при обработке данных. Поэтому у NBMT появилось главное преимущество, опережающие другие системы - возможность учитывать контекст и грамматику на более глубоком уровне. В отличии от SMT, использующего вероятности, нейронные сети NBMT анализируют целые предложения и тексты в контексте, что позволяет создавать более точные и естественные переводы.
HMT. Гибридный машинный перевод. Этот метод может объединять в себе сразу несколько подходов, описанных выше: RBMT, CBMT, EBMT, SMT и NBMT. В 2010-х годах Systran стала одной из первых компаний, внедривших гибридный МП, сочетающий в себе SMT и RBMT. Особо важным событием в гибридном машинном переводе стало появление нейронных сетей, что помогло значительно улучшить качество итоговых переводов.

2. Критерии для сравнения онлайн-переводчиков

Каждый из переводчиков (Яндекс переводчик, Google Translate, DeepL) мы решили сравнивать по нескольким критериям, которые сведем в одну таблицу. Так вы сможете оценить все характеристики и выбрать, на каком варианте остановить свой выбор.

Что будет в таблице:

Поддержка языков — посмотрим, сколько языков для перевода предлагает каждый движок.
Поддержка редких языков — узнаем, какие переводчики поддерживают редкие языки.
Стоимость платных функций — напишем стоимость всех тарифов у каждого из представленных переводчиков.
Возможности интеграции — рассмотрим, поддерживает ли движок интеграции с программными системами и платформами.

3. Общая информация о переводчиках

Яндекс переводчик

Не многие знают, но в 2011 году, когда сервис только начал свою работу, для перевода предоставлялись только три языка: русский, английский и украинский. Сейчас же этот список по официальным данным состоит из 96 языков, включая не слишком популярные: гаитянский креольский (Гаити), галисийский (Галисия), малагасийский (Мадагаскар). Кроме того, разработчики решили добавить и необычные языки. Так, с 2016 года у всех есть возможность перевода на синдарин — эльфийский язык, придуманный Дж Р.Р Толкином. Годом позже Яндекс научился переводить и на язык эмодзи.

Например так он видит заголовок нашей публикации:

Что касается технологий, используемых Яндексом, то это гибридный перевод (HMT), который сочетает в себе статистический машинный перевод (SMT) и перевод на основе нейронных сетей (NBMT) помощью YandexGPT. Для этого был разработан алгоритм, основанный на методе обучения CatBoost. Он позволяет оценивать несколько переводов и показывает тот, который, по его мнению, подходит лучше всего.

Google Translate

Согласно последним данным, на 2024 год Google Translate предлагает пользователям перевод на 244 языка. Особенно много удивлений вызвала новость в июне этого года, когда в Google объявили о том, что планируют сделать самое масштабное обновление за всю историю — 110 новых языков, большая часть из которых африканские.

С октября 2007 компания использовала статистический машинный перевод (SMT), а в 2016 году разработали собственную модель нейронного машинного перевода, названную GNMT. Она включает в себя перевод на основе примеров (EBMT), о котором мы говорили ранее. Стоит помнить, что данная система не поддерживает перевод на все языки.

На изображении указаны языки с поддерживаемым переводом EBMT. Результат от использования этой технологии получается качественнее:

DeepL

DeepL часто сравнивают с Google Translate, Яндекс.Переводчиком. С момента своего запуска в 2017 году он получил признание за высокое качество переводов и быстро стал популярным среди профессионалов, работающих с текстами. Для перевода использует МП на основе нейронных сетей. Его архитектура обучена на огромных объемах данных, что позволяет лучше понимать контекст и смыслы текста, чем традиционные статистические или фразовые модели машинного перевода.

Сейчас в DeepL представлено около 30 языков, гораздо меньше по сравнению с другими сервисами, однако, это не помешало обрести ему популярность.

Давайте перейдем к сравнению основных характеристик переводчиков.

3.Таблица

Критерий	DeepL	Яндекс.Переводчик	Google Translate
Поддержка языков	30+	90+	140+
Интеграции	Да, 700+ интеграций	Да, есть интеграции по API	Да, более 290 готовых интеграций
Поддержка редких языков	нет	да	да
Стоимость	Платно для компаний, тарифы начинаются от 7,49 €	Платно для интеграций в приложения и веб-сервисы.	Бесплатно

Как вы видите, характеристики DeepL делают его прекрасно подходящим для корпоративной работы. Более 700+ интеграций позволяют использовать его не только в CAT-системах. Кроме того, каждый может подобрать для себя необходимый тариф. Однако, в нём нет поддержки более редких языков. Поэтому, если вам не нужно множество платных функций и важна работа с более редкими языками, лучше рассмотреть Я.Переводчик или Google Translate.

4. Тестирование движков и частые ошибки

В июне компания Intento опубликовала полный отчет о состоянии машинного перевода в 2024 году. Посмотреть его подробнее и скачать можно на официальном сайте. Всего принимало участие 52 разных МП и LLMs, в том числе и Google Translate, Яндекс Переводчик и Deepl.

Исследование показало, что модели GPT-4o и DeepL превосходят другие решения в сфере машинного перевода. В рамках анализа были протестированы 11 языковых пар в 9 различных доменах, таких как финансы, юридический и др. Google занимает 3 место, а вот Яндекс сильно отстал от своих конкурентов, заняв только 14 место:

сравнение различных систем машинного перевода по количеству случаев, когда они показали наилучший результат для определённых языковых пар и доменов

Основные выводы исследования:

80% самых частых ошибок составляет неправильный перевод.
Чат GPT и DeepL показали самые лучшие результаты среди других языковых моделей.
Уменьшилось количество ошибок, связанных со сложными конструкциями, которые машинные системы не всегда могут корректно обработать.
Большая часть ошибок перевода связана с изменением смысла и неверным использованием слов или фраз.

Мы также решили дополнить публикацию нашим опытом работы с этими переводчиками. Специально для материала собрали частые ошибки, встречающиеся в процессе перевода и продемонстрировали, как ведет себя каждый переводчик в разных случаях.

В ходе использования машинного перевода мы выявили несколько типов ошибок:

Ошибки на семантическом уровне: неверное словоупотребление/ искажение смысла.
На синтаксическом уровне: неестественные, ненативные конструкции.
Ошибки на грамматическом уровне: нарушение согласования.

Первый вид ошибок — на семантическом уровне, встречается чаще всего. Они связаны с самой главной проблемой любого МП: невозможностью улавливать контекст и органично подставлять нужные значения слов. К счастью, они не являются критическими и их легко выявлять в процессе визуального сканирования. Например:

Верный перевод фразы: в кулачок патрона попала стружка. DeepL тут справился хуже всего с распознаванием подходящего перевода сразу для нескольких слов. В отличии от Google Translate и Яндекс Переводчика, он не смог перевести слова «патрон» и «стружка». С переводом словосочетания «попала стружка» и вовсе никто не справился.

И последний пример этого типа ошибок — синтаксическая и лексическая калька:

К сожалению, ни у одного МП не получилось правильно перевести предложение. Смысл исходного текста: модный дом выпустил коллекцию одежды и аксессуаров (группу) для летнего отдыха. Была проигнорирована логика построения предложений, скопирована с оригинала.

Второй вид ошибок — на синтаксическом уровне. Встречается реже, чем на семантическом. Они гораздо опаснее предыдущих из-за сложного обнаружения. С виду текст может показаться правильным, однако содержит неочевидные неточности.

DeepL совершенно не справился с этой задачей и не учел, что в русском языке порядок слов бывает как прямым, так и обратным. Из-за этого был предложен вариант: привести паспорт в соответствие с какими-то требованиями.

Третий вид ошибок — на грамматическом уровне, в структуре языковой единицы. В данном случае нарушение согласования:

Как мы видим, практически каждый из протестированных переводчиков испытывает проблемы с одинаковыми видами ошибок. Больше всего с неправильным переводом, что подтверждает не только наш личный опыт, но и аналитика Intento, о которой мы рассказывали выше.

По частоте возникновения ошибки выглядят следующим образом:

Ошибки перевода — более 80%.
Ошибки при переводе идиом.
Пропуски фраз.
Остальное.

5. Выводы

Согласно исследованиям, с каждым годом процент ошибок онлайн-переводчиков становится всё меньше, а появление нейронных сетей позволяет системе быстрее обучаться и минимизировать некоторые виды неточностей. Однако механизм до сих пор не совершенен и не способен перевести так же хорошо, как профессионалы со стажем.

Если ваша цель — переводить простые каждодневные темы, бытовые и ненагруженные диалоги, то онлайн-инструменты прекрасно с этим справятся, допуская минимум ошибок и не ставя вас в неловкое положение из-за них. Для всего этого советуем вам использовать любую из систем в нашем сегодняшнем обзоре. Исходя из нашего опыта, лучше всех себя показывает DeepL.

Еще несколько случаев, когда вам может подойти машинный перевод:

Общие темы. Простая структура предложений, без сложных речевых оборотов.
Медицина/фарма. Подойдут несложные документы с однотипной структурой и несложной терминологией. Для серьезных инструкций, от правильного перевода которых зависит жизнь человека — только с помощью переводчика.
Небольшие мануалы/инструкции, в которых описание действий. Без узкоспециализированной терминологии.
Некоторые учебные материалы.

Но если вы хотите переводить что-то серьезнее, то лучше обратиться к профессионалам. Особенно плохо МП справляется с маркетинговыми материалами. Происходит это из-за того, что иногда хороший текст нарушает правила, привычные для обученной машины. Как итог — она неправильно его обрабатывает и выдает результат с ошибками.

Полный список материалов, которые не следует переводить с помощью МП самостоятельно:

Технические тексты со сложной терминологией.
Узкоспециализированные тексты: научные статьи, аналитические исследования, правоохранительные стандарты и требования, инженерные спецификации, патентная документация и тд.
Литературные тексты со сложными фигурами речи.
Документы, в которых содержится закрытая информация.

Если вам хочется экономить на услугах переводчика, то выход тоже есть. Многие агентства предоставляют услугу PEMT, включающую в себя машинный перевод + постредактирование. Редактор поможет исключить любые неточности и сделать качество вашего текста в разы лучше. Кроме того, существует услуга пруфридинга — вычитка текста носителем на предмет ошибок.

Спрос на машинный перевод и редактуру увеличивается (в нашем агентстве количество заказов услуги составляет 60% от всех), а вот запрос только лишь на МП совсем не востребован. Это говорит о том, что качество такой работы остается не на высоком уровне и текстам все равно необходима вычитка и последующая редактура.

Если вам необходимо перевести важные документы, особенно те, в которых содержится закрытая информация, лучше обращаться в агентства перевода. Каждый раз, когда вы загружаете текст в онлайн-переводчик, он сохраняет все данные, которые через него прогоняются. Это необходимо системе для того, чтобы учиться на ваших текстах и совершенствоваться. Иногда такие тексты «достают» из системы переводчики, чтобы проанализировать и свести количество ошибок к минимуму. В таких случаях нет гарантии, что информация «не утечет» к конкурентам и ей не воспользуются третьи лица. По этой причине лучше доверить перевод профессионалам. О конфиденциальности можно не волноваться — переводчики используют специальные CAT-платформы, далее которых информация не уходит.

Возможно, через несколько лет МП приблизится к уровню носителей языка. А пока перевод важных текстов стоит доверять только профессионалам.

А каким переводчиком пользуетесь вы?

Комментарии (13)

ganqqwerty
23.10.2024 11:22
#27454732
Мне показалось, что ChatGPT обнулила всех трех уже в 4-й версии, тем более в сегодняшней.
1. ganqqwerty
  23.10.2024 11:22
  #27455100
  Развернул свою мысль в статье.
  1. Alexander_Khokhryakov Автор
    23.10.2024 11:22
    #27462414
    Ответил в комментариях
1. axweye
  23.10.2024 11:22
  #27455544
  Похоже что так. Сравнивал перевод с турецкого - Chatgpt уделывает всех
1. axweye
  23.10.2024 11:22
  #27455550
  Похоже что так. Сравнивал перевод с турецкого - Chatgpt уделывает всех

adeshere
23.10.2024 11:22
#27455714
Полный список материалов, которые не следует переводить с помощью МП самостоятельно: (...) научные статьи, ...

Отвечу, как

монолингв
Ну если фортран в расчет не берем, хотя по идее он тоже вроде бы иностранный ;-)
Мне иногда надо переводить фрагменты своих статей на английский при отправке текста в журнал. Я это делаю в онлайн-переводчике. А для проверки качества перевода беру полученный фрагмент и делаю обратный перевод в другом онлайн-переводчике. Потом сравниваю текст с исходным (русским). Если что-то не так, то редактирую исходный русский текст, и повторяю до сходимости.

Так вот, по моим впечатлениям, качество перевода научного текста в Я и G резко выросло в последние несколько лет. Если писать короткие (русские) фразы без сложного синтаксиса, то обратный перевод часто совпадает вообще дословно. А главное, раньше с терминами и особенно аббревиатурами была просто катастрофа - вероятность правильного перевода стремилась к нулю. Сейчас стало на два порядка лучше: в моем случае шанс получить правильный перевод уже сильно больше 0.5 для узкоспециальных терминов и приближается к 0.9++ для более общеизвестных (и продолжает расти). Возможно, некоторые модели дообучались как раз на научных статьях? Сейчас есть много переводных журналов, где русская статья выходит в английском переводе. Просто идеальный материал для дообучения! Ну и второй ключевой момент - модели стали учитывать контекст. Для перевода терминов это крайне важно, т.к. среди них есть много многозначных слов, и без владения контекстом даже профессиональный переводчик не всегда справится.

Короче, насчет научных статей я с Вами не соглашусь: по крайней мере в некоторых областях знаний они переводятся очень даже неплохо. На два-три порядка лучше, чем это может делать человек со школьным английским и личной шпаргалкой по специализированной терминологии.

Ну и еще один вопрос напоследок. Мне кажется, что метод с обратным переводом способен резко упростить поиск ошибок в переводах и составление метрик качества переводов. Ведь сравнить два текста на одном языке гораздо проще, чем на разных языках (как человеку, так и машине). Да, конечно, при этом не ясно, на каком именно этапе произошла ошибка: "туда" или "обратно". Но если ошибок не очень много (вероятность ошибки ближе к нулю, чем к единице), и если у нас есть несколько автопереводчиков (минимум надо три штуки), то прогнав эти "туда-обратно" в разных комбинациях, мы легко выявим лучшего и худшего из трех. Даже интересно, почему в статье об этом методе проверки нет ни слова. Ведь он доступен не только профессионалам, но и самому бездарному юзеру вроде меня. Было бы интересно узнать о его недостатках с точки зрения специалиста.
1. Alexander_Khokhryakov Автор
  23.10.2024 11:22
  #27469188
  Спасибо за такой подробный коммент!
  Да, качество переводчиков и правда сильно возросло за последние несколько лет, мощный прорыв сделал DeepL, яндекс и гугл, по ощущениям, не сильно отстают (хотя исследования от intento говорят об обратном). Особенно если мы говорим о переводе простых предложений, а не сложных с разными видами связи.Ещё появление нейронки сильно улучшило понимание контекста, что радует и дает надежды на то, что скоро МП будет близок к идеалу.
  
  Возможно, некоторые модели дообучались как раз на научных статьях?
  
  Тут, скорее, модели дообучаются на разных типах текстов, не только на статьях.
  Мы ничего не имеем против перевода статей через МП, просто тут нужно заранее оценивать все шансы и понимать, насколько сложен текст и сможет ли переводчик его перевести так, чтобы за результат потом не было стыдно. И отталкиваться от области знаний, как вы подметили. Если там доступная терминология, то подходит, но желательна вычитка. Думаю, нужно было развернуть этот момент подробнее в статье, чтобы не было недопониманий.
  
  Ну и еще один вопрос напоследок. Мне кажется, что метод с обратным переводом способен резко упростить поиск ошибок в переводах и составление метрик качества переводов.
  
  У нас изначально не было планов раскрывать эту тему и писать про методы проверки. Если ориентироваться на опыт именно в рамках нашей компании, то у нас были заказы, где основным требованием была проверка текста обратным переводом. Но это, скорее, исключение, чем постоянное явление) Это редко востребовано в медицинском переводе. Но не применим в текстах, в которых нужна транскреация. Наши переводчики, имеющие опыт с таким методом обратного перевода, утверждают, что иногда при обратном переводе ошибка никуда не исчезает. Кроме того, её так можно и вовсе не заметить. Да, он может уберечь от каких-то явно заметных ошибок и сгладить их. Но не во всех случаях. Семантические, то есть смысловые, ошибки - самые критичные и иногда такой проверкой можно ввести себя в заблуждение.
1. Alexander_Khokhryakov Автор
  23.10.2024 11:22
  #27469210
  Один из примеров обратного перевода. Здесь ошибка у движка: брак переведен не как дефект продукции, а как союз. Ошибка никуда не делась, смысл перевода на английский остается некорректным

adeshere
23.10.2024 11:22
#27455932
И отдельным сообщением задам вопрос, не связанный с первым. Существует ли сейчас какой-то простой и дешевый (в идеале - бесплатный) способ перевести на английский готовый chm-файл размером около 2Мб (без претензий к качеству перевода, но обязательно с сохранением внутренних гиперссылок)?

Конкретно надо перевести вот такой chm-файл

chm-файл на Я-диске. А вот тут он же в zip-архиве

Исходники этого chm-файла доступны (я - автор ;-), однако я не могу перевести их в более новую версию Word, так как при этом неминуемо портятся внутренние гиперссылки. А этих гиперссылок там хренова туча (много-много тысяч). Поэтому я веду проект в doc-формате и пару раз в месяц (после каждого обновления справки) заново компилирую chm из формата doc, благо когда-то этому научился.

Соответственно, мне нет смысла переводить на английский исходный doc-файл по фрагментам: я не смогу это делать сколько-нибудь регулярно. И вносить изменения в перевод только там, где что-то поправил, я тоже не смогу, ведь любая правка в одном месте обычно влечет необходимость изменения многих связанных топиков. В общем, спасти может только такой автоперевод, который обрабатывает файл целиком и сохраняет при этом все гиперссылки... И работать он должен либо с форматом DOC, либо же с CHM...
1. Alexander_Khokhryakov Автор
  23.10.2024 11:22
  #27469768
  Бесплатных решений точно подсказать не сможем. Иногда приходят задачи на перевод файлов такого формата, но очень редко, таких кейсов не так много. Нашему инженеру по локализации приходится проводить много манипуляций. Тестировать разные сценарии и CAT-системы, смотреть, справится ли она с таким форматом.
  Касаемо стоимости через агентства это сделать дешево тоже не получится. В стоимость будет входить как настройка, так и перевод.

Mingun
23.10.2024 11:22
#27456704
К сожалению, ни у одного МП не получилось правильно перевести предложение. Смысл исходного текста: модный дом выпустил коллекцию одежды и аксессуаров (группу) для летнего отдыха. Была проигнорирована логика построения предложений, скопирована с оригинала.

Да тут и у человека ничего не получится, ведь в приведённом фрагменте оригинала вообще нет никакого даже намёка на какой-то там «модный дом»! Если МП был скормлен только текст оригинала, то вполне закономерно, что и перевод он вёл лишь основываясь на тексте оригинала. Я бы скорее забеспокоился, если бы в переводе внезапно из ниоткуда появился бы этот модный дом, ибо это значило бы, что модель чего-то там сочиняет вместо перевода.

а вот запрос только лишь на МП совсем не востребован.

Скорее, это говорит о том, что нет никакого смысла обращаться в агентство переводов чисто за машинным переводом, да ещё и платить за это какие-то деньги, когда тот же самый машинный перевод доступен абсолютно бесплатно на deepl.com и аналогах.
1. Alexander_Khokhryakov Автор
  23.10.2024 11:22
  #27462498
  Да, вы правильно заметили это упущение. Чтобы не было недопонимания, нам нужно было указать, что предложение переводилось не отдельно, а в контексте) Это полностью меняет смысл. Информация про модный дом была в предложениях до этого, в наш пример попала только та часть целого текста, которую переводчик не смог перевести правильно, учитывая всё, о чем говорилось.
  Если бы модный дом внезапно появился из ниоткуда, мы бы забеспокоились не меньше)))

stago
23.10.2024 11:22
#27457342
NBMT. Машинный перевод на основе нейронных сетей. Как работает этот механизм? Нейронные сети имитируют поведение человеческого мозга при обработке данных.

Чушня и байда. Кто вам такое напел?

Мало того, что автор копирует чушню и байду из других источников, так он еще и не чекает эту чушню.

Например, нет термина NBMT, а есть термин NMT - Neural Machine Translation.
Нет, нейросети не имитируют поведение человеческого мозга при обработке даных. Для того, чтобы это понять, достаточно ознакомиться со специальной литературой.

Нейросети в принципе не могут имтировать работу мозга, потому что никто не знает, как он работает. Точнее, могут описать на уровне "нажал кнопку смартфона - на экране появилась анимация". Ничего глубже этого пока нет.

Более того, сами нынешние нейросести (AAN - artificial neural networks) есть продукт разработки одной абстрактной идеи о том, как мог бы быть устроен человеческий мозг, и идее этой - 200 лет в обед. Более того, все дальнейшие разработки этой идеи были равно такого же уровня - только модели, которые симулировали работу мозга в соответствии с научным уровнем эпохи. И в итоге дожили до уровня пиздабола-задушевника, который может поддержать диалог на любую тему, ничего в ей не соображая =)

Что, как вы (надеюсь) понимаете, говорит о качестве исходной математической модели.

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL +6

Оглавление

1. Технологии машинного перевода. Как они работают?

2. Критерии для сравнения онлайн-переводчиков

3. Общая информация о переводчиках

3.Таблица

4. Тестирование движков и частые ошибки

5. Выводы

Комментарии (13)

Alexander_Khokhryakov Автор

Alexander_Khokhryakov Автор

Alexander_Khokhryakov Автор

Alexander_Khokhryakov Автор

Alexander_Khokhryakov Автор