Автор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики

Машинный перевод – одна из самых старых и проработанных задач обработки естественного языка. Машинный перевод выделяется на фоне всего многообразия задач этой дисциплины, и для этого есть несколько причин. Во-первых, машинный перевод – одна из наиболее практически значимых задач всей индустрии: машинный перевод применим повсеместно, и едва ли найдётся область, в которой не требовалось бы автоматически переводить тексты с одного языка на другой. Во-вторых, история развития машинного перевода олицетворяет историю развития NLP в целом – в машинном переводе, как в зеркале, отражались популярные подходы к обработке языка своего времени. Наконец, машинный перевод уникален тем, что в определённом смысле в последние 70 лет был локомотивом ключевых изменений, происходивших не только в NLP, но и в AI в целом: огромное количество идей и разработок, составляющих сегодня техническую повседневность, были впервые опробованы в качестве методов улучшения задачи машинного перевода. Сегодня мы поговорим о том, как развивались методы машинного перевода, как машинный перевод двигал вперёд NLP, что он представляет из себя сегодня и как понять, хороший ли перевод перед нами.

I. Rule Based Machine Translation и неверная трактовка Библии

Началом истории машинного перевода принято считать Джорджтаунский эксперимент – первый эксперимент по применению ЭВМ для решения задачи машинного перевода. Существует мнение, что стратегическая важность решения задачи машинного перевода была осознана правительством США не в последнюю очередь из-за начала холодной войны и необходимости регулярного перевода большого объема перехваченных советских радиограмм на английский язык. Как бы там ни было, 1954 год ознаменовал начало эры машинного перевода. Джорджтаунский эксперимент, проведённый 7 января 1954 года в штаб-квартире IBM, состоял в переводе 60 предложений с русского на английский язык. Предложения были посвящены, в основном, органической химии, но ради чистоты эксперимента в корпус текстов были добавлены и предложения общего содержания. Сам подход к переводу состоял в дословном переводе предложений по словарю с применением разработанных лингвистами грамматических правил, которых в Джорджтаунском эксперименте использовалось всего 6 (не самых понятных неподготовленному слушателю):

  • Правило инверсии подлежащего и сказуемого

  • Правило, определяющее выбор слова с учетом последующего текста

  • Правило, определяющее выбор слова с учетом предыдущего текста

  • Правило, определяющее замену падежных окончаний с неаккузативной функцией в нулевое при условии присутствия русского предлога или адъективного суффикса

  • Правило, определяющее ситуации, допускающие пропуск слова

  • Правило, определяющее разумный подбор английских эквивалентов некоторых конкретных русских слов с учетом правильного порядка их следования

Джорджтаунский эксперимент был вполне успешным и продемонстрировал потенциал использования вычислительной техники для решения проблемы, волновавшей весь мир. Проект получил основательное финансирование, и к 70-м годам были разработаны общие подходы к Rule-Based Machine Translation. Эти подходы были основаны на широком спектре досконально проработанных лингвистических правил, в той или иной мере описывавших практически любой индоевропейский язык. Но при этом стали понятны и конструктивные ограничения подходов, основанных на правилах: любой свод правил не учитывает огромное количество нюансов реального употребления слов и грамматических конструкций в языке, плохо масштабируется и адаптируется для новых языков, требует огромных затрат времени квалифицированных лингвистов, не учитывает контекст при подборе конкретных вариантов перевода, а самое главное – не способен даже близко приблизиться к качеству человеческого перевода, периодически существенно искажая смысл исходного текста. Существует хрестоматийный пример такого искажения: цитата из Библии “The spirit is high but the flesh is weak” (Дух силён, а плоть слаба) упорно переводился как “Водка хранится хорошо, а мясо быстро портится”. К 90-м годам классические rule-based подходы сменились статистическими.

II. Statistical Machine Translation

Общую философию статистического машинного перевода можно описать следующим образом: машинный перевод осуществляется на основе статистических моделей, параметры которых вычисляются на основании анализа двуязычных корпусов. Первые идеи SMT были предложены еще до Джорджтаунского эксперимента в публикациях Уоррена Уивера, американского математика из Нью-Йоркского университета. Первые проработанные решения на основе SMT начали появляться во “вторую волну” - в начале 1990-х годов, когда компания IBM всерьез взялась за развитие этого направления и организовала исследования SMT в исследовательском центре Томаса Уотсона.  В результате многолетних исследований возникли довольно сложные инструменты, позволяющие осуществлять переводы с приемлемым качеством для многих языковых пар. Примером такой проработанной системы может служить фреймворк Moses, разработанный Эдинбургским университетом в 2017 году. Для каждой фразы на исходном языке Moses формирует набор гипотез о её корректном переводе на основании условного распределения вероятности конкретного перевода фразы на целевой язык при условии оригинального текста на основании параметров этого распределения, определённых по большой двуязычной выборке. Для быстрого подбора гипотез используется Beam Search. Moses поддерживает “лингвистическую надстройку”, позволяющую определять формы слов в целевом языке, производить корректное изменение этих форм, а также лемматизацию. Отсюда следуют как преимущества, так и недостатки статистического машинного перевода в целом: с одной стороны, такие системы обычно довольно легковесны и быстры, работают заметно лучше RBMT, однако при этом требуют наличия огромных двуязычных корпусов текстов. При этом подход к обучению обычно более-менее универсален и может быть применен для широкого спектра языковых пар. 

Большинство популярных индустриальных решений, используемых до сих пор относятся к статистическому машинному переводу “третьей волны” – когда классические статистические модели были заменены на нейронный машинный перевод. Моделирование вероятностей p(t|o), где t – условное обозначение перевода, а o – оригинального текста, теперь ложится на плечи нейронных моделей, обученных на тех же самых двуязычных корпусах. С появлением первых хороших универсальных моделей контекстуальных эмбеддингов, таких как BERT и ELMO, стало возможным использовать эти эмбеддинги для моделирования этого распределения в общем случае при помощи нейронных сетей, а также дообучивать их на специфических корпусах для решения проблемы domain shift. Современные переводчики, такие как яндекс translate, google translate, Microsoft translator отказались от интегрирования rule-based подходов в свои системы и делегировали определение корректных форм и употреблений слов в целевой языке нейронным сетям, обученным на колоссальных корпусах размеченных текстов. Такие современные модели контекстуальных мультиязычных эмбеддингов, как E5, LABSE или SONAR существенно упрощают эту задачу.

III. Современный машинный перевод

Современные тренды к повсеместному использованию LLM не обошли стороной и область машинных переводов. Оказалось, что LLM вполне неплохо справляются с общим машинным переводом, а к явным преимуществам их использования относится простой механизм внесения корректировок в стилистику или другие косметические особенности переводов. Большим языковым моделям можно давать явные команды для модификации переводимого текста, его особой интерпретации или внесения каких-либо изменений, формулировка которых на естественном языке существенно проще, чем сбор и разметка релевантного датасета для дообучения нейронных моделей. Можно осуществлять finetune открытых LLM на сравнительно небольших выборках, что позволяет часто существенно снижать уровень галлюцинаций и повышать качество переводов. Методы самоисправления галлюцинаций по типу self-healing помогают масштабировать применение LLM. 

У LLM есть и свои известные проблемы – артефакты и галлюцинации, которые бывает сложно отследить, а избавиться от них полностью при масштабировании пользовательских систем практически невозможно. Это ставит перед исследователями новую проблему валидации перевода, которая тесно связана с оценкой качества машинного перевода. Другая проблема LLM – высокие требования к вычислительным ресурсам даже на инференсе, ведь современные LLM содержат миллиарды, иногда – сотни миллиардов параметров. Однако остается открытым вопрос – в каких ситуациях использование LLM оказывается более предпочтительным, чем использование нейронных моделей SMT?

В статье 2024 года “Benchmarking LLM-based Machine Translation on Cultural Awareness” проведено сравнение качества машинного перевода при помощи различных больших языковых моделей и google translate в разрезе разных языковых групп. Сравнение производилось при помощи метрики качества BLEU. Оказывается, качество перевода при помощи google translate очень неравномерно по разным языковым парам, что явно зависит от сложности сбора и разметки большого двуязычного датасета, исчерпывающе покрывающего особенности соответствующей языковой пары.

Рис. 1
Рис. 1

На рис. 1 представлена сравнительная инфографика по качеству переводов для 5 LLM разного размера с Google translate. Явным фаворитом среди языковых моделей оказалась NLLB-1.3B – дистиллированная версия модели NLLB-200, специально дообученной LLM для машинного перевода. На втором месте – сильнейшая на момент печати статьи LLM общего домена gpt-4. Из инфографики видно, что в подавляющем большинстве случаев нейронный SMT демонстрирует лучшее качество по сравнению с LLM,  однако существуют и обратные примеры, а для большинства пар языковых групп даже дистиллированная версия модели NLLB-200 лишь немногим уступает тщательно проработанной google translate.

Всё это говорит о прогрессе в области машинного перевода, тесно связанным с трендами в общем NLP. Использование LLM несет определенные риски, однако может помочь с решением таких проблем классического машинного перевода, которые очень сложно решаются методами SMT. При этом пути правильного применения LLM для машинного перевода всё еще ищутся, а активность научного сообщества в плане публикаций новых исследований на эту тему только растет.

IV. Метрики качества машинного перевода

При общем прогрессе решения задачи машинного перевода возникают новые проблемы, связанные, в частности, с вопросом корректной оценки качества машинного перевода. Сам по себе вопрос о том, как оценить перевод, очень сложен, поскольку содержит субъективную составляющую. Даже с позиций экспертной оценки перевода, бывает сложно ранжировать переводы, лежащие в “серой зоне”, то есть не являющиеся очевидно плохими или хорошими. Масла в огонь подливает многофакторность оценки перевода – любой - как машинный, так и человеческий – перевод может быть плох или хорош по целой совокупности причин, важность которых может отличаться для разных приложений перевода. Для определённых задач может быть очень важно сохранение элементов стилистики текста на исходной языке, для других – наиболее точное использование грамматических конструкций, а для третьих – наиболее корректное использование в переводе специфических терминов в текстах на исходном языке. В условиях существования достаточно хороших систем машинного перевода, способных более или менее корректно переводить тексты общего содержания, именно эти вопросы приобретают особую значимость с точки зрения приложений, поскольку грамотная оценка машинного перевода может подсветить, какие методы дообучения моделей MT или их инференса показывают себя наилучшим образом для данной конкретной задачи, и обеспечить гарантии качества с учетом ключевых критериев.

Современные метрики качества машинного перевода можно категорировать по двум критериям:

1. Необходимость использовать референс, то есть один или несколько эталонных переводов, на основании сравнения с которым производится оценка качества. По этому критерии метрики делятся на референсные и безреференсные. 
2. Использование предобученных нейронных моделей. Метрики, основанные на использовании нейронных архитектур будут называться нейронными, а метрики, не прибегающие к использованию моделей DL, будем называть классическими

Первые общеупотребимые метрики качества машинного перевода появились в начале 2000х годов. В 2002 году впервые была предложена полноценная метрика несубъективной оценки качества машинного перевода, не обладающая явными структурными недостатками и сравнительно простая в расчете – метрика BLEU. Между тем, в научной литературе подробно описаны ограничения и недостатки метрики BLEU, а одна из первых высокоцитируемых работ, критикующих применение этой метрики, была опубликована уже в 2006 году. Вплоть до 2024 года было опубликовано больше 700 статей, посвященных изучению вопросов оценки качества машинного перевода. В масштабном метаисследовании 2021 года [4] утверждается, что несмотря на тот факт, что BLEU все еще остается самой популярной метрикой оценки качества машинного перевода, трендом последних лет является переход к нейронным метрикам качества. BLEU подвергается критике в силу своих явных конструктивных недостатков, а также по причине слабой корреляции с экспертной оценкой машинного перевода. Одна из статей, изданных в рамках воркшопа WMT Metrics Shared Task носит говорящее название «Stop Using BLEU – Neural Metrics Are Better and More Robust». Критика BLEU носит системный характер: начиная с момента разработки этой метрики, сотни научных статей ориентировались на неё, многие предложенные методы были приняты или исключены из рассмотрения именно в следствие анализа, основанного на этой метрике. В метаанализе  “Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers” приводится статистика используемости различных метрик машинного перевода в научных публикациях, начиная с 2010 года по 2020 годы (рис 2.). Из представленной инфографики хорошо видно, что подавляющее большинство статей ориентировались исключительно на BLEU, как на метод оценки машинного перевода. В пике, часть статей, ориентирующихся, в том числе, на вторую по популярности метрику Translation Edit Rate (TER) достигает всего 25%. Между тем, ряд работ демонстрируют факт рассогласованности метрик друг с другом, что говорит о том, что использование лишь одной метрики качества при оценке той или иной задачи машинного перевода может приводить к искаженному восприятию реальности.

Метрики BLEU и TER относятся к классу референсных метрик, то есть требуют наличия эталонного перевода для оценки текстов. Метрика BLEU вычисляется как среднее геометрическое точностей совпадения униграмм, биграмм, триграмм и квадрограмм в эталонном и машинном переводах, вычисляемых с учетом некоторых технических трюков, призванных бороться с проблемой высокой оценки тривиального перевода (то есть перевода, целиком состоящего из повторений некоторой n-граммы, встречающейся в эталонном переводе). Метрика TER вычисляется по методике, схожей с вычислением расстояния Левенштейна – оценивается количество исправлений, которые нужно внести в машинный перевод для получения точной копии эталонного. Это количество нормируется на длину эталонного перевода, что позволяет избежать естественной проблемы увеличения абсолютного числа необходимых правок при увеличении длины текста. В случае, если используется сравнение с несколькими рефернсами, показатель усредняется. Попытка тем или иным образом оценить комбинаторное или потокенное отличие референсного текста от переведённого лежит в основе всех классических метрик. К таким метрикам относятся также, например,  METEOR, предложенный в 2005 году, NIST, представляющий из себя простую модификацию BLEU, и одна из наиболее эффективных классических метрик chrF. 

Альтернативный путь – использование продвинутых мультиязычных нейронных архитектур для оценки схожести референса, оригинального текста и машинного перевода. Одним из лучших на сегодняшний день примеров такой метрики служит фреймворк Comet. Comet - Фреймворк 2020 года, предполагающий дообучение моделей с использованием двух структурных элементов: модели-оценщика и модели ранжирования. Обе модели используют предобученный энкодер, выходы которого передаются в блок пуллинга. Первый блок обучает полносвязный слой прогнозировать оценку перевода по трём входам: перевод, оригинальный текст и эталон. Модель обучается минимизировать среднеквадратичное отклонение от реальной оценки эксперта. Второй блок – учится ранжировать два разных варианта перевода по оригинальному тексту или эталону. Обучение происходит при помощи Triplet Loss. Выходы обоих структурных блоков на этапе инференса взвешиваются и получается итоговая оценка качества перевода. Comet допускает безреференсную версию, основанную на модели, принимающей на вход только оригинал и перевод.

В рамках WMT Metrics Shared Task проводится комплексное сравнение метрик качества машинного перевода на предмет корреляции с человеческими оценками. В 2022 году этот анализ продемонстрировал, что использование метрик, основанных на нейронных сетях, более точно отражает человеческие представления о качестве машинного перевода, а также более устойчиво к изменению домена. Первые 6 из 20 строчек лидерборда занимают референсные метрики, а количество классических метрик не дотягивает и до половины. Еще одно важное ограничение классических метрик – их сложно сделать безреференсными, в то время как именно безреференсные метрики могут масштабироваться для оценки больших корпусов текстов, например, для валидации поточных переводов в крупных сервисах. Референсные метрики для этой цели использованы быть не могут, поскольку требуют предварительной человеческой разметки. На этом фоне, кажется, напрашивается вывод о том, что использование нейронных метрик явно является приоритетным вариантом. Но в этом случае проявляются все сложности, ассоциированные с DL в целом – неинтерпретируемость, галлюцинации, доменоспецифичность. Для определения высокоуровневых свойств метрик качества и их надежности в этом случае используются атаки. Атаки на метрики – это методология анализа отклика метрик при внесении небольших целевых изменений в перевод. Например, одна из наиболее известных атак на метрики качества машинного перевода CLARE предлагает небольшой процента удалений слов из текста и вставок новых слов в текст для определения чувствительности метрики к такого рода изменениям. Атаки на метрики помогают определить склонность метрики к оценке конкретных параметров перевода – грамматичности, семантики, дословного словарного соответствия и т.п.

Литература

1. The Georgetown-IBM demonstration, 7th January 1954, John Hutchins, From: MT News International, no.8,May 1994, pp. 15-18]
2. Philipp Koehn. 2004. Statistical significance tests for machine translation evaluation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 388– 395, Barcelona, Spain. Association for Computational Linguistics.
3. Chris Callison-Burch, Miles Osborne, and Philipp Koehn. 2006. Re-evaluating the role of Bleu in machine translation research. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, Trento, Italy. Association for Computational Linguistics.
4. Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers, Benjamin Marie et al.
5. COMET: A Neural Framework for MT Evaluation, Ricardo Rei et al., 2020
6. Benchmarking LLM-based Machine Translation on Cultural Awareness, Yao et al., 2024

Комментарии (1)


  1. JuliaEfimka
    05.02.2025 08:48

    Спасибо за интересную теорию и отдельно за свежую статью 2024 года по бенчмарку МТ на основе LLM! Скажите, применяли ли вы на практике данные метрики, в частности BLEU, которой посвящено так много критических разборов? И пробовали ли применить LLM as a judge - тоже довольно интересный подход к автоматизированной оценке качества перевода, когда большая языковая модель оценивает сама себя или другую модель. Он отчасти снимает ограничения предыдущих метрик, особенно BLEU, и позволяет работать в широком диапазоне языковых пар, но имеет ряд недостатков.