Я видел много статей и восхищенных отзывов, в которых переводчик ChatGPT не уступает по качеству DeepL и Google, а иногда их даже превосходит. Как основателю компании Lingvanex, которая уже 6 лет занимается разработкой собственных решений по переводу, мне стало интересно насколько все это правда, а также насколько наше решение сопоставимо с ChatGPT. Нужно ли мне бояться такого сильного конкурента?
Для сравнения качества перевода мы подготовили тестовые датасеты на семи языковых парах:
Английский‑испанский
Английский‑немецкий
Английский‑русский
Английский‑французский
Английский‑итальянский
Английский‑португальский
Английский‑финский
Каждый тестовый датасет включает в себя в районе 2500 строк и охватывает предложения разной тематики, длины, стилистики и форматирования, чтобы исключить подбор текста под конкретный переводчик.
Совсем недавно ChatGPT предоставил API версии 4 в ограниченный доступ. На текущий момент доступ к нему имеют только ранее созданные аккаунты, которые уже платили за версию 3.5. Судя по отзывам, новая версия сильно продвинулась в плане качества относительно версии 3.5. И это мы тоже проверим!
Для тестирования возьмем 2 метрики BLEU и COMET:
BLEU — общепризнанный стандарт для тестирования качества перевода. По умолчанию будем использовать версию SacreBleu. Эта версия используется в конференции по машинному переводу WMT и различных международных соревнованиях. В этой метрике сравнение перевода идет по количеству n‑gram (комбинаций слов), которые идут друг за другом. Цель метрики в том, чтобы найти максимально совпадающие комбинации между переводом, сделанным человеком и машиной. Сравнение начинается с кластеров в четыре слова. Если таковых не обнаруживается, но идет поиск трех n‑gram. При дальнейшем отсутствии совпадений можно дойти до одного n‑gram. Очки начисляются за каждые последовательности слов (токенов), которые нашла программа. Минус метрики в том, что она не учитывает синонимы и если в переводе мысль передана верно, но другими словами, то она покажет 0.
COMET — метрика, разработанная для решения проблемы сравнения синонимов, с которыми не справляются метрики, основанные на символьном сравнении двух строк. Если результатом перевода будет похожая по смыслу фраза, но описанная другими словами, то метрика покажет похожие результаты. Стоить отметить, что ее результат также будет зависеть от разнообразия языкового корпуса, на котором будет построен классификатор для сравнения. Данная метрика широко используется, как альтернатива метрике BLEU.
Промпты, которые мы использования для перевода через ChatGPT:
You are TranslateGPT. You translate user messages from English to Italian (Finnish / French / German / Portuguese / Russian / Spanish). You are the most accurate English to X translator in the world.
Ниже показаны графики с результатами тестов:
Перевод англо-финский
Мы взяли эту пару как пример языка, который имеет сложную грамматику. На графике видно, что по обоим метрикам наше решение превосходит обе версии ChatGPT
Перевод англо-французкий
На этой паре языков заметно улучшение качество перевода ChatGPT 4 относительно версии 3.5. По метрике COMET ChatGPT4 уже немного превосходит Lingvanex.
Перевод англо-немецкий
При переводе не немецкий язык ситуация такая же, как с французским. Но отставание по метрике COMET у Lingvanex — минимальны.
Сведем все отличия в таблицу. Красным шрифтом покажем где ChatGPT уступает Lingvanex. Зеленым шрифтом пометим, где превосходит. Данные актуальны на 31 июля 2023 года.
Цена перевода Lingvanex рассчитывалась исходя из стоимости месячной аренды GPU сервера начального уровня (150 дол) + цена перевода за языковую модель Lingvanex в месяц (от 100 дол) и количества символов, которых можно перевести за месяц на этой конфигурации.
Выводы
По результатам теста видно, что если ChatGPT 3.5 в большинстве случаев уступает Lingvanex в качестве перевода, то ChatGPT4 нередко достигает по метрике COMET.
Стоит учитывать, что на данный момент перевод больших объемов текста с помощью ChatGPT4 является очень дорогим. Для того чтобы проделать тесты для этой статьи и перевести около 20 тысяч строк с помощью ChatGPT4, было потрачено 45 долларов. Расчет цены перевода может сбивать с толку, поскольку заранее сложно рассчитать в токенах, сколько вы заплатите за перевод.
На текущий момент скорость перевода через ChatGPT 4 нестабильна, скорей всего она зависит от текущей загруженности их серверов. Между запросами нам приходилось делать перерыв 3–4 секунды. В целом, на тестовом датасете скорость перевода составила около 8 слов в секунду. Наше решение позволяет переводить несколько тысяч слов в секунду даже на слабых серверах. К тому же было замечено цензурирование перевода: если в строке присутствует сквернословие или мат, ChatGPT не будет переводить все предложение.
Таким образом, ChatGPT лучше использовать для стилистического перевода небольших объемов текста без особых требований по безопасности. Причем стили и тематики можно менять на лету. С помощью подбора промптов можно добиться улучшения качества под конкретную задачу, но для этого придется перебрать достаточное их количество.
Решения по переводу Lingvanex лучше использовать там, где нужны большие объемы перевода по низкой цене, безопасность, скорость и стабильность.
Я допускаю что на каких‑то парах языков, разница в качестве перевода может быть другой, но тестировать все возможные пары долго и дорого.
В целом, решения от ChatGPT и Lingvanex предназначены для разных целей и их надо выбирать в зависимости от задачи.
Если вам подходит решение нашей компании, то мы предоставляем бесплатную двухнедельную пробную версию нашего сервера, мобильного SDK и Cloud API. Наша компания также предлагает решения по транскрипции речи (аудио в текст).
Если хотите протестировать наше решение, пишите на info@lingvanex.com
Комментарии (15)
Helgy716
01.08.2023 07:10+1Пожалуйста, приводите графики от нуля, а то разница 91-93 у вас выглядит устрашающе.
janvarev
01.08.2023 07:10Справедливости ради, у метрики COMET все довольно плохо с бейзлайном в 0. Я, например, подавав оригинальную строку в качестве перевода (т.е. перевод не делался, сохранялась оригинальная строка), получал рейтинг от 50 до 80. Так что там имеет смысл сравнивать где-то от 80, тот же Гугл Транслейт и Дипл различаются где-то на 1 пункт, если не меньше - это надо иметь ввиду. (Переводчик старого поколения Argos выдает около 83).
Aliaksei_Rudak Автор
01.08.2023 07:10Согласен, что COMET не идеальный, но среди переводчиков он сейчас наиболее популярный кроме BLEU. Выбирал между ним и BERTScore.
janvarev
01.08.2023 07:10Да, совершенно согласен. И я понимаю, почему выбрали COMET и BLEU - для них есть быстрый способ получить оценки на Питоне, сам им пользуюсь. Это просто замечание по бейзлайну - что от 0 не особо имеет смысл делать график :) (заметил, что в статье уже от 80, это прям хорошо)
iwram
01.08.2023 07:10>мы подготовили тестовые датасеты на семи языковых парах
Обычно далее пишут, можете ознакомиться и протестировать сами по ссылке --> Мы ведь максимально открыты. Правда?
Aliaksei_Rudak Автор
01.08.2023 07:10Правда! Мы максимально открыты.
Качество перевода можете проверить тут
Если вам нужны тестовые датасеты - напишите на почту, также мы вам дадим бесплатный ключ API на перевод 20 миллионов и сами проверите )
sshikov
01.08.2023 07:10Попробуйте перевести любую компьютерную книгу, очень интересно, что вы сами скажете о качестве? На сегодняшний день, все что я пробовал, как правило никуда не годится (не ваш продукт, а скажем так, вообще все). Ну т.е. скажем переводим английский-русский что-нибудь компьютерное — получаем "текст, похожий на перевод", надо которым еще работать и работать. Даже близко на человеческий перевод не похоже.
Aliaksei_Rudak Автор
01.08.2023 07:10Пробовали переводить такое. Там проблема не столько в переводе, сколько в парсере для сложной верстки страниц. Особенно когда Pdf. Сейчас работаем над этим, это очень сложная задача :)
sshikov
01.08.2023 07:10Ну, как по мне, там не в парсер упирается. Можно любой текст взять, хоть без форматирования. Во всяком случае, у меня претензии вовсе не к форматированию, а к смыслу, пропаданию согласования слов в предложении, выбору неправильных вариантов перевода слов, и т.п.
isBlaze
Вы конечно правы, что перевод в ChatGPT имеет особенности. Высокая цена, определенная доля рандома, фильтры толерастии. Но при этом, чатгпт — инструмент "всё в одном". Мы можем сгенерировать текст по запросу, поправить, перевести, проанализировать и получить код для выкладки в блог с форматированием. и всё в одном окне. поэтому, в силу простоты, он вполне отъест некоторую нишу у переводчиков в том числе.
Aliaksei_Rudak Автор
На мой взгляд, ChatGPT будет захватывать большую нишу у компаний, которые занимаются локализацией, там где еще большая доля перевода человеком. Например: перевод игр, инструкций к технике или каких-то сложных вещей, где нужно перевести простыми словами, чтобы понять смысл.
zag2art
Скоро они отберут ваш хлеб почти полностью. Практика показывает, что машинная мощь все решает. Рано или поздно. Так было с кучей областей. В шахматах сначала самыми умными были программы, построенные на хитрых алгоритмах - а по итогу всех победила система осуществляющая чуть-ли не полный перебор. То же в Го, в компьютерном зрении и т.д. Прочтите статью - https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf Может быть ее стоило бы перевести для Хабра
Aliaksei_Rudak Автор
В ближайшем будущем будет замена рутинного труда, который легко автоматизировать. Все, что посложнее - вряд ли. Когда тот же ChatGPT сможет мне написать плагин для перевода сайта на Wordpress или Joomla, который будет работать, тогда может и поверю. В данный момент - вряд ли.