Онлайн-переводчик Google Translate теперь использует нейросеть для прямого перевода на русский, вьетнамский и хинди, сообщается в официальном блоге поискового гиганта.
Напомним, в сентябре 2016 года компания Google объявила о подключении к своему онлайн-переводчику Google Translate нейронной сети Google Neural Machine Translation (GNMT). Развивалась сеть при помощи глубинного обучения и составления единой базы смыслов слов человеческих языков. По оценкам специалистов компании, это должно было повысить качество прямого перевода с одного языка на другой.
После запуска проекта полгода назад инженеры Google постоянно увеличивали пул языков нейросети. Сначала нейросеть начала обрабатывать немецкий, французский, испанский, португальский и другие европейские языки. Кроме этого изучался китайский, корейский и турецкий. В совокупности нейросеть в первой волне охватила языки 35% населения планеты.
Кроме того, проведенная работа по сбору и анализу смыслов слов позволила инженерам создать переводчик для языковых пар, которых не было ранее, например, пару «Английский — Японский».
Преимуществом использования машинного обучения считается сам подход к обработке текста. Если обычные переводчики обрабатывают каждое слово по отдельности, то нейросеть переводит предложения целиком с учетом контекста и множественных смыслов, при этом сверяясь с грамматикой.
Технология все еще далека от идеальной, но повышение качества машинного перевода Google Translate на русский можно будет ощутить уже в ближайшее время. У нейросети нет нехватки в данных для обработки и обучения. По статистике поискового гиганта, через Google Translate ежедневно переводится до 140 млрд слов на 103 языках.
Комментарии (70)
NeoCode
07.03.2017 18:01+3Никогда бы не подумал что не было языковой пары «Английский-Японский». Я, когда нужно прочитать что-то на японском, специально перевожу на английский, так как с японского на русской вообще фигня получается.
Kendrick
07.03.2017 23:40-1Наверное имелась ввиду пара прямого перевода. Очень многие пары используют «средний» язык, т.е. например есть пара «Японский-Китайский» и «Китайский-Английский», таким образом если вы захотите перевести с японского на английский, то японский сначала переведется в китайский, а уже китайский на английский.
Mad__Max
15.03.2017 04:02+1Если текст дважды пропустить через
машинный переводчикжурналиста-копирайтера, то и не такие приколы могут образоваться.
В оригинале эта картинка использовалась для иллюстрации того, как появился прямой перевод в паре Японский <==> Корейский из изначально всегда присутствовавших пар «Японский <==> Английский» и «Корейский <==> Английский».
До подключения нейронных сетей в прошлом году с Корейского на Японский (и обратно) перевод шел транзитом через английский из-за чего качество очень сильно страдало. Как и в любых других двойных машинных переводах.
Из-за этого же переводы на русский с большинства языков кроме английского ужасны по качеству — т.к. идет двойной перевод через английский.
И вот в этом плане для русского прямые пары на базе нейросетей похоже еще подключить не успели…
Сейчас поиздевался над переводчиком — с английским действительно заметно лучше. А вот с немецкого или китайского на русский попробовал — по прежнему качество перевода хромает на обе ноги. Настолько хромает, что перевод с языка Х на английский читать и понятнее и приятней одновременно, чем перевод с языка Х сразу на русский.
mukizu
07.03.2017 18:11+4Жаль, что не много людей в паре русский-английский помогает там с переводом. Я всего сотню-полторы коммитов сделал в прошлом году и попал в топ 5% (гугл письма рассылал).
Dimchansky
08.03.2017 13:36А там — это где именно? Можно линк, где коммиты делают?
mukizu
08.03.2017 13:44+1https://translate.google.ru/
Под областью ввода есть ссылка «Присоединяйтесь к сообществу...». https://translate.google.ru/community
Mad__Max
15.03.2017 04:15+1Тоже в топ 5% попал.
Но последнее время там какой-то шлак пошел. Вместо улучшения качества перевода, шел какой-то сплошной поток чего-то похожего на надписи из гугл-мэпс или каких-то справочников типа желтых страниц (названия магазинов, ресторанов, организаций, местности/географических пунктов и т.д.).
Забросил это дело, халявных работников занимающихся вычиткой их карт пусть в других местах ищут.mukizu
15.03.2017 09:30-1Ну, мне попадалось вырванное из контекста название яойной манги ?\_(?)_/? Всякое бывает.
dipsy
07.03.2017 18:18+4Всё, переводчики-люди не нужны, если только совсем уж узкоспециализированные. Статьи с phys.org например переводит вполне адекватно, совсем откровенного бреда практически нет.
Вообще скачок качественный, никаких и близко похожих переводчиков ещё не было, всем сомневающимся в скором исчезновении всех профессий, рекомендую попробовать.
ru -> en
All translators-people are not needed, if only very narrowly specialized. Articles with phys.org for example translates quite adequately, quite frank delirium practically is not present.
In general, the leap is qualitative, there were not any similar translators yet, everyone who doubted the imminent disappearance of all professions, I recommend to try.
en -> ru
Все переводчики — люди не нужны, если только узкоспециализированные. Статьи с phys.org например переводит вполне адекватно, довольно откровенного бреда практически нет.
В общем, скачок качественный, подобных переводчиков еще не было, все, кто сомневался в неизбежном исчезновении всех профессий, рекомендую попробовать.Lsh
07.03.2017 18:33Вот бы ещё оно читать нормально научилось. А с переводом очень прикольно стало, да.
Lsh
07.03.2017 18:41+5Всё, переводчики-люди не нужны
А ещё контентщики для наполнения говносайтов. Взял чужой текст, перевёл туда — обратно. Получилось тоже самое, но другими словами.APLe
07.03.2017 20:49-1Я думаю, что если их алгоритмы могут создавать осмысленный связный текст на основе чужого текста, то и распознать собственный текст тоже смогут.
EnigMan
10.03.2017 16:34Я думаю, что если их алгоритмы могут создавать осмысленный последовательный текст, основанный на чужом тексте, они также могут распознавать собственный текст.
Таки да, смысл схожий, стиль теряется
MxMaks
08.03.2017 11:51Вы думаете до вас этот чужой текст еще никто так не перевел? :) Как вариант переводить не в англ, а в дойч например или fr.
Iona
07.03.2017 21:12+1все, кто сомневался в неизбежном исчезновении всех профессий, рекомендую попробовать
Сильный ИИ спалился?
hungry_ewok
07.03.2017 23:27/хмыкая/
Взял кусок общехудожественного текста, перевел… В общем, как раз узкоспециализированных оно может быть и заменит, но всё равно — обнять и плакать, до сносного состояния дорабатывать большим напильником.
robert_ayrapetyan
08.03.2017 00:32+2да нет, быть такого не может -> Yes no, this can not be. Переводчики-люди, пока не расходитесь.
dipsy
08.03.2017 07:44+4Да нет, быть такого не может! -> No, it can not be! -> Нет, не может быть!
Я бы уже потихоньку начинал собираться. И кредиты бы побыстрее выплатил, а новых не брал.
DistortNeo
08.03.2017 02:05По факту — всё тот дословный перевод, просто более согласованный.
Кстати, запятые вокруг "например" гугль так и не вставил.dipsy
08.03.2017 07:54+1По факту — этот хотя бы пытается, не всегда успешно, но пытается. Из всех доступных сервисов, включая яндекс-переводчик (а там тоже не дураки сидят и нейросети в хвост и гриву юзают), у гугла сейчас объективно лучшее качество, можно легко самому убедиться. До людей конечно не дотягивает, смысл текста в целом не понимает.
betrachtung
08.03.2017 04:49Всё, переводчики-люди не нужны, если только совсем уж узкоспециализированные.
А кто тогда будет проверять и корректировать гугловский перевод? Даже люди временами воротят что-то дикое, за ними перепроверять приходится более опытному переводчику.
kDiana
08.03.2017 18:02jp -> ru
???????????6????????????????????????
????????????6??????????????????????????????????????????????????????????????????
Современное мнение общественное мнение ", предусматривает ли если Великий Восток Японии землетрясения шесть лет после крупной катастрофы," Коджи Мацумото комментатор
Вскоре после того, как 6 лет со дня Великой Восточной Японии землетрясения. Это середина реконструкции дороги, которая инвестировала огромный бюджет, но, основываясь на опыте, что делать, чтобы подготовиться к следующей крупной катастрофы, такие как землетрясения Нанкай корыто, рассмотреть, что делать с финансовыми ресурсами.
— Ужасно, как и раньше. Ничего не поменялось.
dipsy
08.03.2017 18:08+3А если так?
Обсуждение публичных дебатов «Как вы подготовитесь к следующей большой катастрофе в 6-ом землетрясении в Восточной Японии?» Комментатор Коджи Мацумото
Это произойдет через шесть лет после Большого Восточного землетрясения в Японии. Перестройка огромного бюджета идет на полпути, но я рассмотрю, как подготовиться к следующей крупной катастрофе, такой как землетрясение в Нанкай-Тору, и как финансировать ее на основе опыта.
Поделюсь секретом лайфхака, только никому не рассказывайте: переводим по схеме jp -> en -> ru
Я думаю это мелкое недоразумение с jp ->ru напрямую, пофиксят в ближайшие дни.Mad__Max
15.03.2017 04:23Такое со всеми языками (я немецкий и китайский пробовал).
Похоже нейросети подключили только к паре русский <==> английский. По крайней мере с другими языками я качественных изменений в лучшую сторону не обнаружил. А вот с английским — да. Правда он мне и не нужен — это наоборот я гугл иногда учу лучше это направление переводить.
Mad__Max
15.03.2017 04:18Да, показательно. Двойной перевод туда-обратно это обычно был лютый фейл для всех машинных переводчиков.
rbnikitin
07.03.2017 18:26+2Ну сейчас
«Как стрелять из лука»
Переводится как
«How to shoot an onion»EjikVTumane
07.03.2017 18:54При этом
«Как стрелять из лука.»
переводится
«How to shoot a bow.»
стоило зарефрешить страницу :)
Lsh
07.03.2017 18:39У нейросети нет нехватки в данных для обработки и обучения. По статистике поискового гиганта, через Google Translate ежедневно переводится до 140 млрд слов на 103 языках.
Вот этот момент я не очень понял. Переводов много, но как это поможет натренировать сеть? Речь о кнопке «Предложить свой перевод»?Sadler
07.03.2017 18:43Если речь о первом этапе, тренировке word2vec, ей не нужно разметки и сопоставления слов и фраз разных языков для обучения, нужен лишь определённый объём текстовой информации. Вот дальше, на этапе LSTM, уже нужно думать, как бы скормить ей наиболее точные варианты перевода.
dioneo
07.03.2017 18:56+1GIF-ка из блога Google:
Scientists Claim to Have Found Our Planet’s Oldest Fossils
Встроенный в Chrome переводчик пока переводит по-старому.
В отличии от сайта Google Translate.
QtRoS
07.03.2017 19:57Туда-обратно:
Онлайн-переводчик Google Translator теперь предоставляет нейронную сеть для перевода на русский, вьетнамский и хинди, согласно официальному блогу поискового гиганта.
Напомним, в сентябре 2016 года Google объявила о подключении к своему онлайн-переводчику Google Neural Machine Translation (GNMT). Сеть была разработана с помощью углубленного обучения и составления единой базы данных значений слов человеческих языков. По мнению специалистов компании, это должно улучшить качество перевода с одного языка на другой.
После запуска проекта шесть месяцев назад, инженеры Google увеличили пул языков нейронной сети. Сначала нейронная сеть начала обрабатывать немецкий, французский, испанский, португальский и другие европейские языки. Кроме того, изучали китайский, корейский и турецкий языки. В целом, нейронная сеть была охвачена 35% населения мира в первой волне.
Вполне нормально, основная масса ошибок произошла при перевода из русского в английский.
GuMondi
07.03.2017 21:20+2Пользуюсь Google Translate для перевода с японского, после подключения нейросети, действительно, стал намного лучше переводить, но теперь он стал выбрасывать куски предложений которые не может перевести, а раньше выдавал не пойми что в таких случаях.
IntActment
08.03.2017 09:35Проверил — та же абракадабра:
Японский > Русский
????????>?Является ли веселит за хорошую работу.
???????????????>?Или больше, спасибо.
?????????????????>?Она закончилась. Большое спасибо заранее.
С учетом того, что это общепринятые дефолтные фразы, которые встречаются в каждом письме, нейросеть явно халтурит.Lsh
08.03.2017 10:39А можно как надо, для тех, кто японский не знает?
IntActment
08.03.2017 11:25+1Фраза????????? примерно переводится как «благодарю за проделанную работу», является общепринятым началом любого делового письма или как устное приветствие коллеги в конце рабочего дня. Пусть профессиональные переводчики поправят меня, если имеют более точный русский перевод. Остальные две фразы — варианты окончания письма, что-то вроде «На этом у меня всё. Надеюсь на дальнейшее сотрудничество». Насколько мне известно, гуглтранслейт прогонял (и, судя по всему, все еще прогоняет) перевод через английский язык, поэтому такой перевод звучит как бессмысленный бред. И, несмотря на новшества в работе переводчика, разницы я пока что не заметил.
Arxitektor
07.03.2017 21:37+2Авто перевод сайтов тоже через нейросеть или пока как обычно?
И кто сейчас лучше промт или гугл?
Может лет через 20 можно будет просто загнать в переводчик книгу и получить адекватный перевод.
за несколько минут.
Или вообще смотреть в онлайне любое видео на любом языке и понимать его благодаря автопереводу и озвучиванию. Ведь Гугл проект синтезатора речи тоже вроде пилит.dioneo
07.03.2017 23:09Субтитры на Youtube и сайты Chrome-переводчиком переводятся пока как обычно. Через translate.google.com сайты переводятся с помощью нового GNMT.
MegaVaD
07.03.2017 23:29-1Мне вот что интересно — будут ли когда-либо результаты обучения* в открытом доступе? Так, чтобы каждый мог локально ими воспользоваться. А то стандартные вещи по многу раз прогоняются через оборудование и людей.
И на этапе создания новых вещей (например — шрифтов) с помощью инструмента для машинного обучения сгенерированную БД к этому (шрифтам).
sgjurano
08.03.2017 09:35Он всё равно не понимает стилистику и культурные различия, но для передачи смысла вполне подходит :)
slonoslon
08.03.2017 09:36+1Прогресс большой, но до «переводчики больше не нужны» еще далеко. Лично я субъективно качество машинного перевода с английского на русский оцениваю так:
1. Полный бред, ничего не понять, но иногда смешно.
2. Сильно напрягшись, можно уловить какую-то часть общего смысла
3. Можно понять, о чем речь, но все-таки проще читать англоязычный вариант, чем такой перевод.
4. Примерно одинаковые усилия нужны на чтение оригинала и перевода.
5. Перевод читается легче.
Как правило, хороший художественный перевод, сделанный профессиональным переводчиком-человеком, однозначно попадает в категорию 5. Любительский перевод технического текста (многие переводные статьи в блогах, например) — в категорию 4. А Google сейчас для меня перешел из категории 2 в 3, и пока это все.
Romaker
08.03.2017 09:36В последние пару месяцев, заметил, что сервис гугла переводит с русского на английский и наоборот просто откровенный бред. И это был далеко не самый сложный текст, без сложных грамматических конструкций. Даже простые фразы и предложения коверкает так, что страшно после этого пользоваться таким сервисом. Вернулся к традиционному словарному переводу с lingvo. Еще заметил, что если раньше перевод по контексту был похож на исходный текст, то теперь это… просто ЭТО, даже жаль времени чтобы править такой кусок госсэ. Может есть нормальная вменяемая альтернатива?
red75prim
08.03.2017 10:51Туда и обратно:
За последние пару месяцев я заметил, что служба Google переводит с русского на английский и наоборот, просто глупости. И это был далеко не самый сложный текст, без сложных грамматических конструкций. Даже простые фразы и предложения искажаются, так что после этого страшно пользоваться такой услугой. Я вернулся к традиционному словарному переводу с lingvo. Он также заметил, что если раньше контекстный перевод был похож на исходный текст, теперь это… это просто ЭТО, даже жалко редактировать такой кусок госсета. Может есть нормальный разумный вариант?
zikasak
08.03.2017 20:16Как по мне, в некоторых местах переведенное получилось лучше оригинала, но в других — хуже.
Mayflower
09.03.2017 13:19Поэтому лось на латыни — это Юлий Цезарь?
Survivor2007
09.03.2017 13:47Уже поправили на «Elk»
Mayflower
09.03.2017 14:12У меня вроде бы все по-старому, даже в приватном режиме. https://translate.google.ru/#ru/la/%D0%BB%D0%BE%D1%81%D1%8C
Survivor2007
09.03.2017 15:58Сорри, я английский проверял, оказывается :)
В общем, лось, конечно, он не Цезарь, он tarandrus: http://www.ruslat.info/display.php?action=view&id=6752
SKolotienko
09.03.2017 18:39+1Заметил, что «циклические» переводы часто отлично сохраняют текст на исходном языке, но выдают неверный перевод в промежуточном. Примеры ru -> en -> ru:
«Я чувствую себя хорошо» -> «I feel myself good» -> «Я чувствую себя хорошо»
«Он перевёл бабушку через дорогу» -> «He transferred his grandmother across the road» -> «Он перевел свою бабушку через дорогу»
«В нашей группе много Иванов» -> «In our group there are many Ivanovs» -> «В нашей группе много Иванов»
И т.д.
Так что хоть, качество перевода стало сильно выше, точно так же выросла незаметность ошибок.Mad__Max
15.03.2017 05:18+1А во 2м примере что не понравилось? Что просто абстрактная бабушка превратилась в свою(родную) бабушку?
Так это не косяк переводчика, а разница в языках и культурах — в английском бабушка это только родственник, посторонних пожилых женщин бабушками не называют.
В 1м и 3м смысл передан правильно, претензия к грамматике как понимаю. Ошибочными я бы их не назвал — корявыми в плане стиля/правильности построения предложения — да.
Sadler
Скопипастил из их блога в Google Translate:
SexySvin
Ну будет с чем сравнить изменения через пару недель))
zikasak
так нейронная сеть для русского УЖЕ работает.
Sadler
Google Translate в своём переводе утаил этот факт, вот и ввёл человека в заблуждение.
dmitryredkin
Да ладно, неужели это машинный перевод? Больно уж ладно предложения скроены. Хотя смысл конечно иногда теряется…
Sadler
Проверьте сами, это же минутное дело.
Mad__Max
Да, странно как он целую фразу «starting right now» куда-то проглотил при переводе.
Mad__Max
Что довольно забавно старый вариант переводчика несмотря на намного более низкое качество перевода в целом этот момент не упустил:
«начиная прямо сейчас с хинди, Россия и Вьетнама. „
Но зато абсолютно не понял, что речь идет о языках, а не странах, а нейросеть это сразу уловила.
SexySvin
Но ей ведь еще нужно пару недель на обучение.
zikasak
Которое делается во время разработки. В готовый продукт идет уже обученная.
Sadler
Скорее всего, какое-то дообучение всё-таки будет производиться, чтобы учесть внесённые пользователями исправления перевода, если исправления работают не на уровне банальной замены фразы целиком.
SexySvin
Как я понимаю в используемой технологии вообще нету точку готовности, она всегда в процессе совершенствования самой себя.
Pakos
Ей дадут почитать комментарии.
old_gamer
По-моему, результат отличный. Может быть, я давно не пользовался гугл-транслейтом, но вот этот текст выглядит очень впечатляюще для машинного перевода, как по мне.
vanxant
Завтра ждите ТАКОЕ на всех хабрах страны!
kalmarius
Вот для сравнения, что напереводило Андроид-приложение в оффлайне: