Тут нам недавно нашептали, что уже через пяток лет переводчики и преподаватели языков будут просто не нужны. А все дело в том, что очень активно развиваются нейронные системы искусственного интеллекта.

Мол, они будут так качественно и быстро переводить текст и речь, что потребность в живых специалистах просто пропадет.

Мы, конечно, посмеялись, но задумались. И решили поглубже окунуться в тему и узнать, что там с искусственным интеллектом и действительно ли он оставит нас без работы.

Что такое искусственная нейронная сеть


Если вкратце, то искусственная нейронная сеть создается в попытках имитировать работу человеческого мозга с помощью математических алгоритмов.

Основная особенность нейронной сети — способность самообучаться. С точки зрения математиков этот процесс выглядит как задача нелинейной оптимизации, в которой используются методы дискриминантного анализа и кластеризации.

Если для гуманитариев, то искусственная нейронная сеть способна анализировать данные с помощью сложных алгоритмов и проводить операции как с четко определенными математическими системами, так и с нечеткими языковыми.
Два примера, которые мы разберем.

Четко определенная математическая система — шахматы. В игре есть ряд четких правил, которые абсолютны к выполнению. Есть конкретная цель — поставить мат сопернику.

И есть огромный массив возможных ходов, среди которых нужно выбрать те, которые приведут к победе.

Сложность анализа шахматной партии в том, что количество уникальных шахматных партий близится к числу 10^120. Да-да, это 10 в 120 степени. К сравнению, количество атомов в обозримой Вселенной примерно равно 10^79.

Проанализировать все позиции физически нереально. Поэтому система вынуждена выбирать ходы и приемы, которые ведут к немедленному выигрышу или стратегическому усилению позиции.

Второй пример использования нейронной сети — перевод с одного языка на другой. Здесь абсолютно другая система обработки данных, ведь существует сотни правил и тысячи нюансов языков, которые нужно учитывать при переводе.

Кроме того, системе нужно понимать контекст, чтобы переводить непереводимые слова или каламбуры. Иначе как можно узнать правильный перевод предложения с глаголом «set», у которого только признанных значений 44 штуки?

Или еще более сложная задача — передать тонкий английский юмор, чтобы над ним мог посмеяться русский. Или еще более сложная — перевести стих. Или… ну вы поняли.

Теперь вкратце о том, как работает нейронная сеть.

Система сначала раскладывает данные на элементарные составляющие. А затем один или несколько скрытых слоев из алгоритмов анализируют данные и проводят преобразование.



В глубоких нейронных сетях есть несколько слоев алгоритмов, которые занимаются анализом. Часто они носят каскадный характер, при котором информация из низшего слоя передается на слой, который стоит в иерархии выше и обрабатывает информацию на другом уровне.



При этом если алгоритмы находят четкие зависимости в данных, то на их основе создаются новые алгоритмы.
В шахматах, к примеру, машина очень быстро «изобретает» тактику быстрого развития фигур и захвата центральных полей.

А все потому, что подобные маневры практически всегда дают преимущество в дебюте.

Заметим, что в правилах игры такого и близко нет, но большинство сыгранных партий подтверждают гипотезу, поэтому машина начинает ее использовать сама.

***

То же относится и к переводу значений слова, которые на разных языках могут сильно отличаться.

К примеру, возьмем слово «лук». У него два основных, но кардинально разных варианта значений — овощ («onion») и стрелковое оружие («bow»). Есть еще третье из сленга — «луком» называют сочетание одежды или модный образ (калька с английского «look»). Оно используется редко, но нейросеть должна также его «знать».

Чтобы узнать, какой вариант перевода использовать, нейронная система присваивает каждому значению собственные параметры, которые также зависят от слов, используемых рядом в предложении.

Так, в предложении «Милый, купи килограмм лука и картошки» система переведет «лук» как «onion». А все потому, что рядом стоит «килограмм», который со стрелковым оружием не используется, и «картошка», которая тоже относится к параметру «овощ».



Аналогично и с предложением «Стрелок натянул свой лук и пустил стрелу во врага». «Натянуть» можно только лук как оружие. Плюс есть слово «стрелок». Поэтому получаем перевод — «bow».



Интересно. Слово «стрела» в этом случае не будет учитываться как значимое при определении значения слова «лук». А все потому, что «стрела» может также означать и зеленый стебель лука как овоща. Поэтому в систему рано или поздно будет добавлено исключение, которое не будет учитывать в контексте «лука» слово «стрела».
По мере обучения системы количество алгоритмов и параметров растет. Некоторые из них совершенствуются и становятся сложнее, некоторые из них заменяются более компактными вариантами.

И в результате получается феномен, когда по своим выводам действиям машина становится близкой к человеку. И это несмотря на то, что там все равно используется система алгоритмов, пусть даже сложных и многоуровневых.

Пусть кибернетики и математики не ругаются. Если что, то мы — гуманитарии в хорошем смысле этого слова, и статью писали для себе подобных гуманоидов.

Пара слов об Alpha Zero и шахматах




В 2017 году DeepMind, дочернее подразделение компании Google, выпустило обновленную программу для нейронных сетей. Протестировать работу программы разработчики решили на самых популярных стратегических играх с четко установленными правилами: шахматы, го и сёга.

Процесс обучения программы шахматам занял всего лишь 24 часа. В систему были введены только правила игры — и все. Никаких дебютных библиотек или баз данных партий. Только правила. И 24 часа программа играла сама с собой.

В первой партии делались абсолютно случайные ходы. Правда, ее нельзя нигде посмотреть — информация взята со слов разработчиков. В результате одна сторона проиграла, и система посчитала, что действия второй стороны были лучше для выигрыша.

Через 24 часа и 44 миллиона партий, сыгранных с самой собой, AlphaZero стала сильнейшим игроком в шахматы в истории игры. Рейтинг Эло AlphaZero составляет примерно 3500 пунктов, хотя по разным данным он доходит и до 5000.

Для сравнения, средний рейтинг любителя — 1200 Эло, мастера спорта по шахматам — 2200–2400 Эло. Максимальный рейтинг Эло, полученный человеком, имеет Магнус Карлсен, действующий чемпион мира. 21 апреля 2014 года он достиг значения 2889,2 пунктов Эло.



Alpha Zero же играет примерно на 600 пунктов сильнее (в самом оптимистическом варианте). Это все равно что мастер спорта играет с второразрядником. И второразрядником здесь выступает как раз сильнейший игрок-человек.

Для ценителей шахмат. Вот разбор некоторых партий Alpha Zero против Stockfish от российского гроссмейстера Сергея Шипова. И скажем честно, мы были впечатлены.
Alpha Zero и Stockfish: в чем разница

Stockfish была сильнейшей компьютерной шахматной программой до тех пор, пока Alpha Zero ее не унизил.

Примечательно, что Stockfish за секунду анализировал 70 миллионов позиций, а Alpha Zero — только 40 000, которые считал перспективными по методу Монте Карло.

То есть, нейронная сеть оценивает не каждый отдельный ход, а сумму итогов розыгрышей ходов, отсекая при этом розыгрыши, которые ведут к проигрышной позиции.

В результате Alpha Zero тратил на анализ на 99,99% меньше ресурсов.

В результате из 100 партий Alpha Zero выиграл 28, 72 свел вничью и не проиграл ни одной.
Что касается шахмат, то нейронный искусственный интеллект уже превзошел человека и своих более старых машинных собратьев.

Но это по факту касается замкнутой системы с небольшим определенным изначальным набором правил.

Теперь давайте разберемся с языковой системой.

Нейронный искусственный интеллект и перевод




Нам хорошо знакомо детище компании Google в области переводов — Google Translate.

Так вот, Google Translate с переводами работает немного не так, как Alpha Zero с шахматами. В шахматах система анализирует отдельные комплексы ходов, которые приводят к максимально выгодному результату. Для переводов же используется двунаправленная сеть. Один поток разделяет оригинальное предложение на смысловые элементы, а второй — воспроизводит их в правильном порядке на другом языке.


Примерно так это происходит. Предложение разбивается на составляющие. Причем слово — это не наименьшая составляющая, ведь смыслы слова считаются более глубоким уровнем.

Полученные составляющие элементы анализируются по смыслам с помощью алгоритмов — тем самых самообучающихся скрытых слоев. Предложение анализируется сначала по частям, затем — все вместе и даже в обратном направлении. Ведь, к примеру, в немецком языке частица «nicht» в конце предложения в корне меняет весь его смысл.


Схематическое отображение процесса. Каждый слой алгоритмов анализирует предложение в разных конфигурациях, а потом «собирает» из полученных смыслов предложение на другом языке с учетом его грамматических особенностей.

Но если с шахматами все ясно, то язык — система более гибкая в правилах, которая в тому же допускает перевод предложений, точных не только «по букве», но и «по духу». То есть, переводчик может сознательно пожертвовать точностью дословного перевода, чтобы глубже передать смысл.

Художественный перевод стихов


Нарицательным примером можно считать перевод стихов. Ведь практически невозможно перевести даже одно четверостишье так, чтобы сохранить сразу и ритм, и расположение слов, и полный смысл.

Здесь просто не может быть единых алгоритмов, ведь часто приходится кардинально переделывать стих, чтобы передать его реальный смысл.

Конечно, перевод стихов — это одна из самых сложных областей лингвистики, но ведь нейронные сети уже показали себя лучшими в точных вычислениях, поэтому начнем именно с самого сложного.



Для примера возьмем второй сонет Шекспира. Попеременно приведем оригинальный текст, перевод С. Трухтанова (выбрали этот вариант из многих чисто субъективно) и перевод от Google Translate.

Оригинал:

When forty winters shall besiege thy brow,
And dig deep trenches in thy beauty's field,
Thy youth's proud livery, so gazed on now,
Will be a tatter'd weed, of small worth held:
Then being ask'd where all thy beauty lies,
Where all the treasure of thy lusty days,
To say, within thine own deep-sunken eyes,
Were an all-eating shame and thriftless praise.
How much more praise deserved thy beauty's use,
If thou couldst answer «This fair child of mine
Shall sum my count and make my old excuse,»
Proving his beauty by succession thine!
This were to be new made when thou art old,
And see thy blood warm when thou feel'st it cold.

Как видите, английский здесь явно устаревший — есть даже единственное число второго лица, которое в современном английском не используется. А это еще больше усложняет перевод.

В общем, не будем тянуть и просто посмотрим разницу между человеческим и машинным переводом:



И если честно, то это далеко не лучший перфоманс Гугла. Возможно, именно поэтому адепты машинных переводов конфузятся, когда их спрашивают, будут ли работать их алгоритмы со стихами. Ведь даже хваленый Google Translate с этим даже и близко не справляется.

Художественный перевод прозы


Раз так, попробуем что-нибудь попроще. Художественная проза. «Великий Гэтсби» Фицджеральда.



Оригинал:

“In my younger and more vulnerable years my father gave me some advice that I’ve been turning over in my mind ever since.

“Whenever you feel like criticizing any one,” he told me, “just remember that all the people in this world haven’t had the advantages that you’ve had.”

Теперь сравним переводы человека и машины. В качестве защитника человечества мы взяли перевод Н. Лаврова.



Перевод Лаврова не совсем точно отвечает оригиналу. Есть изменения в расположении словосочетаний, предложения несколько более расширены, чем на английском. Но в общем впечатление гармоничное, смысл и настроение переданы полностью.

Машинный перевод более точный в плане механики — предложения переведены именно так, как написаны в оригинале. Смысл передан достаточно неплохо, но есть проблемы с «ты-вы» да и звучит все довольно топорно.

В художественных переводах можно немного пожертвовать точностью в угоду благозвучности или для гармоничности фраз. Переводчики-люди этим пользуются, даже излишне часто, а машина — нет.

И что дальше?


Правда, ради справедливости нужно упомянуть, что технические тексты, где важна именно дословная точность перевода, Google Translate переводит отлично и практически без ошибок. Но вот тех персонажей, которые утверждают, что переводчики через 5-10 лет останутся без работы, можно смело отправлять в далекое пешее путешествие.

Существующие процессоры и алгоритмы обработки данных могут справляться с системами, в которых есть ограниченный набор правил. Шахматы или го — именно такие. Но вот с гибкими разновидностями систем вроде языков, где границы правил размыты, программе приходится надстраивать излишне сложные алгоритмы, которые работают далеко не идеально.

Не исключено, что алгоритмам нужно просто больше времени на обучение для точной работы с языками. Что ж, мы будем делать свою работу дальше и вполуха следить за успехами нейронных сетей на этом поприще.

Но пока не надейтесь на искусственные нейронные сети — учите английский и развивайте свои собственные.

EnglishDom.com — онлайн-платформа по изучению английского





Прокачай разговорный английский на онлайн-курсах от EnglishDom.com. По ссылке — 2 месяца подписки на все курсы в подарок.

А для живого общения выбирай обучение по Skype с преподавателем. Первый пробный урок — бесплатно, регистрируйся тут. По промокоду goodhabr2 — 2 урока в подарок при покупке от 10 занятий. Бонус действует до 31.12.18.

Комментарии (24)


  1. Sonicut
    07.11.2018 12:39

    тест


  1. uncle_dima
    07.11.2018 13:05

    Машинный перевод напомнил Гарри Поттера в переводе Маши Спивак :)
    Правда, от него тоже польза есть: ребёнок разочаровался и стал учить английский, чтобы прочесть нормальную версию.


    1. EnglishDom Автор
      07.11.2018 13:25

      Про перевод Гарри Поттера Марией Спивак тоже обязательно напишем. Там не все так однозначно, как может показаться на первый взгляд.
      Но Злодеуса Злея мы ей тоже не простим.


      1. uncle_dima
        07.11.2018 17:13

        А шею удвоенной длины? :)


    1. klirichek
      07.11.2018 18:40

      Тут тоже всё неоднозначно.
      Есть перевод Маши Спивак, когда она была "в опале" (и рулил перевод Росмэна).
      Есть отредактированный перевод, где её вдруг признали (и лучше бы не признавали так то).
      Всё строится где-то в районе 2004-го года.


      (Чтобы оценить более предметно перевод Маши именно как переводчика — рекомендую посмотреть "Автостопом по Галактике". Переводила она, и излишнего ажиотажа не было, так что эксперимент достаточно "чистый").


    1. CoolMind
      07.11.2018 22:17

      Никогда не понимал мнения о том, что надо что-то читать в оригинале и переводчики не могут передать смысла, ведь другой язык — другая культура, мышление и всё такое. Могут, и в этом мнении я не одинок, дискутировал с филологами. Проблема лишь в качестве перевода. Люди в основном похожи друг на друга: две руки, одна голова, одинаковые органы чувств, встречались в жизни с похожими проблемами. Следовательно, и мыслят примерно одинаково. По крайней мере, речь на английском поймут, если знают язык. Под большинство явлений в языках уже есть соответствующие слова. Может быть, какие-то оттенки значений отличаются, но в целом перевести одну конструкцию в другую не составляет труда. Учить английский только ради чтения в оригинале смысла не имеет, т.к. читать будет сложно, скучно, и интерес пропадёт ещё раньше, чем будет прочитана первая глава.


  1. dipsy
    07.11.2018 13:05
    -1

    Но вот тех персонажей, которые утверждают, что переводчики через 5-10 лет останутся без работы, можно смело отправлять в далекое пешее путешествие.
    А через сколько останутся? Через 15-30 лет? А кто именно останется через 5 лет, переводчики стихов на старославянском староанглийском? Давайте вспомним где были машинные переводчики 5 лет назад, ещё без нейросетей, чисто на алгоритмах.
    Насчет примеров гугл-перевода, я щас одну вещь странную скажу, слежу за темой и периодически проверяю качество перевода, несколько месяцев назад, когда гугл анонсировал перевод с нейросетями, качество перевода сильно улучшилось, но через некоторое время опять ухудшилось, может сети поглупели, может ещё что. А вот у яндекса те же нейросети переводят вот так (на примере прозы):
    В мои молодые и более уязвимые годы мой отец дал мне несколько советов, которые я с тех пор вспоминаю.
    «Всякий раз, когда тебе захочется кого-то критиковать, — сказал он, — просто помни, что не все люди в этом мире имели преимущества, которые были у тебя.


    1. IlyaLion
      07.11.2018 13:28

      Согласен. Когда в 2016 году AlphaGo выиграла Ли Седоля, все были очень поражены, так как считалось, что для появления подобной программы должно пройти ещё 5-10 лет


    1. EnglishDom Автор
      07.11.2018 13:34

      Когда появилось телевидение, эксперты тоже говорили, что театр скоро умрет.

      А если серьезно, нейросети способны здорово упростить коммуникацию между иностранцами и даже читать тексты на других языках, но в ближайшее время им никто не станет доверять серьезные функции.

      Чтобы нейросеть перевела документ на покупку квартиры? В EnglishDom такой документ точно никто не подпишет.

      Пока что в переводах Гугла и Яндекса нет стабильного качества. А вот когда оно будет — это уже вопрос не к нам, а к разработчикам.


  1. Zhrun
    07.11.2018 13:28

    В результате из 100 партий Alpha Zero выиграл 28, 78 свел вничью и не проиграл ни одной.

    У меня что-то с математикой?


  1. EnglishDom Автор
    07.11.2018 13:35

    Не-не, это вам показалось :)
    А если серьезно, описочка была, которую уже поправили, спасибо


  1. Hardcoin
    07.11.2018 14:04

    вот тех персонажей, которые утверждают, что переводчики через 5-10 лет останутся без работы, можно смело отправлять в далекое пешее путешествие

    12 лет назад туда отправляли всех, кто предполагал, что машина сможет играть в Го на уровне про. А сейчас она играет лучше любого про. Английский сложнее? Да, возможно. Но выбирать своей профессией переводы имеет смысл только тому, кто это и дело реально любит и есть талант. Спрос на низко и средне качественные переводы через десять лет пропадет. Место останется только для топовых переводчиков.


    1. klirichek
      07.11.2018 18:45

      Мне почему-то навязчиво хочется читать тут не "лет", а "месяцев". Ну или где-то посередине (декады… месяцы… кварталы… полугодия).


  1. BingoBongo
    07.11.2018 15:12

    На пикабу есть перевод оригинальной статьи про AlphaZero + подведение итогов


  1. Wesha
    08.11.2018 02:33

    «Она уронила карандаш на стол и сломала его.»

    Машинно-переведите. Good luck.


    1. cgnrat
      08.11.2018 02:53

      Гугл транслейт говорит:
      "She dropped the pencil on the table and broke it."


      Может не особо изящно, но вроде по смыслу. Или я не понял чего-то?


      1. Wesha
        08.11.2018 02:56

        Хохма в том, что мы с Вами (в отличие от) с дивной лёгкостью ответим на вопрос «что оказалось сломано в итоге — карандаш или стол?».


        1. cgnrat
          08.11.2018 03:00

          Ну это догадка. Приведите пример, который подставит транслейт. Это отнюдь не сложно, но конкретно ваш пример этого не демонстрирует.


        1. cgnrat
          08.11.2018 03:10

          Строго говоря, из вашего примера и не следует, что сломано. Можно представить себе контекст и для сломанного стола.


          В конце концов речь на данный момент не идет о полноценной замене переводчиков. Речь о том, что технология развивается семимильными шагами в этом направлении. Да, экстраполяция плохой метод прогноза, но все же определенные границы вырисовываются.
          Качество машинного перевода улучшается на глазах. Посмотрим.


  1. we1
    08.11.2018 08:12

    Гуглоперевод становится все хуже. Именно с техническими текстами за последние два года стало очень много фактических ошибок (когда перевод слова противоположен по смыслу).


    1. DelphiCowboy
      08.11.2018 09:16

      Хуже, то что images.google.com — стал своевольным, вместо чётко заданной для поиска конкретной картинки выдаёт все по его мнению «похожие».


      1. Wesha
        09.11.2018 01:03

        Ну так роботы, того, отакуэ.


  1. Henry7
    09.11.2018 22:49

    Проблема машинного перевода в том, что сами программисты не являются профессиональными переводчиками и не могут переводить так, как это делают профессиональные лингвисты-писатели.
    Как можно обучить машину тому, что не знаешь сам?


  1. Togran
    10.11.2018 17:56

    А все потому, что рядом стоит «килограмм», который со стрелковым оружием не используется

    Ещё как используется, особенно с луком. Это сила натяжения тетивы, например