В 1959 году один из ведущих лингвистов и математиков того времени, Йегошуа Бар-Хиллел, опубликовал знаменитую статью: «Демонстрация неосуществимости полностью автоматического высококачественного машинного перевода»[1]. С тех пор привидение мальчика Джонни, оставившего коробку с игрушками в манеже, как назгул следует по пятам мечтателей, не жалеющих денег инвесторов на поиски вавилонской рыбки. Прошло почти 60 лет — целая жизнь (а для компьютерных технологий — как минимум четыре), но Джонни все еще тут: дышит в затылок нейросетям глубинного бурения, не дает расслабиться hadoop-кластерам.

image

В 2018-м верный перевод текста «John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy» столь же недоступен для электронных мозгов, как и в 1959-м. Тезис Бара-Хиллела состоял в том, что ни одна полностью автоматическая система машинного перевода никогда не сможет верно определить значение слова pen (детский манеж) в данном контексте, хотя для человека оно совершенно очевидно. Как показало наше мини-исследование, несмотря на большие успехи в области развития совокупного искусственного интеллекта человечества, достигнутые в последнюю пятилетку, своей актуальности он не потерял.

Google Translate


Джон искал свою игрушечную коробку. Наконец он нашел это. Коробка была в ручке. Джон был очень доволен.

image

Microsoft Translator


Джон искал свою коробку с игрушками. Наконец, он нашел его. Коробка была в ручке. Джон был очень счастлив.

image

Promt онлайн


Джон искал свою игрушечную коробку. Наконец он нашего его. Коробка была в ручке. Джон был очень счастлив.

image

Amazon Translate


Джон искал свою коробку для игрушек. Он, в-то, его нашли. Коробка была в ручке. Джон был очень дожен.

image

Яндекс.Переводчик


Джон искал свою игрушечную коробку. В конце концов он нашел его. Коробка была в ручке. Джон был очень счастлив.

image

Babylon Translation


Иоанна была его Игрушкой. Наконец, он нашел его. Поле было в перо. Джон был очень рад.

image

Как видно, пять из шести протестированных систем автоматического перевода полностью согласны, что коробка была в ручке. Старенький Babylon оказался креативнее других: сообщив, что Иоанна была его игрушкой, видимо, заподозрил подвох, и предположил, что «поле было в перо». Amazon Translate – сервис нейронного машинного перевода, обеспечивающий быстрый, высококачественный и доступный по стоимости перевод с одного языка на другой (цитата с веб-сайта производителя) – порадовал неологизмом «дожен» (happy) и фразой «он, в-то, его нашли». Эпичное «он нашел его» на фоне этих достижений смотрится даже как-то буднично.

Но есть и плюсы:


  • поскольку сложно предположить, что разработчики не знали о существовании данного челленджа, стоит отметить их абсолютную профессиональную честность. Никто не захардкодил!
  • общий смысл происходящего почти всегда может быть восстановлен головным мозгом среднего русскоговорящего homo sapiens-а даже при наличии «он, в-то, его нашли» и загадочного «дожен». Странная история с Иоанной и тем, кто внезапно нашел Джона — скорее исключение, подтверждающее правило.

Поэтому наши выводы не будут сильно отличаться от выводов профессора Бара-Хиллела, а рекомендации не будут сильно отличаться от рекомендаций, сформулированных в 1966 г. в докладе «Язык и машины» консультативного комитета по автоматической обработ­ке естественных языков (ALPAC) при Национальной академии наук США [2]. В нем советовали не тратить деньги налогоплательщиков на нереалистичные проекты, но при этом подчеркивали потенциальную полезность технологий компьютерного перевода как источника вспомогательной справочной информации для человека.

Никогда-никогда-никогда не полагайтесь полностью на машинный перевод. По-максимуму используйте возможности современных электронных систем для поиска вариантов перевода в контексте. На данный момент доступно множество бесплатных онлайн-словарей на разных языках, контекстный поиск примеров употребления — только представьте, как вы делали бы это без компьютера в библиотеке!

Максимально используйте возможности, предоставляемые электронными тренажерами: на аудирование, формирование словарного запаса, закрепление понимания различных грамматических конструкций.

И, главное, не испытывайте иллюзий. Как и раньше, чтобы научиться понимать письменный текст или речь на другом языке, вам придется приложить немало усилий. Ваше преимущество в том, что в 2018-м году у вас множество глупых, но старательных и быстрых электронных помощников.

Всегда ваш, Puzzle English

[1] “А demonstration of the non-feasibility of fully-automatic high-quality machine translation”; Appendix IV of “Report on the state of machine translation in the United States and Great Britain.’ Hebrew University, Jerusalem, Israel, February 1959; 6pp.

[2] “Language and machines: computers in translation and linguistics”. A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council. (Washington, D.C.: National Academy of Sciences – National Research Council, 1966)

Комментарии (68)


  1. HappyGroundhog
    21.08.2018 15:37
    +2

    То чувство, когда ты сам не знаешь другого значения слова «Pen»… Помню в лохматые 90-е был прекрасный квест, где нужно было найти и использовать «File». Ох тогда мой детский мозг кипел по полной, пока я не узнал, что это еще и «Напильник» =)


    1. igruh
      21.08.2018 15:47

      По этой причине в плохую погоду играю с детьми в квесты с поиском предметов на английском — им интересно и английскую лексику прокачивают. Старший знает по три-четыре названия таких предметов как лопата, топор, молоток, очки и т.п. Младшие пока тренируют глаз.


    1. Mabusius
      21.08.2018 16:57

      То чувство, когда ты перевел точно также как «глупый» гугл-транслейт.


    1. Neikist
      21.08.2018 17:05
      +1

      И ладно не знать другие значения слова, лично я например вообще не знаю что такое «детский манеж» даже на русском.


    1. YuraLia
      21.08.2018 18:18

      Ага, я тоже сначала не понял, просто не знал другого значения. Попадись мне это на тесте по английском языке — 98% перевел так же как компьютер)) Хотя если бы было время подумать немного — то может сообразил, но без словаря по рукой мои шансы были бы мизерные.


      1. Alexklmn
        22.08.2018 07:15

        Суть тут не в том, что человек перевёл бы правильно, а в том, что нелогичное значение будет отвергнуто. В данном контексте понятно, что он нашел свою коробку где-то, но точно не в пишущей ручке. Причём, если бы это был отрывок из книги, и манеж более нигде не участвует, то это абсолютно неважно. Ну а если важно, что именно в детском манеже, то позже(или раньше) это слово встретится в таком контексте, что человек поймет, что это такое, даже без словаря. А вот электронный переводчик походу нет, пока по крайней мере.
        Кстати, если бы разработчики озаботились, современные нейросети вполне могли бы анализировать ситуацию, вроде сравнить предметы: коробка в(нутри) ручка — коробка больше — не влезет в ручку — другое значение слова… Ну как то так.


        1. Igor_O
          22.08.2018 18:31
          +1

          Это вы с живыми переводчиками не работали, видимо. Человеки иногда такое лепят, что диву даешься. Сейчас уже конкретные примеры не помню, с переводчиками и переводами работал очень давно, но включение логики при переводе в прошивке у большинства не предусмотрено. И да, помнится с shrink-wrapped ПО мы разбирались долго. Тогда еще и в России термина «коробочного ПО» не было, ну вот не покупали тогда здесь люди ПО в коробках. А в американских статьях этот термин вылезал постоянно… (И да, значение на тему «вскрыл обертку — согласился с эндюзерским соглашением» — тогда еще в этом термине не встречалось).


          1. berez
            22.08.2018 22:04

            Пару раз доводилось вычитывать переводы. То, что иногда выдают живые мозги, бывает гораздо хуже машинного перевода. :)
            Иногда по запарке до таких «глубин» доходят, что «коробка в ручке» — это фигня. Могут, например, выкопать в словарях, что pen — это маховое гусиное перо. Или что box — это еще и гроб (в переносном смысле). А ежели идущий далее текст не очень понятен, то тема с гробами в перьях имеет все шансы на продолжение и развитие. :)


          1. Kwisatz
            22.08.2018 22:56

            Да любой фильм возьмите на космическую/морскую тематику, ух там веселье. А какие перлы можно услышать в Eureka/Doctor who/Stargate, уххх. В SG-1 прям помню серию где ухи в трубку сворачиваются.


            1. Igor_O
              23.08.2018 10:52

              С фильмами все грустнее. Там текста чистого — на 50-100 долларов переводчику. А мороки — на месяц плотной работы, если нормально копать тонкости смысла и особенности местных идиом. Естественно, те, кто заказывает перевод, смотрят не на качество, а на цену. Остальное — режиссер придумает интонацию и темп, чтобы зритель в большинстве случаев не понял, что ему бред какой-то говорят. В результате, переводчики переводят левой задней ногой, главное — выдать штук 8-10 переводов в месяц, чтобы на жизнь хоть как-то хватало.


              1. Kwisatz
                23.08.2018 16:04

                А телеканалам на качество контента типо совсем пофигу?
                Но даже если и так, если студия переводит 15 сезонов сериала, вникнуть в суть вроде как идея неплохая, не?
                Ну и даже если нет, банальные переговоры по рации оканчивающиеся «over» трансформируются во все подряд только не в «прием». Школьники переводят?


                1. Igor_O
                  23.08.2018 16:33

                  15 сезонов сериала — это меньше 300 часов экранного времени. Час экранного времени — это грубо текст на 50 долларов за перевод. И загрузить одного переводчика на год выше крыши. На сколько я понимаю, обычно перевод распараллеливают. Раздают полутора десяткам переводчиков. Каждый получает свою 1000 долларов за месяц работы… Тут не до вникания.
                  (И да, ситуация сейчас могла измениться, про сколько денег платят за перевод фильмов мне рассказал кто-то из знакомых переводчиков лет десять назад.)
                  А проблема, собственно, проистекает все из того же, что у нас «знание языка» мертво прибито шурупами к «умению переводить». Когда идет процесс дубляжа фильма — куча денег актерам, звукорежиссерам, аренда студий. А перевести 100 строчек текста? «Да это же на день работы и может сделать каждый выпускник школы с углубленным английским!»


                  1. Kwisatz
                    23.08.2018 16:43

                    Ну с таким подходом тогда не вижу почему бы телеканалам не загнуться к чертям. Пока понятно почему они держаться. А когда любой телек позволит одной кнопкой юзать какойнить netflix…


                    1. berez
                      23.08.2018 17:13

                      А с чего бы им загибаться? То, что перевод отстойный, при просмотре бывает далеко не очевидно. А на языке оригинала будет смотреть очень небольшая часть населения.


                      1. Kwisatz
                        23.08.2018 17:19

                        Потому что вместо выпуска нормального контента любят поныть


                        1. Igor_O
                          23.08.2018 22:46

                          Ну я, слава богу, к выпуску контента относился довольно задолго до интернета, да еще и исключительно в печатных изданиях. А откуда берется отсутствие нормального контента — вроде бы очевидно? Нет? Принцип был сформулирован лет 30 тому назад: «Пипл хавает!» (а по некоторым источникам — так и еще самим Сталиным...)


                  1. DelphiCowboy
                    24.08.2018 06:39

                    обычно перевод распараллеливают. Раздают полутора десяткам переводчиков

                    … и в результате одного и того же персонажа могут обозвать в разных частях перевода по-разному! Как в классическом переводе Heroes III от 1С, где одну и ту же героиню называли то Гем, то Жемчужина.


        1. Alcpp
          22.08.2018 20:34

          Боюсь, что в похожих условиях, когда нельзя советоваться и нужно дать перевод человек бы дал схожий неправильный ответ. Вон, Babylon Translation отверг ручку :).


    1. jrthwk
      21.08.2018 18:51

      … а ведь еще есть и лягушка в Кузинатре! ;)


      1. Igor_O
        22.08.2018 18:44

        Лягушка в Кузинатре — прикольна, но более-менее понятна — Кузинатра в оригинале с большой буквы, имя собственное, кухонные комбайны на тот момент в СССР были диковинкой и редкостью. Я даже вот и не помню, видел ли я хоть раз кухонный комбайн до 90-го года. Их, по-моему, даже из американских фильмов умудрялись вырезать.
        Лично меня больше удивляет, что в наиболее часто цитируемом варианте перевода, переводчик выбрал для названия «карты» из термина «козырные карты». Вообще, в интернетах это произведение еще встречается под названием «Козыри судьбы» и «Козыри рока». (Кстати, в том переводе, который когда-то читал я, Кузинатры не было...)


    1. Danik-ik
      22.08.2018 18:37

      О, фигня-вопрос, достаточно запомнить, что needle file это надфиль, а needle — иголка, и вуаля, мы знаем слово напильник. Вот только что делать тем, кто не знает про надфиль и иголку? Блин, засада...



  1. ElvenSailor
    21.08.2018 17:24

    del


  1. ElvenSailor
    21.08.2018 17:26

    … а фанату игр про Вторую Мировую придёт на ум словосочетание sub pen — док для подводных лодок.
    об это споткнётся не только машинный переводчик.


    1. Desavian
      21.08.2018 17:52

      думаю что суть эксперимента в том, чтобы переводчик понял, что pen — не вещь, а место, а уж какое место — вторично… может у него отец подводник и он реально игрушки в доке оставил :))


    1. Massacre
      22.08.2018 10:28

      А если играть в что-то на тему фэнтези — slave pens, это то место, где рабов держали)


  1. Desavian
    21.08.2018 17:41

    www.deepl.com

    the box was in the pen
    переводит на немецкий как
    Die Kiste war im Stall.
    что переводится на русский как
    Коробка была в конюшне.

    Все нормально… да, русский язык посложнее, проверяйте на более схожих с английским по лексике и фонетике.

    з.ы. и не надо говорить что «в конюшне» неверный перевод, он вполне возможен, учитывая что речь в переводе идет именно о _месте_, а не о ручке как у всех остальных.


    1. VolCh
      21.08.2018 18:28

      Ну детский манеж в моём представлении не место, а вещь, мебель. Хотя что-то общее с конюшней прослеживается.


      1. Neusser
        22.08.2018 10:35

        Pen и есть больше конюшня, чем детский манеж:
        Definition of pen
        1 a: a small enclosure for animals
        b: the animals in a pen



        1. Danik-ik
          22.08.2018 18:43

          Нет, скорее манеж — это изначально про лошадей, а не про


          1. Danik-ik
            22.08.2018 18:44

            Не про детей.


          1. Igor_O
            22.08.2018 18:50

            А манежа в английском значении этого слова нет. Pen — он по определению небольшой, в терминах около-лошадиных, это стойло. А манеж — в английском предполагает не только простор, но и, как правило, зрителей…


            1. p_fox
              23.08.2018 09:43

              Открываем гугл-транслейт:
              Манеж — arena, manege, riding hall, stable
              Детский манеж — playpen
              Стойло — stall, stable, box, bay, crib
              Конюшня — stable, barn, stud, stall.


              1. Igor_O
                23.08.2018 11:01

                В словарях много интересного можно встретить. Но перечислить все возможные значения для двух- и трех-буквенных английских слов… Там go и do дадут томов шесть-семь…
                Но да, pen в отношении лошадей обычно обозначает небольшую выгородку рядом с конюшней… Хотя в значении «стойло» я это слово у американских авторов встречал. Но навскидку не гуглится. (Возможно, просто, американские авторы в вопросе лошадей не очень разбирались… Книги не про лошадей были...)


        1. intnzy
          23.08.2018 11:20

          Есть такое слово — загон. Как раз подходит по смыслу.


    1. Igor_O
      22.08.2018 18:21

      Вообще, даже гугл транслэйт предлагает разные варианты перевода, если щелкнуть в переведенную фразу. И альтернативой коробки в ручке предлагается коробка в загоне.
      А в переводе на белорусский, вообще основным предлагается «скрынка была ў загоне», и альтернативами загону предлагает муравейник, овчарню и «загарадцы», которые, на сколько я понял, тоже загон. А вариантов про ручку и другие пишущие предметы перевод гуглом на белорусский вообще не предлагает.


  1. berez
    21.08.2018 17:59

    На данный момент доступно множество бесплатных онлайн-словарей на разных языках, контекстный поиск примеров употребления — только представьте, как вы делали бы это без компьютера в библиотеке!

    То чувство, когда оригинальный авторский текст менее понятен, чем кривой машинный перевод…
    Какой еще компьютер в библиотеке? При чем здесь библиотека вообще? Что «это» я должен делать в библиотеке?


  1. doublewaffle
    21.08.2018 18:18

    Английский язык (словарь) — не закон тяготения и подстроится под запрос интерактива, как многие писатели подстроились под сценарный стандарт книгописания.


  1. antonkrechetov
    21.08.2018 18:39

    Неправильность перевода в данном примере мне кажется притянутой за уши. Вообще говоря, если коробочка достаточно мала, а ручка достаточно велика, коробочка поместится в ручку. А без контекста непонятно, что pen — это именно манеж.


    1. DelphiCowboy
      22.08.2018 06:36

      Причём в Википедии, Pen — это загон для скота. Так что, какой-нибудь ковбой мог забыть коробку в загоне для скота.


      1. Lazytech
        22.08.2018 07:32

        Если бы в статье не был упомянут манеж, я бы тоже в первую очередь подумал, что этот мальчик живет на ранчо, где есть загон для скота. А что поделать, если контекста кот наплакал…


  1. maximw
    21.08.2018 20:19

    Вспоминается классика «казните монтажника изображением подноса»


    1. Wizard_of_light
      21.08.2018 21:59
      +2

      «The naked conductor runs under the tram» же.
      UPD Только что проверил, Гугль так и переводит «Голый проводник проходит под трамваем» :))


  1. worldmind
    21.08.2018 20:35

    ABBYY Compreno забыли потестировать


  1. fukkit
    21.08.2018 23:33

    ни одна полностью автоматическая система машинного перевода никогда не сможет верно определить значение слова pen (детский манеж) в данном контексте, хотя для человека оно совершенно очевидно.

    Перестал чувствовать себя человеком. Через toy, что ли, нужно было ассоциировать pen с манежем? Не сказать, что это совершенно очевидно.


    1. p_fox
      22.08.2018 07:40

      Мне совершенно очевидно, что pen это действительно ручка. Потому что детский манеж это playpen.

      Это как сказать человеку «дай мне лобзик», а потом вощмущаться «почему ты не дал мне электролобзик, это же очевидно было!».

      Проблема не в переводчиках, а в самом тексте, где зачем-то сократили слово, изменив его смысл.


  1. Wizard_of_light
    22.08.2018 00:16

    Боюсь, на анализе контекста естественный интеллект спотыкается тоже только в путь. По личному опыту — пытались давать переводчику на предприятии технические тексты. Нет, переводчик не то чтобы прямо надмозг, ему даже официальную переписку доверяют. Но специальные термины, технический жаргон… «Окно пивоварни» вместо «пластины Брюстера» нас, помню, просто убило, хотя переводчик, надо сказать, и сам в этом месте понял, что он чего-то не понимает :) В общем, посмеялись над результатом и переводим себе статьи сами до сих пор.


  1. lasc
    22.08.2018 04:24

    10 лет живу в англоязычной стране и тоже перевел неправильно(точнее отметитл что не могу перевести корректно), потому что не знал о таком значении слова pen.


  1. Sklott
    22.08.2018 09:11

    Вообще эксперимент наверно даже не имело смысла проводить, потому что большинство переводчиков переводят строго по предложениям и на соседние не обращают никакого внимания. Чтобы убедиться в этом можно попробовать переводить два предложения при этом меняя что-то только в одном (желательно так чтобы контекст для второго менялся) и увидеть, что перевод предложения которое не меняешь никогда не меняется.

    Что касается

    Как и раньше, чтобы научиться понимать письменный текст или речь на другом языке, вам придется приложить немало усилий.

    то это уже не совсем верно. Я лично прямо сейчас перевожу тексты с японского языка, при том что сам лично знаю на японском дай бог пару десятков слов и только основы грамматики (правда она там довольно простая).
    Как я это делаю? Очень просто:
    — Текст прогоняется через автоматический парсер, который выдает грамматику предложения.
    — Слова переводятся по словарю, естественно с учетом контекста, т.к. перевод выбирается человеком.
    — Перевод составляется опять-же человеком по грамматике парсера и подобранным словам, хотя этот пункт уже наверно тоже близок к автоматизации, но очень мало open source тулзов на эту тему пока…
    — Поняв смысл предложения чаще всего приходится «переписывать» его на русский, т.к. «прямой» перевод чаще всего на русском будет кривым.

    Если хотите могу показать примеры перевода и как это пытался переводить гугл.

    ЗЫ: Несмотря на все громкие заявления Гугла о том что они переводят с одного языка на другой напрямую, могу определенно сказать что с японского перевод идет через английский. Чаще всего, иногда почему-то включается прямой перевод, но в основном становится только хуже ;)


    1. ser-mk
      22.08.2018 09:47

      интересно, что 0 автоматический парсер используете для грамматики японского?


      1. Sklott
        22.08.2018 10:19

        Не совсем понял вопрос. Если вопрос в том какой парсер использую, то сейчас смотрю на udpipe, из недавней статьи: habr.com/post/420423
        До этого использовал старенькие KyTea + EDA, Kuromoji.


        1. ser-mk
          22.08.2018 11:16

          Опечатался, да интересовал именно парсер. А ссылочкой вы не ошиблись?
          А какое преимущество при переводе дает парсер если вы сами говрили что грамматика простая в японском?


          1. Sklott
            22.08.2018 11:22

            Ошибся :) Вот правильная:
            habr.com/company/sberbank/blog/418701
            Просто соседняя в трекере была и видимо промахнулся…

            Ну во-первых, для японского актуально разбиение на слова.
            Во-вторых, для всех языков актуально приведение слова к словарной форме.
            Ну и в последних, хоть грамматика и простая, но с ним иногда проще разобраться. А для других языков, и подавно я думаю.

            Первые два пункта умеют делать и POS tagger-ы, но udpipe может делать все разу.


    1. Lazytech
      22.08.2018 10:44

      Вообще эксперимент наверно даже не имело смысла проводить, потому что большинство переводчиков переводят строго по предложениям и на соседние не обращают никакого внимания.

      Так и есть (см. пример ниже).

      Оригинал:
      Here's a related idea: take a piece of land made of granite. Cut a 1km diameter plug of granite, one km deep. Store power by pumping water under the plug, raising the whole thing half a kilometer in the air. It would store enough energy to power Germany for a day.

      Гуглоперевод:
      Вот связанная идея: возьмите кусок земли из гранита. Вырежьте винт диаметром 1 км из гранита, глубиной в один километр. Храните энергию, перекачивая воду под штепсельную вилку, поднимая все на полкилометра в воздухе. Он будет хранить достаточное количество энергии для власти в Германии на один день.

      Обратите внимание на подчеркнутые слова.

      Человеческий перевод
      Вот родственная идея: представим себе, у нас есть участок земли, сложенный из гранитных пород. Вырежем в граните цилиндрическую «пробку» диаметром 1 км и толщиной 1 км. Закачаем под нее воду так, чтобы «пробка» поднялась на полкилометра вверх. Накопленной таким образом энергии хватит для электроснабжения всей Германии в течение суток.


    1. Igor_O
      22.08.2018 18:57

      Одна из больших проблем в нашей ментальности, что понятие «знание языка» у нас завязано на «умение переводить».
      А по факту, умение общаться на языке, умение читать на языке, умение писать на языке и умение переводить на/с — это четыре _разных_ навыка, хоть и немного взаимосвязанных. Но умение читать само по себе не предполагает умения писать и умения говорить. А «знание языка» — это вообще какая-то совершенно отдельная философская концепция. Для кого-то «знание» — это умение заказать кружку пива и спросить, где туалет. Для кого-то — нужно читать, писать, переводить, так еще и говорить без акцента.


  1. Bedal
    22.08.2018 10:16

    и ведь повторится классическая ситуация: если программно нельзя представить технологию — меняется технология. Так что усилия по созданию автоматических переводчиков приведут к революции в языках, это неизбежно, как неизбежно было исчезновение многих диалектов с приходом письменности.


    1. Sklott
      22.08.2018 11:18

      Не думаю что все настолько плохо. На мой взгляд утверждение:

      ни одна полностью автоматическая система машинного перевода никогда не сможет верно определить значение слова

      слишком сильное. В том смысле, что слово никогда, тут надо заменить на «в ближайшее время».

      Чисто теоретически, WSD (Word Sense Disambiguation — выбор смысла слова) вполне рабочая технология, но во-первых достаточно неразвитая, во-вторых она не применяется в нейросетях (насколько я знаю). Точней она у них внутрях сама собой как-то получается, но поскольку сети переводят по предложениям, то связи между предложениями теряются.
      Вот пример работы WSD. Каждый может убедиться при желании, что так и работает, никакого мухлежа:
      python
      >>> import nltk
      >>> nltk.wsd.lesk(['John','playing','in','the','pen'],'pen').definition()
      u'a portable enclosure in which babies may be left to play'
      
      >>> nltk.wsd.lesk(['I','am','writing','with','pen'],'pen').definition()
      u'a writing implement with a point from which ink flows'
      
      >>> nltk.wsd.lesk(['I','pen','that','story'],'pen').definition()
      u'produce a literary work'
      


      Таким образом дальнейшее развитие пойдет либо в сторону усовершенствования нейронных сетей, либо в комбинировании алгоритмических методов с нейронными сетями (во что лично я верю больше).


      1. Bedal
        22.08.2018 11:25

        Никто и не говорит, что нужно остановиться и подождать, пока языки не запилятся под текущие возможности железа. Будет идти встречный процесс, но именно встречный. Да уже идёт, со времён изобретения письменности, а потом — СМИ.


  1. lamer84
    22.08.2018 12:09

    А я тоже не знал, что pen — это манеж. И, думаю, еще очень много людей этого не знают. Но, и Гугл, и Яндекс при обратном переводе дают playpen, что, в принципе, недалеко от истины. Если pen заменить на playpen, то перевод будет корректным. Так что, как и с человеком, большую роль в данном случае играет словарный запас. А уж если еще и всякие сленговые слова использовать, то тут и профессиональные переводчики могут сдаться.
    Кстати, гугл переводит pen в том числе и как ферма, плантация, загон для скота. Так что опять-таки, недалеко от истины. Видимо решил, что с данным контекстом это не подходит.


    1. Year
      22.08.2018 15:26

      Про роль контекста очень хорошо Хэмингуей написал в своем коротком рассказе.

      For sale: baby shoes, never worn


      1. Neusser
        22.08.2018 15:47

        Что именно зависит здесь от контекста?


        1. Desavian
          22.08.2018 16:46

          Забейте) там дикие игры разума… baby shoes это что-то вроде пинеток для новорожденных, соотв если не носились значит либо новорожденный ребенок умер, либо не родился, если не родился, возможно женщина умерла при родах, ибо во времена Хэмингуэя и с детской смертностью и со смертностью рожениц проблем побольше было и так далее и тому подобное.
          Какое к контексту отношение имеет — не понимаю ))


          1. Neusser
            22.08.2018 17:06

            Да я все понимаю. Рассказ широко известен, причем авторство Хэмингуэя — городская легенда.
            Удивительно видеть этот текст в качестве примера к роли контекста. Видимо, не все понимают, что такое контекст :)


            1. Year
              22.08.2018 22:13

              Я тоже воспользуюсь википедией .

              В более широком значении контекст — среда, в которой существует объект (например, «в контексте эстетических представлений XIX века творчество Тёрнера было новаторским»).

              Я говорю о контексте, как о совокупности социальных и исторических условий, в которые помещен читатель.
              Текст рассказа — это простое объявление типа «Продам гараж», но в контексте представлений читателя о высокой детской смертности в прошлом рождается второй смысл, озвученный комментарием выше.


              1. Neusser
                23.08.2018 10:27

                Причем тут второй смысл? Здесь обсуждается то, что слово может имеет разные значения в зависимости от других слов, которые его окружают. Текст «For sale: baby shoes, never worn» переводится одинаково в любом контексте. Какие при этом картины второго-третьего смысла возникают в голове у читателя к делу не относится.
                Не говоря уже о том, что вы подменяете один термин другим (который внешне выглядит точно так же) и делаете вид, что речь все еще о том же.

                PS. Какой второй смысл рождается у читателя текста «For sale: baby shoes, never worn» в другом контексте?


  1. VGoudkov
    22.08.2018 16:47

    Странная статья. Ради интереса проверил в Lingvo x3 (десктопный словарь), там есть как переводы с примерами, так и возможность посмотреть мнение самих носителей языка — Collins Cobuild, Oxford Dictionary. Так вот, нет там толкования «манеж».

    Фрагмент статьи
    I
    1.
    1) an instrument for writing or drawing with ink, typically consisting of a metal nib or ball, or a nylon tip, fitted into a metal or plastic holder
    ¦ (the pen) the occupation of writing she was forced to support herself by the pen
    ¦ an electronic pen-like device used in conjunction with a writing surface to enter commands or data into a computer
    2) the tapering cartilaginous internal shell of a squid
    2. (pens, penning, penned) [with obj.] write or compose Olivia penned award-winning poetry
    3. — pen and ink — the pen is mightier than the sword — put pen to paper
    Origin: Middle English (originally denoting a feather with a sharpened quill): from Old French penne, from Latin penna ‘feather’ (in late Latin ‘pen’)

    II
    1.
    1) a small enclosure in which sheep, pigs, or other farm animals are kept
    ¦ a number of animals in or sufficient to fill a pen: a pen of twenty-five Cheviots
    ¦ any small enclosure in which someone or something can be confined
    ¦ a covered dock for a submarine or other warship
    2) (in the West Indies) a farm or plantation 2. (pens, penning, penned) [with obj.] put or keep (an animal) in a pen
    ¦ (pen someone up/in) confine someone in a restricted space they had been penned up day and night in the house
    Origin: Old English penn, of unknown origin

    III
    a female swan
    Origin: mid 16th cent.: of unknown origin

    IV
    short for penitentiary (in sense 1)


    1. DelphiCowboy
      23.08.2018 07:51

      Ради интереса проверил в Lingvo x3 (десктопный словарь), там… нет ...

      В Lingvo слово «demilance» перевели как «дротик», а «demilancer» соответственно как «дротикометатель».
      Хотя, «demilance» — это облегчённая версия рыцарского лэнса, имевшая распространение в XVI веке. А «deminlancer» — это эрзац рыцаря, одетый в кирасирский доспех, и вооружённый дэмилэнсом.


    1. Sklott
      23.08.2018 09:10

      Хм… И чем вам не угодило значение:

      ¦ any small enclosure in which someone or something can be confined
      вполне подходящее.

      Вообще, как тут уже упоминалось, слово pen в этом значении, это скорее сокращенная версия от playpen, и такое сокращение реально используется.