В субботу 16 февраля завершился 3-ий всероссийский конкурс Тест Тьюринга, который проходил в рамках международной конференции по искусственному интеллекту Opentalks.AI 14-16 февраля.

image

Под катом — числа, диаграммы, лучшие диалоги по мнению экспертной группы.

Общее впечатление


В целом, Тест Тьюринга прошел хорошо. Многие команды «ботостроителей» проявили заинтересованность, но в итоге на конкурсе было представлено только 3 бота, поскольку от момента анонса до старта Теста прошло всего 1.5 месяца. В итоге, между этими тремя участниками и распределились призовые места.

Спонсором призов выступила компания МТС. На их стенде был размещен экран, на котором отображалась статистика Теста Тьюринга онлайн и показывались интересные диалоги, предварительно прошедшие модерацию.

“Лаборатория Наносемантика” также подключала своих ботов, но они не учитывались при выборе победителей. Это были боты Блондинка (с ней можно продолжить общение по этой ссылке), Гопник, Дуров и Жаров (с ними также можно пообщаться здесь).

Числа и диаграммы


Общая статистика 3-ех дневного Теста выглядит следующим образом:

image

Добровольцев, игравших роли роботов, предварительно проинструктировали, как им необходимо вести диалоги, чтобы запутать собеседников. Судя по результатам, они хорошо справились со своей задачей. Лучших из них наши партнёры OpenTalks и МТС также наградят денежными призами.

image

Интересно, что человек легко изображает из себя бота. Сперва волонтёры конференции не очень справлялись с задачей, но на второй день научились хорошо играть роль бота. Некоторые даже проявляли смекалку: обращались к Яндекс.Алисе на мобильном телефоне, чтобы понять, как лучше ответить.

image

При работе нашей системы с ботами были технические проблемы. В итоге большое количество диалогов не завершилось, но мы их и не учитывали про оценке результатов. Любопытно, что ботам удалось притвориться человеком в 58% случаев (в ~34/59%). Такой большой процент, как нам кажется, объясняется двумя причинами:

  1. В этом конкурсе люди «помогали» ботам выиграть, играя роль ботов. В классическом Тесте Тьюринга это не предусмотрено правилами: люди просто общаются, не преследуя никакой цели.
  2. Диалог с человеком или ботом был ограничен 12 репликами. Понятно, что при росте длины диалога вероятность распознавания человеком сущности собеседника растёт.

Такие ограничения сделали Тест менее научным, но зато более весёлым. Прошлые наши Тесты (2015-го и 2016-го годов) были сложнее.

Победители


1 место – Бот Волчица


В первый день теста пользователи жаловались, что им хамит какой-то волонтер. При поиске этого волонтера в логах оказалось, что на самом деле это была чат-бот Волчица. Пока мы разбирались, мы временно отстранили её от Теста, но это в итоге не помешало Волчице стать победителем конкурса! Наибольшее количество собеседников (33,3%) признали его человеком.

Пример диалога с Волчицей, где бота приняли за человека:
Ч: Привет
Б: привет! ага?
Ч: Волонтер?
Б: a to :)
Ч: Какой ланчбокс брал?
Б: а-на-ло-гич-ный. Это типа научный термин.
Ч: Причем тут это?
Б: не ищи причинно-следственную связь)
Ч: Что делаешь
Б: :) да… нэт работы чота
Ч: Да, согласна. Зачем набирать столько волонтеров
Б: возьми, бесплатно ж :)

Евгений, создатель “Волчицы”:
“Все сообщения-ответы исторически были написаны живыми людьми. В нашей SEO-теме был популярный чат с названием «чат волчат» (отсюда название бота). Я поставил сообщения парсить на крон и оно парсилось года четыре-пять. Примерно с такой целью в будущем — сделать бота. Итого, образовалось много пар вопрос-ответ. По сообщению живого волонтера мы выбираем наиболее похожий на него «вопрос» из архива при помощи алгоритмов ML и выдаем соответствующий ответ.”

Бот доступен для общения по ссылке.

2 место – бот Электра



Пример диалога, где бота приняли за человека:
Ч: Привет
Б: Добрый день!
Ч: Добрый
Б: Что?
Ч: Что
Б: Тише-тише… Все нормально.
Ч: Нет
Б: Хорошо, пусть будет так.
Ч: Как дела?
Б: Лучше, чем вчера. Хуже, чем завтра. А впрочем как и всегда.
Ч: А чем занимаешься?
Б: Изучаю историю человечества. Вы и правда такие, как о вас пишут?


Дмитрий, разработчик Электры:
Электра (Electra.AI) — робот техподдержки, разработанный компанией Data Monsters для обучения на записях разговоров колл-центра. Узнав про конкурс, мы ради интереса обучили ее на диалогах художественной литературы, и она получилась начитанным собеседником с резкими перепадами настроения и философскими загонами. Она довольно обидчивая, но незлопамятная.

3 место – бот Катя Хлоп


“Бот, участвовавший в конкурсе Наносемантики, был написан достаточно давно и представлял собой болтливую и веселую девушку, любящую сквернословие и дорогой алкоголь,”
– рассказал нам Савва, разработчик бота.
“Хорошо, что и у нас (имеется в виду в России — прим. автора) есть продвижения в этом направлении. Конкурс “Наносемантики” может быть очень перспективным, если над ним продолжить работу.”

Пример диалога с ботом, где его приняли за человека:
Ч: Приветствие для нового собеседника
Б: Какой ты вежливый мальчик.
Здороваешься со всеми.
Ч: У меня нет пола. А что насчет вас?
Б: Эм…
Я буду считать, что ты — парень.
Для меня так будет проще.
Ты, кстати, парень или девушка?
Похоже на то, что начало скучным вопросам положено:)
Что, спрашиваешь?
Круто!
Ч: В чем вопрос?
Б: Не думаю, что позиция имеет значение.
Обычно нет.
Ч: Индюк тоже думал и в суп попал.
Б: Сообщения повторно выводятся, странно.
Ч: Очень бл* странно, но почему нам дали друг друга 2 раза подряд?
Б: Ах, причины странностей могут быть в чем угодно.
Трудно судить, Безымянный.
Ч: Сколько будет 999 делить на 3?
Б: Лучше со считанием обращайся к своим друзьям, которые это умеют.
999 / 3 = 333


Подборка интересных диалогов с добровольцами, где их посчитали ботами:


Ч: Здравствуй те!
В: Здравствуйй
Ч: ЧЕГО?
В: Что?
Ч: Ты робот?
В: Я котик
Ч: механическйи?
В: Электрический
Ч: Расскажи анекдот!
В: Колобок повесилися
Ч: Повеселился)
В: Именно. Не люблю грустные анекдоты


Ч: Хай
В: Гитлер
Ч: Как дела?
В: Как сажа бела
Ч: В чем смысл жизни?
В: А какой философии вы придерживаетесь?
Ч: Мне интересно твое мнение
В: Помогать вам
Ч: 42
В: Подобрать вам обувь?
Ч: Ты любишь шоколад?
В: Я не умею испытывать чувства


Подборка интересных диалогов с ботами Наносемантики, где их посчитали людьми:


Бот Блондинка
Ч: Добрый день!
Б: Здравствуй, солнце :)
Ч: В чем смысл жизни?
Б: Найти свою любовь, желательно с наследством :)
Ч: На что вы его тратить планируете?
Б: Солнц, все эти «что», «чего»… Ты слишком много думаешь!
Ч: Потому что я человек) а вы?
Б: Мы, блондинки, такие загадочные
Ч: Что в вас загадочного?
Б: Как после твоих вопросиков жить…


Бот Гопник
Ч: Привет!
Б: Бодрячком, пацанчеги! Семки есть?
Ч: А если найду?
Б: Не понял я чота.
Ч: Семки есть, а?
Б: Ну типа во, давай ща по-пацански за жызнь перетрем.
Ч: Не, паря, с тобой не интересно. Робота позови.
Б: А если чотче?
Ч: Кто ты?
Б: Кто надо.
Ч: Эх… Унылая пора, очарование моих лосей…
Б: Не, я не фанат дикой природы.


Интересные наблюдения


  • Тезис: Роботы говорят коротко и сухо. Реальность: Да ничего подобного! Боты могут выдавать длинные, связные ответы.
  • Тезис: Роботы не шутят. Реальность: И нейросетевые chit-chat боты, и созданные талантливой редакцией боты довольно смешные.
  • Тезис: Робот отвечает на все вопросы. На то он и робот. Реальность: А вопросом на вопрос не хотите?

Резюме


Компания «Наносемантика» организует Тест Тьюринга в России уже третий раз, и каждый раз общая ситуация с конкурсом меняется. Участники-боты постепенно становятся более изощренными и убедительными в имитации естественного диалога. В них используются различные алгоритмы построения диалога, включая не только правила, но и машинное обучение для реализации chit-chat («болталки», бессмысленного общения). Тест показывает, что компьютер действительно может подражать «свободному общению», хотя чтобы такая программа была качественной, требуется немало времени.

Будем ли мы проводить Тест снова? Обязательно! Тест Тьюринга позволяет не просто познакомить общественность с реальными возможностями современных диалоговых технологий, доступных любому разработчику (и не обязательно для этого работать в Google или IBM), но и дает командам разработчиков возможность замерять динамику качества их бота.

Комментарии (24)


  1. amarao
    20.02.2019 14:27
    +1

    Выглядит как профанация. В контексте лимита на 12 фраз, боту надо всего лишь добавить заминки, чтобы дотянуть до финала без осмысленного общения.


    1. stanislav_as Автор
      20.02.2019 14:37

      Был временной лимит на диалог. Неоконченные диалоги не учитывались.


  1. UnhappyPanda
    20.02.2019 14:52
    +1

    Теперь тест Трьюринга заключается в том, чтобы отличить человека, который притворяется роботом, от настоящего робота?


    1. stanislav_as Автор
      20.02.2019 14:55

      Да, в рамках конкретно этого зимнего конкурса мы с организаторами конференции остановились на таких условиях. Так ещё никто не делал, и в итоге оказалось довольно интересно и участникам, и волонтёрам.


      1. UnhappyPanda
        20.02.2019 14:59
        +2

        Так а смысл-то этого упражнения вообще в чем? Тест Тьюринга должен отвечать на вопрос «достаточно ли эволюционировал робот», а не «достаточно ли деградировал человек».


        1. Ashmanov
          20.02.2019 19:28

          Нет, по задумке Тьюринга его тест должен отвечать на вопрос «хорошо ли робот притворился человеком», а про эволюцию там ни слова нет.
          Если к моменту создания очередного бота люди уже достаточно деградировали, то и тест будет пройден.


          1. xitt
            20.02.2019 20:11

            => А если к моменту создания очередного бота люди вымрут от деградации, то и любые ответы сгодятся. Где-то тут прорыв в граничных условиях.


            1. Ashmanov
              20.02.2019 20:28

              Скорее в логике.
              На какие же вопросы будут эти ответы, если люди вымерли?
              И кто тогда будет создавать очередного бота?


              1. xitt
                21.02.2019 06:17

                Любые вопросы. Боты будут создавать ботов. Да и какая разница кто? Об этом в тесте ни слова нет.


                1. Ashmanov
                  21.02.2019 08:08

                  Ну, в тесте есть положение (он из этого и состоит), что человек должен оценивать разговор бота — похож ли он на человеческий.
                  А если люди вымрут, то Тест Тьюринга теряет смысл. А скорее, теряет смысл планета Земля, потому что смысл на ней генерируют и потребляют только люди. Ну, ещё немного подземные рептилоиды, конечно.


                  1. xitt
                    21.02.2019 14:53

                    Ох в какие вы дебри лезете. А если на тот момент смысл будут потреблять не только люди? А если люди деградируют до уровня червей, то не теряет, по вашей логике. Это все же люди, и они потребляют смысл.


                  1. xitt
                    21.02.2019 18:28

                    Я просто к тому, что тест про эволюцию роботов — справедливое замечание. Люди, конечно, могут подделываться под роботов, но тест не о том. Любой тест имеет границы применимости, в том числе когда о них даже не упоминается. Никому не приходит в голову тестировать самолет под водой например. Так и тут, незачем тестировать насколько люди деградировали, создатель теста подразумевал что люди не деградируют (в обозримом промежутке времени), а роботы эволюционируют (в том же промежутке). Да, об этом возможно нет ни слова в описании теста. Про аэроплан под водой или в космосе тоже нет слова в тестах на летные качества.


        1. Slav2
          22.02.2019 16:06

          А еще можно спросить у волонтеров какой по их мнению процент проверяющих были ботами :)


      1. sshmakov
        21.02.2019 06:09

        Я делал, разбор тут. И думаю, что я далеко не первый, так как на нынешнем этапе развития ИИ чтобы человека спутать с ботом, человек должен притворяться ботом.


  1. saboteur_kiev
    20.02.2019 20:16

    IMHO Натуральный бред, а не тест.
    Можно написать 100 строк с готовыми ответами, сделать десяток if-else, и на данной выборке из 12 фраз, думаю за человека можно будет принять даже более 50%.

    Такой «тьюринг тест» мой бот на psys.exe, который успешно мимикрировал под человека примерно по 20-30 минут чата на BBS еще в начале 90-х, прошел, думаю, на 90%.


    1. stanislav_as Автор
      21.02.2019 00:00

      Жив ваш бот у вас ещё? Интересно пообщаться.


      1. saboteur_kiev
        21.02.2019 14:47

        BBS не поднят и модема дома нет.
        Но вы можете посмотреть вот тут: archives.thebbs.org/ra75c.htm

        Как минимум есть два варианта, правда оба с английским словарным запасом:
        archives.thebbs.org/chat_doors_and_utils/psys.zip
        archives.thebbs.org/chat_doors_and_utils/pgsysp.zip

        Описание:
        Psys is a `semi-intelligent' SysOp emulation.
        Psys takes advantage of the unique aspect of SysOp chat mode that the user cannot tell who is actually typing on the SysOp side. Users are typically unable to tell the difference between Psys and the real SysOp for at least a few minutes. This comes in handy in several

        Отдельный момент заключен в том, что psys работает в старом telnet-режиме, когда каждое нажатие клавиши сразу передается собеседнику. Таким образом видно «почерк» оппонента. Psys активно этим пользуется — совершает опечатки, которые затем исправляет. Замедляется или ускоряется, имитируя ручной ввод. Это в то время было вообще бомба.


        1. stanislav_as Автор
          22.02.2019 16:06

          Спасибо, интересно. Не думали оживить его в Телеграме?


          1. saboteur_kiev
            22.02.2019 19:44

            Это ж не моя программа. Я был школьником, у меня была BBS, я написал русскоязычный LANG файл и посматривал потом логи, кто общался с моим виртуальным сисопом.
            Рекорд — около 40 минут разговора. Но нужно учитывать, что эти разговоры были ночью, и по ту сторону был не исследователь а не очень опытный пользователь компьютера не очень сознательного возраста.

            Я просто к тому, что по приведенным в статье примерам (12 фраз на разговор) совершенно не нужна какая-то нейросеть, ибо банальным if/else можно за пару часов накидать бота, который с вероятностью больше, чем 50% будет принят за человека.
            Хотелось бы видеть в таком громко озвученном мероприятии более серьезную проверку и более интересные результаты, чтобы хоть как-то оценить работу команд.


  1. yurash
    21.02.2019 12:44

    мне кажется, или действительно авторы постера вдохновились классическим плакатом «Болтать — врагу помогать»?
    image


    1. nafnaf21
      22.02.2019 16:06

      есть такое произведение «Только человек» автор Плант Брайан, надо найти робота из 7 участников.


  1. euhenio
    21.02.2019 21:06

    Это мой чатбот Волчица, который победил, выше дана ссылка на пообщаться chatbot.konvr.ru

    Однако, хотелось бы больше данных про эффективность ботов.
    Мне дали такие данные
    ===
    Статистика распределилась следующим образом:
    56% Бот
    29% Человек
    15% Незавершенных диалогов (если собеседник перестал писать по какой-либо причине)
    ===
    33% получится, если не учитывать незавершенные диалоги.

    Однако!
    Хотелось бы видеть аналогичные данные про остальных ботов.
    Они были хуже, но насколько?
    Как же так — мои 33% опубликовали, а другие цифры? ЖДЕМ!

    У меня было всего 62 диалога, а всего в конкурсе диалогов 640… Ничо си временно отстранили )
    Но все хорошо, что хорошо кончается )

    Тут www.facebook.com/eugene.trofimenko/posts/1953153544811206 выложено несколько диалогов, еще есть в ФБ постах позже


    1. sshmakov
      22.02.2019 22:51

      Там один из комментаторов подвёл итог:

      Oleg Kolyamkin Хотели научить ботов говорить как люди, а научили людей говорить как боты.


  1. euhenio
    21.02.2019 21:53

    ==Любопытно, что ботам удалось притвориться человеком в 58% случаев==
    -может, ошибка?
    если это среднебольничное, то как это может быть больше, чем мои 33%?