Разработчики из компании Vicarious, в число инвесторов которой входят Марк Цукерберг и Джефф Безос, опубликовали статью, где описали новую модель глубокого обучения, способную распознавать текстовые капчи. Новая порождающая вероятностная модель (Probabilistic Generative Model) позволила, как уверяют ученые, на шаг приблизиться к созданию «думающих» интеллектуальных систем.

Каких успехов достигла технология и какие еще решения появились в этой области, расскажем далее.


/ фото Rick B PD

Система использует техники, воспроизводящие функции зрительной коры головного мозга. Речь идет о модели компьютерного зрения, которую разработчики назвали «рекурсивной кортикальной сетью» (RCN — Recursive Cortical Network).

В RCN объекты представляются в виде сочетания контуров и поверхностей. Контуры представляют собой границы поверхностей, а последние моделируются с помощью условного случайного поля (Conditional Random Field). Эти компоненты позволяют модели распознавать символы без тщательного перебора всех возможных сочетаний.

Капча считается взломанной, если система решает её с точностью не менее 1%. Рекурсивная кортикальная сеть взломала reCAPTCHA с точностью 66,6%, а капчи Yahoo и PayPal с точностью 57,4% и 57,1% соответственно.

Решения других ученых тоже могли обойти reCAPTCHA, но при этом они требовали обучения на крупных размеченных сводах данных или ручной настройки для распознавания тех или иных изображений. Система от Vicarious имеет сопоставимую с этими методами точность, но при этом требует в триста раз меньше данных. Также разработчики не использовали для обучения сети изображения с большим количеством шумов и искажений — кортикальная сеть сама обобщила такие CAPTCHA.

Что дальше


Цель проекта компании Vicarious — создать искусственный интеллект, который смог бы решать обычные для человека проблемы и задачи. Поэтому в планах ученых стоит совершенствование кортикальной сети. Глобальная цель разработчиков — создать полномасштабный искусственный интеллект, который будет функционировать как человеческий мозг.

Но пока новая система лишь хорошо распознает текстовые капчи. А многие сайты предлагают более сложные «автоматизированные тесты Тьюринга», задачи на логику и даже мини-игры, в которых пользователю предлагают вращать картинки.

Однако уже сейчас появляются решения, которые могут взламывать такие «продвинутые» капчи. Например, исследователи из Мэрилендского университета создали систему unCAPTCHA, способную «взламывать» reCAPTCHA от Google, которая предлагает выбрать все изображения с дорожными знаками, витринами магазинов и так далее.

Исследователи выложили код проекта в репозиторий на GitHub. Для обхода теста Тьюринга их метод использует звуковой вариант reCAPTCHA. Аудиокапча — это серия различных чисел, которые произносятся вслух с разной скоростью и тоном на фоне белого шума. Для проведения атаки этот звуковой файл скачивается и разбивается на компоненты с речью.

После чего они загружаются в шесть бесплатных транскрибирующих онлайн-сервисов от компаний Google, IBM, Microsoft и др. Система собирает сгенерированные результаты и определяет наиболее вероятную строку эвристическим методом. Затем числа последовательно вводятся в поле капчи.

Тесты показали, что разработка ученых из Мэриленда решает 450 задач reCAPTCHA с точностью, превышающей 85% за 5,42 секунды. Это меньше, чем человек тратит на одно прослушивание аудиофайла reCAPTCHA.

Разработчики сообщили о своей работе в компанию Google и ИТ-гигант внес в систему некоторые улучшения. Например, в аудиофайлы помимо текста начали включаться небольшие кусочки текста, которые понизили успешность распознавания reCAPTCHA.

Однако отметим, что разработчики стараются не только «сломать» тест Тьюринга, но и усилить его. Например, компания Facebook начала тестирование новой капчи, которая просит пользователей социальной сети прислать свою фотографию для подтверждения личности. У компании нет собственной среды для тестирования решения, поэтому в качестве тестировщиков выступают пользователи.

Представители компании говорят, что новая технология позволит выявлять подозрительную активность на сайте, связанную с созданием учетных записей, проведением платежей или запросов на добавление в друзья. В Facebook уверяют, что процесс сверки фотографии полностью автоматизирован, а после верификации фото удаляются с серверов.

О компании Vicarious

Vicarious — компания, занимающаяся разработкой систем искусственного интеллекта. Её штаб-квартира находится в Сан-Франциско. Цель организации — создание программного обеспечения, которое позволит компьютерам думать и обучаться как человек.



P.S. Еще несколько материалов из Первого блога о корпоративном IaaS:

Комментарии (13)


  1. Akuma
    30.11.2017 22:46

    Почему-то вспомнилась каптча на сайте одного ОСАГО-страховщика, которая возникает при попытке оформить онлайн-страховку.

    Я потратил на переборы час. Подключил жену. И безрезультатно мы закрыли этот сайт.

    Интересно, хотя бы 1% такой каптчи сможет решить этот «интеллект»? :)


    1. algotrader2013
      01.12.2017 00:17

      А что, если сайт настолько умный, что используя нейросети, по кукам/информации из DMP/паттерну поведения решил, что не надо вам давать страховку (отрицательное МО для страховщика), и выставил такую капчу?)


      1. Akuma
        01.12.2017 00:18

        Можно просто «сайт решил, что не надо вам давать страховку» и это будет чистой правдой :)


      1. Zverienish
        01.12.2017 05:35

        Тут даже нейросети не нужны. Посмотрел коэффициент бонус-малус, если низкий — выдавать страховку, иначе не выдавать.


    1. AW-Valera
      01.12.2017 15:42

      а можете показать пример капчи или рассказать как её получить? Интересно было бы покрутить


      1. Akuma
        02.12.2017 19:34

        Да это шутка была :)

        Там обычная каптча, по сути. Просто что бы вы не вводили, сайт всегда будет считать ее неправильной, чтобы вы не смогли оформить электронне ОСАГО. Это такая «фича» у страховщиков.


  1. BubaVV
    01.12.2017 01:02

    Чтобы доказать, что вы не робот, причините вред другому человеку, или своим бездействием допустите, чтобы человеку был причинен вред


    1. KodyWiremane
      01.12.2017 09:30

      И пришлите фото


    1. alexoron
      01.12.2017 13:19

      Чтобы доказать, что вы не робот, причините вред человеку государству, или своим бездействием допустите, чтобы человеку государству был причинен вред.


  1. AW-Valera
    01.12.2017 15:49

    reCAPTCHA с точностью 66,6%, а капчи Yahoo и PayPal с точностью 57,4% и 57,1% соответственно.

    Но это же очень низкий показатель.

    Ну и как обычно, сошлюсь на капчу авторизации на сервисе антикапчи rucaptcha.com:
    image

    При подобном формировании капчи нейросети пока ещё бессильны


    1. APXEOLOG
      02.12.2017 12:37

      Разве? Мне кажется подобная капча вообще должна без проблем разгадываться...


  1. mbait
    02.12.2017 17:48

    Цифровые аудиокапчи и до этого распознавались с точностью около 90%. В тексте написано, что аудио разспознавалось с использованием шести бесплатных сервисов распознавания. Всё, что можно от них получить, это текст и некая эфимерная числовая величина. Этого недостаточно, чтобы натренировать что-то принципиально новое. Это не достаточно, чтобы натренировать вообще что-то. Так я подумал, когда только прочитал новость. Просмотр кода только подтвердил мою гипотезу. Пожалуй, самая "интеллектуальная" часть в этой работе это функция, которая изменяет слова в результате распознавания на близкие по звучанию цифры. Причём, как вы видите, это даже не результат обучения. Можно было взять данные, разметить их, натренировать модель, которая делает такие замены. Можно было взять функцию фонетического хеширования или разработать свою. Но там оператор "if". Да что там — даже регистр букв не нормализуется. Но самое смешное даже не это. Главная функция, которая для набора звуковых файлов "определяет наиболее вероятную строку эвристическим методом" имеет всего один оператор return, который возвращает переменную… которая никогда не присваивается. Может быть я просто перестал понимать синтаксис python? Наконец, я попытался выяснить, что же за хитрая эвристика выбирает лучший результат из шести. Оказалось, что это функция сортировки, которая в качестве функции сравнения использует количество распознанных цифр.


  1. Ralari
    03.12.2017 10:44

    Вот побежденный русскоязычный форум любимого родного Гигабайта.
    forum.gigabyte.ru/index.php
    Думаю, лежать будет до понедельника.