Капча, частный случай: рвём нейронную сеть тридцатью строками кода / forpes.ru

Главная
Капча, частный случай: рвём нейронную сеть тридцатью строками кода

Капча, частный случай: рвём нейронную сеть тридцатью строками кода +17

12.02.2020 09:36

0617 19 11400 Источник

Уже не помню, как я наткнулся на статью habr.com/ru/post/464337, но она запала мне в мозг и не давала покоя вплоть до минувшего дня. Несколько раз я пытался понять происходящее, пару раз пытался заставить это работать, но безрезультатно: я совершенно ничего не понимаю в нейронных сетях и даже программирую не как настоящий программист.

   Наконец, несколько дней назад я осилил запуск питона и решил, а почему бы и не да и всё такое. Забыв всё, что я прочитал в упомянутой статье, пошёл своим путём.
   Вспоминая несметное количество решённых капч, я предположил, что можно решать их банальным сравнением с маской, что и подтвердилось впоследствии.
   Во-первых, вручную собрал тестовые капчи (83 штуки) и дал им очевидные имена. Скриптом превратил их в битовые изображения.

Цифры в капчах бывают двух размеров по высоте с разницей в 1 пиксель и трёх-четырёх начертаний по ширине. Базовая линия всех символов во всех капчах одинаковая. Всё это разнообразие, как оказалось, имеет некую общую маску, сравнение с которой однозначно идентифицирует цифру. Вырезал по нескольку (сначала – по 5, потом добавлял ещё по 1-2; с «4» провозился дольше остальных) одинаковых цифр из разных капч. В paint.net наложил их друг на друга и получил общую для всех начертаний каждой цифры маску.

Единственную проблему обнаружил позднее, уже при массовой обработке, но успешно её обошёл

при помощи костыля

Первоначально, распознавание шло по порядку — по исходному образу прогонялась маска «1», потом «2» и т.д. до «9». Оказалось, что в некоторых случаях, когда толстая линия шума накладывается на ножку «4», то одинаково успешно распознаются и «4», и «1». Пришлось, во-первых, изменить порядок применения масок с «123456789» на «423156789» и во-вторых, при успешном распознавании «4» заливать это место белым, чтобы гарантированно исключить «1».

Кроме этого небольшого недоразумения шум совершенно не мешает. Итогом этого этапа стал набор из 9 масок. Два вложенных цикла и вуаля! – все мои 83 капчи распознаются на ура!

Дальше встал вопрос: где взять большой набор капч для проверки. И я скачал «29 000 капч» из упомянутой статьи.

Однако, это оказалось пустой тратой времени.

Во-первых (точнее, во-вторых, т.к. я обнаружил уже позднее), там присутствуют идентичные файлы: один и тот же файл сохранён под разными именами: 6503 раза, 5420 раз, 760 и т.д. – т.е. всего уникальных файлов 14882, что, впрочем, тоже немало.
Во-вторых, а на самом деле – во-первых, – это не настоящие капчи. Сайт отдаёт картинку в формате PNG, а в наборе – JPG, причём крайне плохого качества, причём со сдвигом. Могу предположить, что именно такова была цель автора – статья же недаром называется «”зашумленная” капча».

   Так что пришлось расчехлить гугл и самостоятельно намайнить идеальных капч: за ночь набралось 3224 файла, в том числе 49 абсолютно пустых, как выяснилось позднее. Cпасибо Ганеше за код.

   Собственно распознавание капчи укладывается в 26 строк скучного кода на питоне. Из внешних модулей нужен только PIL. Скорость работы – примерно 1000 капч в минуту (одна тысяча капч в минуту) на стареньком Core 2 «четыре ядра четыре гига». На более приличном восьмипоточном i5 заметно быстрее, хотя дело, конечно, не в потоках.    Распознавание 100% или очень к тому близко: выборочная проверка не показала ошибок.

   Конечно, всё это не интересно в смысле нейронных сетей и прочих блокчейнов, но имеет совершенно определённое преимущество перед предложенным ранее вариантом: скорость и точность. Так же верно и то, что любое изменение параметров капчи – гарнитуры или размера шрифта, вид шума и т.д. – приведёт к полной неработоспособности моего решения.

Скачать архив с капчами с Яндекс.Диска (14МБ).

Исходный код

from PIL import Image, ImageTk

def recognize(filepath):
  Zlist = [] # [(x1, z1), (x2, z2), (x3, z3), etc.] - position and digit
  captcha = ""
  originalimage = Image.open(filepath).convert('L').point(lambda x : 255 if x > 20 else 0, mode='1').convert('1').convert('RGBA')
  if originalimage.getextrema() == ((0, 0), (0, 0), (0, 0), (255, 255)):
    return("empty image")
  for z in [4, 2, 3, 1, 5, 6, 7, 8, 9]: # reorder to exclude false 1 on 4
    mask = Image.open('mask' + str(z) + '.png').convert('RGBA')
    previ = 0
    for i in range(15, 120): # no digit in left part
      resultimage = Image.alpha_composite(originalimage.crop((i, 0, i + 30, 0 + 50)), mask)
      if resultimage.getextrema() == ((0, 0), (0, 0), (0, 0), (255, 255)):
        if z == 4: # delete 4 to exclude false 1 on 4
          maskx = Image.open('mask4x.png').convert('RGBA') 
          originalimage.paste(Image.alpha_composite(originalimage.crop((i, 0, i + 30, 0 + 50)), maskx), (i, 0))
        if previ == 0 or i > previ + 15: #no digit closer then 15 px
          Zlist.append((i, z))
          if len(Zlist) == 5:
              Zlist.sort()
              for z in Zlist:
                captcha = captcha + str(z[1])
              return(captcha)
          previ = i
          i = i + 15 #skip a little
  Zlist.sort()
  return(str(Zlist)) #if less then 5 digits recognized
	
def main():
  captcha = recognize(entry.path)
#----------------------------------------------#
#  в архиве полный код для массовой обработки  #
#----------------------------------------------#

main()

Дополнение от 13.02.2020.
   Ради чего всё затевалось? Не ради же спортивного распознавания сохранённых картинок? Нет, всё это было исключительно в прагматических целях.
   Готовое решение для работы. — локальный http-сервер распознавания плюс расширение для Chrome.
   Пока единственное, что оно умеет (я надеюсь, что умеет) — автоматически вставлять капчу в нужное место. В планах:
— очистить интерфейс сайта, оставив необходимый минимум;
— автоматизировать обновление капчи при просмотре сведений, т.к. одна капча даёт возможность открыть всего 4 объекта.
— загружать сразу все готовые выписки, а не по одной.

Комментарии (19)

rasperepodvipodvert
12.02.2020 12:52
#21265110
Опубликуйте на github, яндекс диск считается плохим тоном!
1. 0617 Автор
  12.02.2020 13:15
  #21265278
  Полагаете, 26 строк кода того стоят? Архив с капчами всё равно куда-то нужно выложить, а код в архиве — так, маленький бонус.
  1. istepan
    12.02.2020 13:20
    #21265342
    +1
    gist.github.com
    
    0617 Автор
    12.02.2020 13:44
    #21265536
    Да, спасибо. К сожалению, чтобы код заработал, нужны файлы с масками. Подскажите, пожалуйста, как их туда выложить.

stabuev
12.02.2020 13:20
#21265340
мне кажется 26 строк кода можно было опубликовать прямо в статье :)
1. 0617 Автор
  12.02.2020 13:24
  #21265384
  +1
  Они спрятались под спойлером «Исходный код».
  1. stabuev
    12.02.2020 13:26
    #21265396
    спасибо, не заметил :)

mmMike
12.02.2020 13:27
#21265406
несколько дней назад я осилил запуск питона и решил

что можно решать их банальным сравнением с маской, что и подтвердилось впоследствии.
Я понимаю этот энтузиазм, но мне кажется что этот восторг не стоит статьи на хабр.

Банальное сравнение по маске объекта на "зашумленном" изображении да еще при таких граничных условиях, не стоит статьи (и тем более публикации этих "26 строчек кода на питоне").
1. 0617 Автор
  12.02.2020 13:52
  #21265606
  Вот такой «Hello, World!»
  Я поделился не восторгом, а простым решением одной конкретной небольшой проблемы. Полагаете, лучше на пикабу? Или оно вообще никому не интересно?
  1. mmMike
    12.02.2020 14:16
    #21265788
    Извините, но эта задачка настолько банальна (OCR алгоритмы).
    Я догадываюсь, что, наверное, это сейчас уже не преподают или Вы это не проходили.
    
    Изобрести велосипед в самом древнем варианте (деревянные колеса и отталкивание ногами) — это наверное здорово (если никогда велосипедов не видел раньше).
    
    Возможно я слишком жестко написал о своем впечатлении от статьи.
    
    Но, для наглядности, что бы понять причину моего комментария.
    Для иллюстрации замените
    "Капча, частный случай: рвём нейронную сеть тридцатью строками кода"
    на, например,
    "Сортировка, частный случай: рвём нейронную сеть тридцатью строками кода".
    
    "Сортировка" в котором узнаете частный случай (например только байтов с ограничением размера массива) сортировки "пузырьком".
    
    Мысль, которая мне понравилась в статье: не надо пихать везде нейронные сети.
    А вот изобретение велосипеда — не очень понравилось. Все же OCR алгоритмы это не ново.
    
    0617 Автор
    12.02.2020 15:35
    #21265900
    Вы абсолютно правы, я не настоящий программист — именно так я и написал в начале.
    Но почему бы не поделиться решением проблемы, пусть и очень специфической.
    
    Godless
    13.02.2020 00:11
    #21268478
    хватит оправдываться, нормальная статья, нормальная тема. Точно лучше подборки новостей (ничего не имею против них), и ничем не хуже звонка на ардуино.
    
    Jogger
    13.02.2020 09:22
    #21269194
    Для иллюстрации замените
    
    Заменил. Но тогда надо пойти до конца, и представить что перед этим на хабре была статья "Как отсортировать: нейросеть на Tensorflow,Keras,python v неотсортированный список". И сразу предложенная статья начинает казаться уместной, и даже необходимой.
1. kuza2000
  13.02.2020 09:56
  #21269314
  Я понимаю этот энтузиазм, но мне кажется что этот восторг не стоит статьи на хабр
  Ну почему же. Любой опыт, проведенный своими руками интересен, если его результаты не совсем уж очевидны. Мне было интересно.

halted
12.02.2020 15:45
#21265992
И правда история имеет свойство повторяться. Будь эта статья опубликована завтра, был бы юбилей посвященный нейросетям и капче.

13 февраля 2010 года на хабре появилась статья «Первый опыт создания нейронной сети. Хабракапча», на нее уже ответили чуть больше 30 человек, пост вылез на глагне, как автор наслушавшись, что произошло с прошлыми героями, зас*ал и удалил статью.

Лурк

maximq
12.02.2020 16:58
#21266472
Увидел, что в комментариях кто-то критикует вашу цель написания статьи. Не совсем соглашусь с ними, ибо даже эти самые радости и восторг от того, что код работает мотивируют программистов не бросать своё дело. Сам занимаюсь питоном полтора года, но до сих пор не пробовал сам написать нейронку (страх).

idmrty
13.02.2020 15:59
#21271766
Я умилился, вспомнив, что в своё время по такому же алгоритму писал распознавание капчи RapidShare на PHP для скрипта PHP RapidGet Pro.
Отдельно доставило потом обнаружить, как кто-то не поленился мой код изучить и выложить в виде туториала (даже в закладки сохранил).

0617 Автор
13.02.2020 22:50
#21273862
Добавил бонус. Если кто-то решит попробовать в работе, прошу отписаться как оно. Есть планы по доработке.

Vinchi
14.02.2020 01:07
#21274208
Попробуйте на капче ФНС

Капча, частный случай: рвём нейронную сеть тридцатью строками кода +17

Комментарии (19)

0617 Автор

0617 Автор

0617 Автор

0617 Автор

0617 Автор

0617 Автор