Способ раз


Создание шифровки




Скопируем текст в MS Word, сделаем его одного размера и форматирования, и применим к нему какой-нибудь иконочный шрифт, такой как Webdings или любой другой. Распечатаем и отправим полученную шифровку другу.

Ваш друг, конечно, моряк, и легко и быстро прочитает полученную шифровку. Но представим, что вы отправили другу не строчку, а много строчек. Что делать тогда?

Подготовка к расшифровке


Создание ключа



Для того чтобы ваш друг мог её легко расшифровать, ему нужно передать ключ. В некоторых случаях ключ может создать он сам. Но мы поможем ему в этом нелёгком деле и аналогично шифровке создадим следующий файл:



Внимательный читатель может заметить, что флагов тут ровно 26, и предположить, что видит перед собой английский алфавит, и, конечно, будет прав.

Создание эталонов



Сканируем ключ в FineReader. Выбираем английский язык распознавания, распознавание с обучением и запрещаем использовать встроенные эталоны. Нажимаем «Распознать». Теперь про каждую букву нас будут спрашивать, что это за буква:



Набираем по очереди буквы алфавита и нажимаем «Поезд». 52 нажатия – и эталон готов. Не забудьте сохранить эталоны для дальнейшего использования, иначе обучение придется делать каждый раз. Полученные эталоны можно посмотреть в редакторе эталонов:



Весь этот процесс занимает 5-10 минут, но может занять больше времени, если вы не знаете расположение английских букв. В этом случае рекомендуется помечать на клавиатуре уже использованные клавиши, чтобы ускорить поиск оставшихся.

Расшифровка


Теперь выключаем режим обучения, сканируем и распознаем сам текст шифровки. Вуаля – и мы имеем результат:



Внимательный читатель скажет: ну и что? Зачем это нужно? Как ни странно, этому можно найти много применений, например:

• создать эталоны для шрифта xkcdRightHand и легко извлекать тексты с картинок любимого комикса;
• создать эталоны для какого-нибудь нестандартного шрифта и оцифровать старую книгу;
• осуществлять быстрый поиск по эльфийским книгам, написанным на тенгваре или кертаре;
• помощь в оцифровке текстов, автор которых считает себя самым умным и вставляет везде странные знаки.

Начинающий конспиролог скажет, что взломать такой шифр – как раз плюнуть: смотрим статистику использования букв, анализируем короткие слова – и ключ разгадан. В этом случае добавляем в исходный текст мусорные символы, либо кодируем его в Base64. А теперь представьте себе, что для шифрования используется, например, ж-шрифт:



Я думаю через пару минут визуального анализа, в голове будут одни Ж.

Способ два


Создание шифровки



Берем книгу с полки, которую не жалко. Я уверен, что сейчас сюда набегут люди, которые скажут, что таких книг не бывает. Но поверьте: раз уж вы встали на путь шифрования, то для вас не должно быть ничего святого. Поэтому — вперёд. Берем книгу, и (впечатлительным дальше лучше не читать) ручку, вспоминаем, что передать мы хотим только одно слово: «сосна», листаем книгу, находим искомое на 117 странице, и модифицируем:



Закрываем книгу и отправляем её другу.

Подготовка к расшифровке


Придумывание секретных слов



Заранее согласуем с другом набор секретных слов, которые должны удовлетворять следующему условию: в них должны быть буквы «с» или «л», например, сосна, сквиталась, логопед.

Создание словаря


Друг сохраняет эти слова в txt файл, с небольшими изменениями: оосна, еквиталась, погопед; после чего импортирует его в пользовательский словарь свежесозданного языка в FineReader:



Расшифровка


Сканируем полученную книгу и распознаём её нашим языком. Ищем в тексте видоизмененные слова, находим «оосна» и радуемся. Таким образом испортив использовав всего одну книгу, мы передали секретное слово. Данная методика основана на том, что при распознавании схожих букв используется проверка по словарю, а мы специально исковеркали слова и создали под них словарь. Если сторонний человек не знает список секретных слов, то ему будет тяжело выделить одно то самое слово из книги, потому что при распознавании встроенным языком распознавания оно распознается как «сосна», благодаря той самой проверке по словарю.



А вообще создание собственных словарей позволяет улучшить распознавание часто встречающихся имен собственных, аббревиатур и последовательностей буквоцифр, для этого в пользовательском языке вместо словаря можно указать регулярное выражение для проверки.

А закончить мы хотим следующими словами:

Комментарии (13)


  1. JagaJaga
    09.04.2015 03:23
    +8

    «На свете существует 10 типов людей: те, кто понимает двоичную систему счисления, и те, кто не понимает.»


    1. oshibka404
      09.04.2015 04:06
      +13

      Есть два типа людей: которые умеют экстраполировать из неполных данных


      1. ivanych
        09.04.2015 08:55
        -2

        Правильнее писать «которые НЕ умеют».


  1. dtestyk
    09.04.2015 03:57
    +6

    с удивлением, обнаружил в ж шрифте: Y, m, K, ?, X, w, динозаврика, змею, черепашку, рыбий хвост, танцора диско


    1. SerafimArts
      09.04.2015 04:05
      +4

      Там ещё Египтяне присутствуют.


  1. k12th
    09.04.2015 07:52
    +5

    Набираем по очереди буквы алфавита и нажимаем «Поезд».
    Это ирония?


    1. BubaVV
      09.04.2015 09:29
      +7

      Статью про автоматическое распознавание надо писать автоматическим генератором текста или переводить автопереводчиком


      1. pehat
        09.04.2015 12:29
        +2

        Статью про Abbyy Fine Reader надо переводить при помощи Abbyy Lingvo.


    1. datacompboy
      09.04.2015 11:54
      +8

      На картинке если посмотрите есть кнопка «Train».
      По-моему это логично — вы набрали кучу картинок и одним поездом его изучили.


      1. k12th
        09.04.2015 12:08
        +1

        Действительно, логично:)


  1. ssh1
    09.04.2015 12:16
    +2

    А почему бы тогда не сделать полностью автоматическое распознавание алфавита(соответствия между символами)? У нас ведь есть информация что это изначально текст на русском языке. Если объем его достаточно большой — задача вполне разрешима.


    1. datacompboy
      09.04.2015 12:57
      +2

      Распознайте 1 картинка = 1 любая буква
      А потом обычными средствами статистического анализа


    1. chronomaster Автор
      09.04.2015 13:05
      +2

      Исходный текст на английском, но это не важно.
      Основная проблема в том, чтобы правильно найти все картинки. Например, при обучении FineReader упорно не хотел различать буквы i и s (черный круг и черный прямоугольник на белом фоне). Т.е. после обучения одной из этих букв, он не предлагал обучать вторую. На этой стадии скорее всего понадобиться помощь оператора. Ну а после, экспорт в txt и, как уже предложили, разбор обычными средствами статистического анализа.