Фото: AP Photo / Akira Suemori

Исследователи из Массачусетского технологического института и Технологического института Джорджии разработали терагерцевый сканер, который позволяет читать книги, не открывая их. Это нужная вещь для оцифровки хрупких фолиантов, которые могут повредиться при листании страниц. Кроме того, технологию можно использовать для чтения писем в запечатанных конвертах, например.

Исследователи из лаборатории MIT Media Lab сообщают, что интерес к технологии уже проявило руководство музея Метрополитан в Нью-Йорке. Как и в некоторых других музеях, в их музейном фонде имеется ряд древних книг, которые боязно открывать. «Они не хотят даже прикасаться к ним», — говорит Бармак Хешмат (Barmak Heshmat), научный сотрудник MIT Media Lab и один из авторов научной статьи с описанием инновационного сканера.

Учёный добавил ещё, что прибор полезен не только для сканирования книг или чтения писем в запечатанных конвертах, но и для изучения любых материалов, которые нанесены в несколько тонких слоёв. Это может быть старый рисунок под слоем краски, содержимое таблетки под оболочкой или покрытие автомобиля под внешним слоем краски.


Специалисты из Массачусетского технологического института разработали аппаратную часть сканера, а коллеги из Технологического института Джорджии — программную часть для устранения искажений и улучшения качества отсканированных изображений. Учёные говорят, что программа устранения искажений в буквах работает настолько хорошо, что легко распознаёт многие картинки CAPTCHA, где используются искажённые символы.

Терагерцевое излучение — вид электромагнитного излучения, спектр частот которого расположен между инфракрасным и сверхвысокочастотным диапазонами. Диапазон частот от 0,01 до 10 ТГц. Терагерцевое излучение широко используется в системах безопасности для сканирования багажа и людей. В медицине начинают применять терагерцевые томографы, а в искусствоведении восемь лет назад начали использовать терагерцевые сканеры для изучения рисунков, скрытых под слоями краски. Такие сканеры позволяют обнаружить скрытые структурные дефекты в различных материалах.

Главной проблемой при сканировании многослойных поверхностей книг является быстрое падение уровня отражённого сигнала при «погружении» на несколько слоёв вглубь. Сигнал настолько слабый, что становится очень трудно выделить его из шума. Исследователи изобрели специальную технику для фильтрации сигнала и «фокусировки» на конкретном тонком слое.

В частности, они нашли способ фокусироваться на каждом слое многослойного материала по статистическим данным детектируемого электромагнитного излучения. Затем они выделяют спектральные изображения с наибольшим контрастом для каждого слоя, используя метод усреднённого временнoго стробирования спектрального эксцесса. Такой метод позволяет успешно считывать страницы даже с низким соотношением SNR менее 10 дБ, обеспечивая контрастность в 18 раз выше, чем при обычном сопоставлении амплитуды.


Экспериментальная установка со стопкой из 9 листов, на каждом из которых с одной стороны напечатана одна буква латинского алфавита. Листы из офисной бумаги толще обычного

Различение текста на страницах возможно благодаря тому, что между страниц закрытой книги остаются воздушные полости толщиной примерно 20 микрометров. Такие большие полости связаны с неровностью бумаги, ведь она изготавливается из дерева и не подвергается специальной шлифовке. Из-за разного показателя преломления воздуха и бумаги можно точно определить границы этих полостей по отражённому сигналу, который принимает терагерцевый детектор. Это позволяет распознавать конкретные листы в стопке.


Результат измерений: 9 латинских букв на листах (A); результат сканирования, время поступления отражённого сигнала соответствует глубине слоя, изменение насыщенности соответствует нормированному значению амплитуды поля в произвольных единицах, значения меньше 0,5 соответствуют отрицательной амплитуде поля (B); срез куба данных записанной амплитуды электрического поля, соответствующий конкретному времени поступления отражённого сигнала, то есть конкретному слою (С)

Пока что алгоритм может корректно определять расстояние до воздушных полостей примерно в 20 верхних листах стопки, но с каждой страницей сигнал становится всё слабее. Во время испытаний сканер успешно распознал 9 страниц в стопке в автоматическом режиме без человеческого участия и настройки.


Результат работы сканера в автоматическом режиме, с улучшением контраста в пост-процессинге и OCR

Учёные не теряют надежды улучшить качество сканирования, используя более чувствительные детекторы и более мощные источники терагерцевого излучения.

Терагерцевое излучение — относительно новая область инженерного дела. Работа Массачусетского технологического института и Технологического института Джорджии — одна из первых, в которой сочетаются новые инструменты и продвинутые методы компьютерной обработки изображений. Это только начало.

Технология сейчас активно развивается, так что в ближайшие годы наверняка появятся более чувствительные и точные приборы. Возможно, они смогут читать содержание не одного запечатанного письма, а сразу целого мешка писем.

Научная статья "Terahertz time-gated spectral imaging for content
extraction through layered structures"
опубликована 9 сентября 2016 года в журнале Nature Communications (doi: 10.1038/ncomms12665).

Поделиться с друзьями
-->

Комментарии (54)


  1. beliakov
    13.09.2016 13:31
    +10

    Пин-код прочитает без вскрытия?

    image


    1. vlivyur
      13.09.2016 13:45
      +4

      Зависит от того, может ли он буквы на термобумаге различать.
      Надо б взять этот сканер погонять для покупки моментальных лотереек.


      1. electronus
        14.09.2016 00:28
        +1

        Так там печать на матричном принтере, а не термопечать. Некоторые новые — на лазерном


        1. vlivyur
          14.09.2016 09:41

          Разве там матричник? Тогда должен смочь.


    1. Di-Roll
      13.09.2016 14:32
      +9

      Напомнило
      image


    1. VIVIM
      14.09.2016 14:25
      -2

      Я очень надеюсь, что все разумные люди при первом подходе к банкомату меняют ПИН-код карты. А значит в сканировании не много смысла.


      1. danfe
        15.09.2016 15:35

        Боюсь, лишь очень немногие. Не только из-за лени: у большинства на их картах деньги появляются в день зарплаты и снимаются в тот же, и особого смысла менять пин-код им просто нет.


  1. AlexPu
    13.09.2016 13:37

    Наконец-то! Появилась действительно надежная технология оцифровки печатной продукции!
    Ну не то чтобы так вот прям появилась, но определенно скроро появится, и возможно станет в конце концов сравнительно дешевой


    1. Here_and_Now
      13.09.2016 14:04
      +2

      Спрос на такое точно есть. Вопрос только в стоимости промышленных образцов


      1. AlexPu
        13.09.2016 14:36

        Да — я как раз и надеюсь, что стоимость оборудования в конце концов станет приемлимой для массового применения… Жалко только, что при сканировании книг не будут включаться картинки… Ну… разве что в черно-белом варианте…


        1. RiseOfDeath
          13.09.2016 17:44

          Теоретически, из-за разных пигментов, краска разного цвета имеет разную плотность… тут вопрос в точности.


        1. Moog_Prodigy
          13.09.2016 19:27
          +1

          Думаю, вряд ли. Цена и доступность будут на уровне Сатурна-5 в сравнении с Протоном (именно Протоном!). Радиоуглеродный анализ появился еще когда, а где его воплощения дома?
          А вот цензоры не посмотрят на цену.


          1. perfect_genius
            13.09.2016 21:31

            Зачем людям дома радиоуглеродный анализ, когда многие о нём даже не знают.


          1. AlexPu
            14.09.2016 15:09

            Я припоминаю ситуацию когда ПЕРСОНАЛЬНЫЕ копьютеры стоили около половины годового дохода квалифицированного специалиста в сев. америке…
            А мобильную связь помните? Сколько она стоила?

            Что до «Радиоуглеродный анализа», то уверяю вас — как только кому-то придет в голову сделать из него потребительский продукт, за снижением цен дело не станет…


            1. IvanTamerlan
              14.09.2016 18:14

              тут другой вопрос должен быть:
              — Как монетизировать радиоуглеродный анализ?
              И после этого она будет потребительским продуктом. Хотя не факт. Даже на автомобили стоимость не упала ниже некоторого предела, т.к. есть понятие «себестоимость».

              Либо будет как с принтерами — дешевый принтер, но дорогие чернила или дорогой принтер и копеечные чернила. Встречаются варианты, когда и принтер, и чернила дорогие. Или одновременно дешевые.


              1. AlexPu
                14.09.2016 21:50

                Стоимость автомоюиля конечно не упала «ниже некоторого предела» — в абсолютном выражениии… а вот покупательная способность денег только за последние лет двадцать упала минимум раза в два… и это я еще оптимист…

                Да что там — двадцать лет назад зарплата ит специалиста в сша в 60 тыс долл. считалась очень крутой — не во всяком городе такую можно было получить даже обладая высокой квалификацией… а сейчас? Если подсчитать сколько машин можно было купить на годовую зарплату группируя скажем по профессиям или по социальному положению и сравнить, то машины подешевели конкретно — в смысле стали намного доступрее (и процесс не прекратился)

                С принтерами тоже паршивый пример — вы имеете в виду один конкретный класс принтеров, забывая, что есть и другие — скажем у меня дома цветной лазерный принтер, который я не мог себе позволить лет десять назад, при том, что мои доходы выросли за это время не столь уж радикально…

                Ну а что касается инсинуаций насчет «монетизации»… я конечно понимаю, что хотелось что-то сказать… умное…


  1. dubakov
    13.09.2016 13:59
    +1

    Лотерейные билеты со стираемым слоем просветит?


    1. roboq6
      13.09.2016 14:03

      Даже если и да, то вряд ли продавцы Вам позволят их просканировать.


      1. Bluewolf
        13.09.2016 14:16
        +1

        Продавцы сами себе позволят. Но я думаю, текущая стоимость оборудования заметно превышает возможный профит.


      1. unwrecker
        13.09.2016 14:17

        Да, но есть готовый бизнес-план: становимся распространителем этих самых билетов, закупаем партию, сканируем, выигрышные обналичиваем, остальные продаём.

        Собственно ничего нового кроме сканера — продавцы и раньше находили способы отобрать выигрышные билеты.


        1. DenimTornado
          13.09.2016 14:21
          +2

          Если они там есть!


        1. roboq6
          13.09.2016 14:53
          +2

          продавцы и раньше находили способы отобрать выигрышные билеты.

          Да ну? И как же?


          1. siryoshka
            13.09.2016 19:42

            Методом тыка.


          1. zaq1xsw2cde3vfr4
            13.09.2016 19:42
            +4

            Рассказывал мне один товарищ как он в 90е продавал билетики «либерти». Эти билетики были отпечатаны по 5 штук на листе. Поскольку покупатели стирали слой тут же при них, путем сбора статистики они определили что на каждом листе в обязательном порядке содержится 1 выигрышный билет…
            Далее подходят покупатели, берут билеты и тут же стирают. Купили 4 билета с листа безвыигрышных — оставшийся твоя удача.


          1. unwrecker
            14.09.2016 09:55
            +1

            Был вариант лотерейных билетов из простой бумаги, свёрнутой, и скреплённой металлической заклёпкой. Вот их вымачивали в глицирине до прозрачности. Проигрышные высушивали и продавали.


            1. tUUtiKKi13
              14.09.2016 10:33

              Высушивали глицерин? Может всё-таки спирт?


              1. unwrecker
                14.09.2016 11:07

                Запомнил именно про глицерин. Тоже вызывает вопросы способ просушки. Может сначала и спиртом промывали…


              1. aapazhe
                15.09.2016 10:50

                Глицерин вполне себе возгоняется при 200 цельсия и небольшом разрежении.


      1. MrFlash
        13.09.2016 14:31

        Так это продавец и спрашивает


      1. PaulAtreides
        13.09.2016 14:32

        Зачем «позволят»? Они сами будут сканировать.


      1. webkumo
        13.09.2016 14:33

        Есть же «беспроигрышные» угадайки вида «сотри в нужном поле» (т.е. если реально знать — они реально беспроигрышные… только без этой технологии знать-то как раз и невозможно)…


      1. Andy_Big
        13.09.2016 14:34
        +1

        Они сами уже просканировали и отобрали с нормальными выигрышами :))


    1. AB_AG
      13.09.2016 14:32

      Да что билеты, вот капчу распознавать — это супер профит.


      1. hdfan2
        13.09.2016 14:47
        +4

        Не открывая сайт.


        1. danfe
          13.09.2016 14:50
          +4

          Да что там, вообще не включая компьютер. :-)


          1. IvanTamerlan
            13.09.2016 19:43

            Я хочу не включая компьютер прочитать содержимое HDD. Но там другой принцип хранения поэтому текущие разработки могут быть бесполезны. Да и скорость вряд ли будет сопоставима хотя бы с IDE, я молчу про sata и более новые, т.к. часть времени будет тратиться на распознавание.


    1. sumanai
      13.09.2016 15:13

      Нет, там нет воздушного слоя, к тому же стираемый слой сделан не из бумаги, и не факт, что хорошо пропускает нужное ЭМ излучение.


      1. olekl
        13.09.2016 15:32

        «но и для изучения любых материалов, которые нанесены в несколько тонких слоёв. Это может быть старый рисунок под слоем краски, содержимое таблетки под оболочкой или покрытие автомобиля под внешним слоем краски.» — если это действительно так, то моментальным лотерейным билетам конец пришел…


        1. sumanai
          13.09.2016 15:34
          -1

          А разве и так не ясно, что лотереи приносят доход только их организаторам? Притом все, а не только моментальные.


          1. olekl
            13.09.2016 15:43
            +2

            «Лотерея приносит доход организатору» и «Лотерея проводится честно» — не взаимоисключающие понятия.


            1. sumanai
              13.09.2016 17:24
              -1

              Конечно! Но любая честная (да и не честная) лотерея по определению забирает у людей больше, чем отдаёт.
              Никаких отличий от казино и прочих сравнительно честных методов отъёма денег у населения.


              1. IvanTamerlan
                14.09.2016 07:51
                +1

                есть лотереи, которые приносят куда больше, нежели забирает у участников. Разница за счет организатора.
                Варианты таких лотерей:
                1) рекламная акция (конкретно лотерея отдаст больше за счет организатора)
                2) благотворительные (разные подарки среди большой аудитории)
                3) праздничные (когда ребенок из мешка Деда Мороза достает случайный подарок — тоже лотерея. За счет организатора, т.е. за счет родителей)
                4) организационные (так, кто к доске?)
                и т.д.
                Я молчу про лотереи, где организатор и потенциальный получатель — одно лицо. Кидаем монетку, если выпадет орел — ставим плюсик, если решка — комментируем, если на ребро — идем пить чай, если зависнет в воздухе — ставим минус (просьба космонавтам на МКС участие в подбрасывании монетки не принимать). Хотя некоторые меняют плюс и минус местами.

                Даже у создателей сканера своеобразная лотерея — прочитает/распознает или нет? Во сколько обойдется редактура (в случае не распознавания)? Во сколько вообще обойдется стоимость распознавания одного листа? А для определения эффективности сканера можно использовать альтернативные затраты, т.е. сколько денег уйдет на набор текста или использование традиционного постраничного сканера.


        1. servermen
          13.09.2016 15:40

          Можно запечатывать в фольгу, чтобы радиоволны не проникали.


  1. Gozdi
    13.09.2016 15:50

    Приоритет идеи за пионерами СССР, наконец таки изобретена «красная фотопленка»


    1. Andy_Big
      13.09.2016 19:41

      Она давно уже изобретена и используется в аэропортах :)
      image


      1. Shannon
        14.09.2016 01:31

        Это просто инвертированная фотка c дорисованными объектами


        1. Andy_Big
          14.09.2016 01:37

          Да, я знаю, что это фейк, но он не так уж далек от реальных изображений на этих сканерах.


      1. nox007
        14.09.2016 10:05
        -1

        Тема сис… к раскрыта! Ну и не только)))


  1. Vjatcheslav3345
    14.09.2016 09:22

    В связи с появлением такой востребованной в РФ штуки ждём выхода «Закона Яровой» V 2.0 — теперь не только электронная почта обязана ложится на стол «компетентных товарищъчей» — но и бумажные письма и посылки и пин-коды ваших банковских карт… :)


  1. latteo
    14.09.2016 10:05

    К сожалению в переводе не раскрыта тема чтения изогнутых страниц и свитков. А так же работа с материалами отличными от бумаги. Эти два фактора актуальны для действительно древних рукописей.


    1. vlivyur
      14.09.2016 12:42

      Как я понимаю, это работает как обычный УЗИ. Так что со свитками и изогнутыми поверхностями тоже работает, только толщина уже будет зависеть от угла наклона и материала.


    1. IvanTamerlan
      14.09.2016 18:32

      По идее должно быть типа МРТ, там создается трехмерная структура.
      Далее компьютер должен будет эту структуру нарезать на свитки, листы и прочие поверхности. И распознать уже непосредственно текст.
      Но то в будущем, они сейчас тренируются на плоских книгах послойно.
      Из недостатков 3D сканирования — если закрепить книгу под углом 45 градусов к сканирующей поверхности, то могут быть проблемы с точностью для мелких шрифтов, которые решаются либо несколькими сканерами под разными углами, либо уменьшением ширины слоя, либо одновременно несколько вариантов.
      Про закрепление книги под углом — это синтетический тест на распознавание. Те же свитки могут иметь куда более сложную форму, нежели цилиндр, из-за помятости. Например (события выдуманы для примера), шло сражение, боец спешил отнести донесение командиру, в спешке помял свиток, но засунул в тубус. Дальше получил смертельное ранение и остался на поле боя. Через столетия археологи находят скелет и тубус. Конечно, интересно прочитать то послание, т.к. уже не сохранились данные что та битва была. Может то потасовка среди 10 человек? Определить можно, если узнать что написано на свитке. И тут облом — свиток невозможно извлечь, не повредив его. А вот сканер вполне может прочесть. Если, конечно, компьютер сможет определить форму помятого клочка бумаги. После прочтения одним белым пятном станет меньше. Или появятся вопросы по другим периодам и пятен станет больше.


  1. mypomacca
    14.09.2016 10:06

    Приятная штука, я так понял, что она может считывать текст даже если буквы затерлись?


  1. imihajlov
    14.09.2016 11:37
    +1

    Скажите, и в магазине можно так же стенку приподнять?