Фото: AP Photo / Akira Suemori
Исследователи из Массачусетского технологического института и Технологического института Джорджии разработали терагерцевый сканер, который позволяет читать книги, не открывая их. Это нужная вещь для оцифровки хрупких фолиантов, которые могут повредиться при листании страниц. Кроме того, технологию можно использовать для чтения писем в запечатанных конвертах, например.
Исследователи из лаборатории MIT Media Lab сообщают, что интерес к технологии уже проявило руководство музея Метрополитан в Нью-Йорке. Как и в некоторых других музеях, в их музейном фонде имеется ряд древних книг, которые боязно открывать. «Они не хотят даже прикасаться к ним», — говорит Бармак Хешмат (Barmak Heshmat), научный сотрудник MIT Media Lab и один из авторов научной статьи с описанием инновационного сканера.
Учёный добавил ещё, что прибор полезен не только для сканирования книг или чтения писем в запечатанных конвертах, но и для изучения любых материалов, которые нанесены в несколько тонких слоёв. Это может быть старый рисунок под слоем краски, содержимое таблетки под оболочкой или покрытие автомобиля под внешним слоем краски.
Специалисты из Массачусетского технологического института разработали аппаратную часть сканера, а коллеги из Технологического института Джорджии — программную часть для устранения искажений и улучшения качества отсканированных изображений. Учёные говорят, что программа устранения искажений в буквах работает настолько хорошо, что легко распознаёт многие картинки CAPTCHA, где используются искажённые символы.
Терагерцевое излучение — вид электромагнитного излучения, спектр частот которого расположен между инфракрасным и сверхвысокочастотным диапазонами. Диапазон частот от 0,01 до 10 ТГц. Терагерцевое излучение широко используется в системах безопасности для сканирования багажа и людей. В медицине начинают применять терагерцевые томографы, а в искусствоведении восемь лет назад начали использовать терагерцевые сканеры для изучения рисунков, скрытых под слоями краски. Такие сканеры позволяют обнаружить скрытые структурные дефекты в различных материалах.
Главной проблемой при сканировании многослойных поверхностей книг является быстрое падение уровня отражённого сигнала при «погружении» на несколько слоёв вглубь. Сигнал настолько слабый, что становится очень трудно выделить его из шума. Исследователи изобрели специальную технику для фильтрации сигнала и «фокусировки» на конкретном тонком слое.
В частности, они нашли способ фокусироваться на каждом слое многослойного материала по статистическим данным детектируемого электромагнитного излучения. Затем они выделяют спектральные изображения с наибольшим контрастом для каждого слоя, используя метод усреднённого временнoго стробирования спектрального эксцесса. Такой метод позволяет успешно считывать страницы даже с низким соотношением SNR менее 10 дБ, обеспечивая контрастность в 18 раз выше, чем при обычном сопоставлении амплитуды.
Экспериментальная установка со стопкой из 9 листов, на каждом из которых с одной стороны напечатана одна буква латинского алфавита. Листы из офисной бумаги толще обычного
Различение текста на страницах возможно благодаря тому, что между страниц закрытой книги остаются воздушные полости толщиной примерно 20 микрометров. Такие большие полости связаны с неровностью бумаги, ведь она изготавливается из дерева и не подвергается специальной шлифовке. Из-за разного показателя преломления воздуха и бумаги можно точно определить границы этих полостей по отражённому сигналу, который принимает терагерцевый детектор. Это позволяет распознавать конкретные листы в стопке.
Результат измерений: 9 латинских букв на листах (A); результат сканирования, время поступления отражённого сигнала соответствует глубине слоя, изменение насыщенности соответствует нормированному значению амплитуды поля в произвольных единицах, значения меньше 0,5 соответствуют отрицательной амплитуде поля (B); срез куба данных записанной амплитуды электрического поля, соответствующий конкретному времени поступления отражённого сигнала, то есть конкретному слою (С)
Пока что алгоритм может корректно определять расстояние до воздушных полостей примерно в 20 верхних листах стопки, но с каждой страницей сигнал становится всё слабее. Во время испытаний сканер успешно распознал 9 страниц в стопке в автоматическом режиме без человеческого участия и настройки.
Результат работы сканера в автоматическом режиме, с улучшением контраста в пост-процессинге и OCR
Учёные не теряют надежды улучшить качество сканирования, используя более чувствительные детекторы и более мощные источники терагерцевого излучения.
Терагерцевое излучение — относительно новая область инженерного дела. Работа Массачусетского технологического института и Технологического института Джорджии — одна из первых, в которой сочетаются новые инструменты и продвинутые методы компьютерной обработки изображений. Это только начало.
Технология сейчас активно развивается, так что в ближайшие годы наверняка появятся более чувствительные и точные приборы. Возможно, они смогут читать содержание не одного запечатанного письма, а сразу целого мешка писем.
Научная статья "Terahertz time-gated spectral imaging for content
extraction through layered structures" опубликована 9 сентября 2016 года в журнале Nature Communications (doi: 10.1038/ncomms12665).
Поделиться с друзьями
beliakov
Пин-код прочитает без вскрытия?
vlivyur
Зависит от того, может ли он буквы на термобумаге различать.
Надо б взять этот сканер погонять для покупки моментальных лотереек.
electronus
Так там печать на матричном принтере, а не термопечать. Некоторые новые — на лазерном
vlivyur
Разве там матричник? Тогда должен смочь.
Di-Roll
VIVIM
Я очень надеюсь, что все разумные люди при первом подходе к банкомату меняют ПИН-код карты. А значит в сканировании не много смысла.
danfe
Боюсь, лишь очень немногие. Не только из-за лени: у большинства на их картах деньги появляются в день зарплаты и снимаются в тот же, и особого смысла менять пин-код им просто нет.
AlexPu
Наконец-то! Появилась действительно надежная технология оцифровки печатной продукции!
Ну не то чтобы так вот прям появилась, но определенно скроро появится, и возможно станет в конце концов сравнительно дешевой
Here_and_Now
Спрос на такое точно есть. Вопрос только в стоимости промышленных образцов
AlexPu
Да — я как раз и надеюсь, что стоимость оборудования в конце концов станет приемлимой для массового применения… Жалко только, что при сканировании книг не будут включаться картинки… Ну… разве что в черно-белом варианте…
RiseOfDeath
Теоретически, из-за разных пигментов, краска разного цвета имеет разную плотность… тут вопрос в точности.
Moog_Prodigy
Думаю, вряд ли. Цена и доступность будут на уровне Сатурна-5 в сравнении с Протоном (именно Протоном!). Радиоуглеродный анализ появился еще когда, а где его воплощения дома?
А вот цензоры не посмотрят на цену.
perfect_genius
Зачем людям дома радиоуглеродный анализ, когда многие о нём даже не знают.
AlexPu
Я припоминаю ситуацию когда ПЕРСОНАЛЬНЫЕ копьютеры стоили около половины годового дохода квалифицированного специалиста в сев. америке…
А мобильную связь помните? Сколько она стоила?
Что до «Радиоуглеродный анализа», то уверяю вас — как только кому-то придет в голову сделать из него потребительский продукт, за снижением цен дело не станет…
IvanTamerlan
тут другой вопрос должен быть:
— Как монетизировать радиоуглеродный анализ?
И после этого она будет потребительским продуктом. Хотя не факт. Даже на автомобили стоимость не упала ниже некоторого предела, т.к. есть понятие «себестоимость».
Либо будет как с принтерами — дешевый принтер, но дорогие чернила или дорогой принтер и копеечные чернила. Встречаются варианты, когда и принтер, и чернила дорогие. Или одновременно дешевые.
AlexPu
Стоимость автомоюиля конечно не упала «ниже некоторого предела» — в абсолютном выражениии… а вот покупательная способность денег только за последние лет двадцать упала минимум раза в два… и это я еще оптимист…
Да что там — двадцать лет назад зарплата ит специалиста в сша в 60 тыс долл. считалась очень крутой — не во всяком городе такую можно было получить даже обладая высокой квалификацией… а сейчас? Если подсчитать сколько машин можно было купить на годовую зарплату группируя скажем по профессиям или по социальному положению и сравнить, то машины подешевели конкретно — в смысле стали намного доступрее (и процесс не прекратился)
С принтерами тоже паршивый пример — вы имеете в виду один конкретный класс принтеров, забывая, что есть и другие — скажем у меня дома цветной лазерный принтер, который я не мог себе позволить лет десять назад, при том, что мои доходы выросли за это время не столь уж радикально…
Ну а что касается инсинуаций насчет «монетизации»… я конечно понимаю, что хотелось что-то сказать… умное…
dubakov
Лотерейные билеты со стираемым слоем просветит?
roboq6
Даже если и да, то вряд ли продавцы Вам позволят их просканировать.
Bluewolf
Продавцы сами себе позволят. Но я думаю, текущая стоимость оборудования заметно превышает возможный профит.
unwrecker
Да, но есть готовый бизнес-план: становимся распространителем этих самых билетов, закупаем партию, сканируем, выигрышные обналичиваем, остальные продаём.
Собственно ничего нового кроме сканера — продавцы и раньше находили способы отобрать выигрышные билеты.
DenimTornado
Если они там есть!
roboq6
Да ну? И как же?
siryoshka
Методом тыка.
zaq1xsw2cde3vfr4
Рассказывал мне один товарищ как он в 90е продавал билетики «либерти». Эти билетики были отпечатаны по 5 штук на листе. Поскольку покупатели стирали слой тут же при них, путем сбора статистики они определили что на каждом листе в обязательном порядке содержится 1 выигрышный билет…
Далее подходят покупатели, берут билеты и тут же стирают. Купили 4 билета с листа безвыигрышных — оставшийся твоя удача.
unwrecker
Был вариант лотерейных билетов из простой бумаги, свёрнутой, и скреплённой металлической заклёпкой. Вот их вымачивали в глицирине до прозрачности. Проигрышные высушивали и продавали.
tUUtiKKi13
Высушивали глицерин? Может всё-таки спирт?
unwrecker
Запомнил именно про глицерин. Тоже вызывает вопросы способ просушки. Может сначала и спиртом промывали…
aapazhe
Глицерин вполне себе возгоняется при 200 цельсия и небольшом разрежении.
MrFlash
Так это продавец и спрашивает
PaulAtreides
Зачем «позволят»? Они сами будут сканировать.
webkumo
Есть же «беспроигрышные» угадайки вида «сотри в нужном поле» (т.е. если реально знать — они реально беспроигрышные… только без этой технологии знать-то как раз и невозможно)…
Andy_Big
Они сами уже просканировали и отобрали с нормальными выигрышами :))
AB_AG
Да что билеты, вот капчу распознавать — это супер профит.
hdfan2
Не открывая сайт.
danfe
Да что там, вообще не включая компьютер. :-)
IvanTamerlan
Я хочу не включая компьютер прочитать содержимое HDD. Но там другой принцип хранения поэтому текущие разработки могут быть бесполезны. Да и скорость вряд ли будет сопоставима хотя бы с IDE, я молчу про sata и более новые, т.к. часть времени будет тратиться на распознавание.
sumanai
Нет, там нет воздушного слоя, к тому же стираемый слой сделан не из бумаги, и не факт, что хорошо пропускает нужное ЭМ излучение.
olekl
«но и для изучения любых материалов, которые нанесены в несколько тонких слоёв. Это может быть старый рисунок под слоем краски, содержимое таблетки под оболочкой или покрытие автомобиля под внешним слоем краски.» — если это действительно так, то моментальным лотерейным билетам конец пришел…
sumanai
А разве и так не ясно, что лотереи приносят доход только их организаторам? Притом все, а не только моментальные.
olekl
«Лотерея приносит доход организатору» и «Лотерея проводится честно» — не взаимоисключающие понятия.
sumanai
Конечно! Но любая честная (да и не честная) лотерея по определению забирает у людей больше, чем отдаёт.
Никаких отличий от казино и прочих сравнительно честных методов отъёма денег у населения.
IvanTamerlan
есть лотереи, которые приносят куда больше, нежели забирает у участников. Разница за счет организатора.
Варианты таких лотерей:
1) рекламная акция (конкретно лотерея отдаст больше за счет организатора)
2) благотворительные (разные подарки среди большой аудитории)
3) праздничные (когда ребенок из мешка Деда Мороза достает случайный подарок — тоже лотерея. За счет организатора, т.е. за счет родителей)
4) организационные (так, кто к доске?)
и т.д.
Я молчу про лотереи, где организатор и потенциальный получатель — одно лицо. Кидаем монетку, если выпадет орел — ставим плюсик, если решка — комментируем, если на ребро — идем пить чай, если зависнет в воздухе — ставим минус (просьба космонавтам на МКС участие в подбрасывании монетки не принимать). Хотя некоторые меняют плюс и минус местами.
Даже у создателей сканера своеобразная лотерея — прочитает/распознает или нет? Во сколько обойдется редактура (в случае не распознавания)? Во сколько вообще обойдется стоимость распознавания одного листа? А для определения эффективности сканера можно использовать альтернативные затраты, т.е. сколько денег уйдет на набор текста или использование традиционного постраничного сканера.
servermen
Можно запечатывать в фольгу, чтобы радиоволны не проникали.
Gozdi
Приоритет идеи за пионерами СССР, наконец таки изобретена «красная фотопленка»
Andy_Big
Она давно уже изобретена и используется в аэропортах :)
Shannon
Это просто инвертированная фотка c дорисованными объектами
Andy_Big
Да, я знаю, что это фейк, но он не так уж далек от реальных изображений на этих сканерах.
nox007
Тема сис… к раскрыта! Ну и не только)))
Vjatcheslav3345
В связи с появлением такой востребованной в РФ штуки ждём выхода «Закона Яровой» V 2.0 — теперь не только электронная почта обязана ложится на стол «компетентных товарищъчей» — но и бумажные письма и посылки и пин-коды ваших банковских карт… :)
latteo
К сожалению в переводе не раскрыта тема чтения изогнутых страниц и свитков. А так же работа с материалами отличными от бумаги. Эти два фактора актуальны для действительно древних рукописей.
vlivyur
Как я понимаю, это работает как обычный УЗИ. Так что со свитками и изогнутыми поверхностями тоже работает, только толщина уже будет зависеть от угла наклона и материала.
IvanTamerlan
По идее должно быть типа МРТ, там создается трехмерная структура.
Далее компьютер должен будет эту структуру нарезать на свитки, листы и прочие поверхности. И распознать уже непосредственно текст.
Но то в будущем, они сейчас тренируются на плоских книгах послойно.
Из недостатков 3D сканирования — если закрепить книгу под углом 45 градусов к сканирующей поверхности, то могут быть проблемы с точностью для мелких шрифтов, которые решаются либо несколькими сканерами под разными углами, либо уменьшением ширины слоя, либо одновременно несколько вариантов.
Про закрепление книги под углом — это синтетический тест на распознавание. Те же свитки могут иметь куда более сложную форму, нежели цилиндр, из-за помятости. Например (события выдуманы для примера), шло сражение, боец спешил отнести донесение командиру, в спешке помял свиток, но засунул в тубус. Дальше получил смертельное ранение и остался на поле боя. Через столетия археологи находят скелет и тубус. Конечно, интересно прочитать то послание, т.к. уже не сохранились данные что та битва была. Может то потасовка среди 10 человек? Определить можно, если узнать что написано на свитке. И тут облом — свиток невозможно извлечь, не повредив его. А вот сканер вполне может прочесть. Если, конечно, компьютер сможет определить форму помятого клочка бумаги. После прочтения одним белым пятном станет меньше. Или появятся вопросы по другим периодам и пятен станет больше.
mypomacca
Приятная штука, я так понял, что она может считывать текст даже если буквы затерлись?
imihajlov