Четверть века назад цифровые технологии пришли к простым потребителям. До того момента у нас, простых потребителей, были бумажные книги, виниловые пластинки, магнитофонные ленты и кино-фотоплёнка. Все это богатство изнашивалось при использовании, искажалось при копировании и попросту портилось от времени при хранении. Конечно же, по хорошему, нужно было иметь негативы и мастер-ленты для хранения и первые копии для использования, но конечные потребители мало следовали этим правилам.
И когда к нам пришли персональные компьютеры с цифровыми технологиями, это было чудом — книги, фотографии, песни и фильмы, всё это не портилось ни при хранении, ни при воспроизведении, ни при копировании. На горизонте появилась цифровая вечность. Появилась, помахала ручкой и пропала.
О том, что цифровые технологии победили, но у победы оказался странный вкус, можно говорить долго. Сейчас я затрону только вопрос фотографий.
Зачем это всё
В течении последних 14 лет я изучаю историю техники. В этом своём занятии я использую не только архивные документы и бумажные книги, но так же и цифровые документы. Это сканы и фотографии с личных страничек, местных интернет-форумов, сайтов библиотек и газет, и даже с сайтов-помоек со «смешными картинками» (куда грузится всё что не попадя).
Для работы с этим контентным адом, мне пришлось выработать рефлексы, разработать методики, а так же формализовать и описать возникающие у меня на пути проблемы.
Потому, что если проблема описана и хорошо задокументирована, то это уже не проблема, а просто особенность работы.
Явление героя
Явление, о котором я хочу поговорить, широко известно и много обсуждается, но, как это ни странно, не имеет устоявшегося названия и чётко очерченых границ.
Это точно не «деградации данных» (data degradation) — она является следствием случайных технических сбоев при хранении. И это явление не тождественно «дефекту поколений» (generation loss) — он иллюстрирует некоторые технические аспекты процесса, но не описывает и не объясняет организационную сторону проблемы.
Поэтому, я придумал термин «цифровой износ» (ещё раз проверил, прямо перед публикацией — ни Гугл, ни Яндекс этого словосочетания не находят). В данном случае, под «износом» я понимаю тоже самое что и в случае с износом в физическом мире — потеря потребительских свойств в процессе эксплуатации. И, как и в случае с техникой, цифровой износ зависит от условий и режимов эксплуатации. Спокойная езда автомобиля по ровной дороге приводит к одному уровню износа, гоняние по колдобинам, да ещё с перегрузом — к другому.
Цифровой износ в начале цифровой революции
Как я уже говорил, в начале цифровой революции, цифровые фотографии были перспективней аналоговых — они не выцветали и не искажались при копировании. Однако, очень быстро оказалось, что цифровые фотографии лишь в теории могут вечно сохраняться и копироваться без ущерба для качества. А всё из-за них — условий эксплуатации.
А условия тогда были очень жёсткими.
Диски имели маленький объём, а доступ в интернет — маленькую скорость. К тому же, и то и другое было ыдорогим. Это было суровое время. Мы выживали как могли.
Мы уменьшали картинки в размерах
Мы экспериментировали с форматами
И всё равно, это не помогало. Потому как наши почтовые ящики были мизерными, а наши сайты имели меньше места чем требует хранение одного raw-файл современного цифрового фотоаппарата.
— 10 Мб дискового пространства (без учета log-файлов),
— использование любого домена,
— предустановленные CGI-скрипты,
— 1 реальный почтовый ящик,
— виртуальный почтовый сервер на Вашем домене с неограниченным числом EMail
адресов,
— доступ и обновление по FTP,
— статистика доступа к серверу.
1.3.1 Установка виртуального сервера… бесплатно
1.3.2 Ежемесячная плата...........................7 у.е./мес
при единовременной оплате 6 месяцев...............40 у.е.
при единовременной оплате 1 год...................70 у.е.
1.3.3 Дополнительное дисковое пространство........1 у.е./мес за каждые 10 Мб
(реальный тарифный план на хостинг из 2002 года, и у.е. и зарплаты тогда были не то что сейчас)
Экономическая и организационная реальность интернета была такой жёсткой, что теоретически неповреждаемые_при_копировании картинки, в реальности, убивались в хлам при их эксплуатации.
Мир после цифровой победы
И вот, прошли десятилетия, интернет стал широким, диски — огромными, и стоит всё это сущие копейки. Сейчас нет нужды экономить байты, а большинство людей даже не задумывается над такими вопросами. Люди просто фотографируют и сразу же заливают фотографию в интернет, без какого-либо редактирования.
Казалось бы, наступило то самое цифровое будущее, в котором картинки живут вечно и не искажаются в процессе их копирования.
Увы, но нет.
Самыми распространёнными вариантами использования картинок в интернет, в настоящее время, являются:
- заливка в социальную сеть
- заливка на фотохостинг
- заливка на интернет-форум
- пересылка в мессенджере
- заливка на собственный сайт
(варианты указаны в произвольном порядке)
И ни один из этих вариантов, включая заливку на собственный веб-сайт, не является гарантированно неискажающим.
Оказалось, что одновременно с ростом размеров диском и квот хостингов, выросло и количество цифровых картинок. И процесс борьбы за каждый байт, на самом деле, не исчез, а переместился с вашего компьютера на сервера интернет-сервисов. И в дело идут всё те же две операции — изменение размера картинки и игра её форматом.
И вот вам простая, но очень наглядная иллюстрация.
Я взял на Википедии файл с изображением известной картины вырезал из ней кусок под пропорции «4 на 3», изменил размер до 2000 пикселей в ширину и сохранил в jpg-файл размером 804 килобайта.
С данной картинкой я сделал то, что делают большинство пользователей интернета — залил в соцсеть (в данном случае, Facebook).
А потом скачал и получил jpg-файл размером 602 килобайта, при тех же 2000 пикселей ширины и 1500 пикселей высоты.
Вы, конечно же, скажете что знаете про то что бывает когда используют формат jpg, что это тот самый «дефект поколений» (generation loss) и что невооружённым взглядом разницу между картинками заметить невозможно.
Ну так я вооружился и с помощью графического редакторы получил «разницу» между картинками (PaintShop Pro в этом случае делает вычитание цветов по каждому цвету и берёт модуль). В результате, я получил картинку, которую невозможно отличить от сплошной чёрной заливки.
Но только неворужённым взглядом. Вооружённый же взгляд сказал, что в картинке более 9 тысяч цветов. Более 9 тысяч оттенков серого, визуально неотличимых от чёрного. Всего 9 тысяч, на картинку размером в 3 миллиона пикселей. Казалось бы, беспокоиться не о чем — искажения минимальны.
Вот этот момент я решил узнать у скольких пикселей цвет точно совпал, и для этого заменил чистый чёрный цвет (#000000) на чистый белый (#FFFFFF). Результат вы уже видели в начале этой статьи — белых пикселей очень мало. Написанный мной скрипт подсчитал число пикселей в исходной картинке, цвет которых точно совпадает с соответствующими пикселями на картинке прошедшей Facebook.
Их оказалось ровно 37385, то есть — 1.2% от общего числа пикселей.
98.8% пикселей оказались искажены в результате одной лишь итерации «закачать в соцсеть».
Новое слово на букву «И»
Тут вы спросите, чем же меня не устроил существующий термин «дефект поколений» (generation loss).
А не устроил он меня тем, что описывает лишь один технический аспект (условно говоря, аналог «истирания» в механике), но не указывает на всё явление целиком.
А явление это состоит в том, что дефолтным методом использования картинок в интернете, в настоящее время, является отправка их в сервисы, которые совершают над ними действия ведущие к искажению.
И это не только повторное сжатие, это ещё и изменение размера (например, как у мессенджера Facebook), и даже наложение логотипа (как у многих интернет-форумов, блогоплатформ и вебсайтов).
При этом, пользователи интернета мало заботятся о том, чтобы найти как можно более качественный вариант (в идеале — оригинал), а просто повторно используют первые попавшие им в соцсетях и поисковиках картинки. Картинки, которые раз за разом проходят процедуру пережатия, уменьшения или увеличения пиксельного размера, а также многократного наложения логотипов.
Для массового потребителя, на первое место выходит сам факт переотправки картинки и быстрота, с которой он осуществлён, а вопрос качества им просто игнорируется.
То есть, имеют место быть изменения, которые появляются не по причине наличия у пользователя такого желания, а просто в результате жизненного цикла цифрового изображения. И, учитывая технологическую и социальную реальность современного интернета, эти изменения вносятся неизбежно и прогнозируемо.
Именно поэтому я называю это явление «цифровым износом» — оно возникает в результате эксплуатации.
* * *
Конечно же, существуют профессионалы и технические решения, которые позволяют хранить и передавать файлы без искажений. Надо просто использовать специально настроенные компьютеры и протоколы передачи файлов.
А, с другой стороны, если иметь правильно оборудованное помещение и аккуратно обращаться с бумажными носителями, то их можно хранить и использовать очень долго и практически без потерь.
Я не хочу сказать, что не изменилось совсем ничего. Конечно же изменилось и, особенно, для профессионалов. При правильной эксплуатации, цифровые объекты действительно можно считать вечными, в то время как аналоговые подвержены разрушению, даже при самом идеальном хранении.
Но тот режим эксплуатации цифровых объектов, который использует массовый потребитель в условиях современных интернет сервисов, сходен с тем режимом эксплуатации который массовый потребитель применял к тем же магнитофонным записям и фотографиям.
И такой режим ведёт к возникновению «цифрового износа», который хоть и не является полным аналогом механического износа, но играет ту же роль в жизненном цикле цифровых объектов, которую механический износ играет в жизненном цикле объектов материальных.
И что теперь? (послесловие)
Основной целью создания концепции «цифрового износа» является не запугивание читателей или стенания «мы все умрём», а выработка рефлексов и методов для жизни и деятельности в условиях существования этого явления.
И понимание того, как и по каким законам цифровые объекты живут и распространяются в интернете, уже не раз позволяло мне найти менее изношенную версию заинтересовавшей меня картинки.
Комментарии (31)
Tallefer
23.10.2017 00:52+1И ни один из этих вариантов, включая заливку на собственный веб-сайт, не является гарантированно неискажающим.
Я бы все же назвал это деградацией. Только не понял, почему свой сайт может исказить? Если по фтп заливать, а не через какую-то вебморду со скриптом оптимизации, разумеется.
А у жпега еще лучше есть название — шакализация. :)
В опросе мой вариант будет наполовину таким: если картинка плохого качества, то превращаю в пнг и очищаю от шакалов, как могу, потом заливаю и раздаю. Но это следствие OCD, по ходу… %)muxa_ru Автор
23.10.2017 00:57Я бы тоже назвал "деградацией" — очень хороший и широкий термин.
Но он уже был занят за процессами происходящими именно при хранении.
Ну а кроме собственно жпега есть явление ресайза.
При персылке месенджером фейсбука, картинка сжалась с 2000х1500 до 1920х1440.
Фотохостинги, опять же, активно ресайзят картинки и не всегда отдают оригиналы.Tallefer
23.10.2017 01:06+1Это да. Поэтому постоянно нахожусь в полуактивном поиске хороших хостингов, а попутно остановился на имгуре, буду юзать его, пока он не взбрыкнет, тьфу-тьфу.
dmitry_dvm
23.10.2017 01:10+1Личные фотки храню в платном облаке. А на потребителя, хранящего оригиналы в одноклассниках — плевать. Слишком много в последнее время ощущается ущерба в угоду этому чертову потребителю. Интерфейсы все примитивнее, контент все тупее, качество все ниже.
muxa_ru Автор
23.10.2017 01:18У меня основной исследовательский интерес — механизация лесного хозяйства в 1930-х — 1950-х.
Поэтому приходится отлавливать что там пользователи выкладывают и выискивать откуда они это взяли.
Evgeniy_Bond
23.10.2017 02:08Хм, так что получается, надо некоторые действительно важные картинки/фото подвергать переобработке в сторону улучшения разрешения (то есть качества)?
Есть ещё вероятность, что с развитием скоростей в интернете потребность в сжатии отпадёт понемногу. Окончательно побороть можно только если изобрести какие-то носители, не имеющие объёма, что уже скорее из области фантастики.
Ну и совсем бред: один огромный МЕГАСЕРВАЧИЩЕ на всю планету (необязательно в одном месте, они могут быть соединены между собой, хотя и разбросаны по миру). Таким образом картинка будет одна на миллиарды сайтов. Правда, я хз, как бороться с разным размером/разрешением картинки — это же по сути не одна картинка, хоть и с одинаковым содержанием.muxa_ru Автор
23.10.2017 02:22Хм, так что получается, надо некоторые действительно важные картинки/фото подвергать переобработке в сторону улучшения разрешения (то есть качества)?
Нет, их надо хранить в том формате в котором Вы их получили, либо переводить в формат который соответствует следующим критериям:
- не искажает картинку при пересохранении
- является распространённым, имеет хорошую поддержку в настоящем и нет намёков на прекращение его поддержки в ближайшие годы
Я в этом случае использую TIF
Кстати, увеличение пиксельного размера картинки так же наносит ей повреждения. Оно искажает исходную информацию.
И что более важно, это создаёт иллюзию наличия исходной информации там где её нет.
(сейчас будет гипотетический пример).
Допустим у Вас есть фотография автомобиля в низком разрешении.
На этой фотографии есть тёмный пиксель и Вы не знаете что там реально было. Это мог быть как небольшой элемент, так и что-то крупное.
Вы увеличиваете пиксельный размер картинки и теперь это не 1 пиксель, а несколько.
А потом Вы отправляете эту картинку другому человеку, или со временем забываете что отресайзили объект.
Как результат — на картинке есть объект размером в несколько пикселей, а значит это что-то большое.
Вжух, и в результате увеличения пиксельного размера (с последующим забыванием об этой процедуре) Вы отмелди одну из версий.
andreymal
23.10.2017 03:15если иметь правильно оборудованное помещение и аккуратно обращаться с бумажными носителями, то их можно хранить и использовать очень долго и практически без потерь
Есть два важных нюанса: во-первых, «практически». Во-вторых, если для бумаги и подобного достать подходящее помещение очень проблематично, то для сохранения цифрового материала достаточно десяток-другой минут разобраться в матчасти — и профит без всяких «практически».
Алсо, не стоит забывать, что совпадение пиксель-в-пиксель не обязательно означает совпадение байт-в-байт: некоторые картинкохостинги при сохранении качества могут удалять какую-нибудь мета-информацию из картинок.
Алсо [2], я сам иногда не только ищу оригиналы, но и даже пытаюсь рисовать фуллашди-версии мемасиков по требованию внутреннего перфекциониста)
muxa_ru Автор
23.10.2017 03:22для сохранения цифрового материала достаточно десяток-другой минут разобраться в матчасти — и профит без всяких «практически»
Потом эту матчасть нужно купить, следить за тем что бы она работала без сбоев, обновлять железо и софт.
Вобщем, кведение цифрового архива это весьма непростой и недешёвый процесс.
Причём, процесс непрерывный.
Это папка с бумагами может завалиться за стеллаж и через 20 лет иметь те же потребительские характерстики.
А если забыть на 20 лет цифровой носитель, то там возникнут очень большие сложности.
Алсо, не стоит забывать, что совпадение пиксель-в-пиксель не обязательно означает совпадение байт-в-байт
Очень правильное замечание. Поэтому я и делал сравнение скриптом пиксель-в-пиксель
P.S.
пытаюсь рисовать фуллашди-версии мемасиков по требованию внутреннего перфекциониста
Вы святой. Жаль что вас таких мало. :)
Tallefer
23.10.2017 03:28Это папка с бумагами может завалиться за стеллаж и через 20 лет иметь те же потребительские характерстики.
Можно совместить — распечатать на бумаге цифру, например, куаркоды, и хранить. %)
А если забыть на 20 лет цифровой носитель, то там возникнут очень большие сложности.muxa_ru Автор
23.10.2017 03:31У меня была такая мысль, но пока нет ничего такого что я бы предпочёл специально распечатать. К тому же, тут ещё вопрос долговечности того что распечатает мой МФУ.
Но вот не выбрасывать распечатки с результатами соревнований лесорубов взятые у судей, или принести с инструментальной выставки каталог бренда — это я очень даже за.
Kesha_kh
23.10.2017 14:46+1В вконтакте есть паблик в котором каждый день заливают одну и туже фотку и там очень хорошо видно явление описанное в статье
muxa_ru Автор
23.10.2017 14:47Какой именно паблик?
andreymal
23.10.2017 15:57+1Похоже, read&comment юзеру хабр вырезал ссылку
Я знаю «Путин каждый день», пять лет уже существуетmuxa_ru Автор
23.10.2017 16:03Спасибо.
Какие-то у них странные искажения.
andreymal
23.10.2017 16:04Вот так вот за пять лет ушакалили) Пару лет назад картинка была ещё цветной)
muxa_ru Автор
23.10.2017 16:17https://vk.com/wall-34449467_951 — это не очень похоже на "скачал и залил снова"
Скорее какой-то фильтр.
andreymal
23.10.2017 16:21+1Я давно хотел написать скрипт, который делает то же самое, только по-быстрому — вот и повод появился, проверю))
Tallefer
23.10.2017 16:47Подобного (но только приблизительно, там эффект скорее жесткого «шарпа») можно добиться через ИрфанВью с помощью многократного Shift+S. Где-то на 3-5 итерации эффект уже явно заметен.
stychos
23.10.2017 23:44(реальный тарифный план на хостинг из 2002 года, и у.е. и зарплаты тогда были не то что сейчас)
У многих и в 2017мне лучше.
Да и зарплаты тут недалеко ушли от 2002 года.rumbleblowingaggregate
24.10.2017 15:22+1muxa_ru Автор
25.10.2017 01:18Это исчерпывающая замена всему тому, что я написал в обсуждаемом тексте. :)
muxa_ru Автор
Проверил — картинки которые я загрузил на habrastorage.org не подвергались ни ресайзу, ни пережатию.
Отлично!
Evgeniy_Bond
Помнится, flickr вроде предлагает или предлагал хостинг без ресайзов-пережатий.
muxa_ru Автор
Проверил — да, цвет во всех пикселях совпадает.
Но это я полез и скачал оригинал, а кто-то другой может скачать не оригинал, а изображение другого размера (например если оно было расшарено на каком-то сайте, или в соцсети).
И в этом случае, будет существовать оригинал, но он будет где-то там.
А в обороте будет тот самый уменьшенный вариант.