Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц / forpes.ru

Главная
Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц

Готовимся к отключению. Эффективные форматы для упаковки и раздачи HTML-страниц +43

20.04.2026 09:01

alizar 31 16000 Источник

В 2026 году растёт риск перебоев и ограничений в работе интернета в РФ. В таких условиях имеет смысл заранее продумать, как сохранить привычное окружение при нестабильном доступе к сети.

Помимо личных файлов, кино и музыки, хочется сохранить архив сайтов и веб-страниц для чтения в будущем — на месяцы или даже годы вперёд. Но в каком формате это лучше делать?

ПК для Апокалипсиса

«ПК для Апокалипсиса» — офлайновая система, которая хранит полный набор необходимой информации для жизни без интернета. Это известная проблема, которую решают по-разному. Например, на Хабре упоминали репозиторий Project N.O.M.A.D. — это локальная база знаний для выживания:

Википедия, медицинские справочники и учебники;
карты и навигация всей планеты;
локальный LLM-ассистент, обученный на всей информации мира, с которым малограмотные потомки сапиенсов спустя тысячи лет могут общаться на естественном языке: он подскажет, как починить генератор или получить селитру.

В статьях на Хабре обсуждалось создание офлайновой станции для личного пользования на случай отключения интернета. Что в неё можно добавить, кроме Википедии и справочников:

Личная коллекция музыки MP3
Подборка кинофильмов на несколько десятилетий: например, несколько сотен сериалов и несколько тысяч фильмов, включая всех номинантов Оскара за все годы, все фильмы любимых режиссёров, все фильмы с оценкой выше 7.5 и т. д..
Художественная литература
Копии личных документов, кошельков, база паролей
Семейный архив (фото и видео)
Офлайновый мессенджер, работающий в mesh-сети по радио (Wi-Fi, Bluetooth, УКВ)
Копии сайтов и веб-страниц для последующего прочтения или поиска по ним.
и др.

Нас особенно интересует предпоследний пункт, потому что возможны варианты — в каком формате сохранять сайты и страницы.

Локальные копии веб-сайтов

Для скачивания сайтов целиком в 90-е использовался менеджер загрузки Teleport Pro, который рекурсивно проходился по всем ссылкам и делал полную копию веб-сайта. К сожалению, новые версии давно не выпускались, а последняя существующая версия 1.72 от 2015 года не умеет скачивать сайты по HTTPS, только обычные HTTP.

Поэтому приходится использовать другие варианты. Со статичными сайтами справляется утилита командной строки wget или более продвинутая версия wget2.

Из более современных альтернатив можно назвать Offline Explorer (платная), HTTrack (бесплатная, исходный код) и Website Ripper Copier (WRC). Ещё на Хабре рекомендовали вспомогательный поисковый модуль msfcrawler для хакерской программы Metasploit.

В комментариях подсказали ещё программку Akeeba Solo.

Локальные копии отдельных страниц

Стандартный Firefox без плагинов и расширений предлагает три варианта сохранения: 1) веб-страницу полностью, 2) только HTML или 3) экспорт TXT.

Вариант «Веб-страница полностью» создаёт папку с сотней файлов: картинками, скриптами и проч. Потом эту офлайновую копию можно открыть в браузере и она нормально отобразится, неотличимо от оригинала. Это нормальный вариант, но у него есть несколько недостатков:

Слишком большое количество файлов. Такие копии страниц неудобно посылать по почте или в мессенджере.
Отсутствие сжатия. Файлы занимают много места на диске:

Главная Хабра сохраняется в 112 файлов общим размером 16 892 КБ
Для просмотра нужен браузер. Это не то чтобы недостаток, потому что для просмотра любого формата файлов нужна какая-то внешняя программа, даже для TXT нужен редактор, хотя бы утилита командной строки.

Но хотя бы первые два недостатка можно устранить. Мы хотим сохранять веб-страницы в один файл меньшего размера. Какие есть варианты?

Начнём с PDF, это самый «портативный» формат, который идеально сохраняет внешний вид страницы и одинаково отображается на всех устройствах, которые его поддерживают. Для сохранения страницы в PDF из браузера есть расширение FireShot, оно нормально работает в бесплатной версии — сохраняет скриншоты и PDF всей страницы целиком.

Расширение FireShot умеет сохранять в PDF. Главная страница Хабра ужалась до 3 534 КБ

Специально для архивирования веб-страниц и сайтов разработан архивный формат WARC. Вышеупомянутый wget поддерживает его, как и другие программы для скачивания сайтов и вспомогательные инструменты. Для архивирования маленьких сайтов разработан бот ArchiveBot, а для архивирования отдельных страниц есть archive.is и Wayback Machine.

Процесс архивирования главной страницы Хабра на Wayback Machine

Другие популярные форматы для статичного хранения веб-страниц — MHTML, MAFF, SingleFile и SingleFileZ (ZIP-версия SingleFile).

Например, SingleFile можно установить как расширение к браузеру Chrome, Edge, Firefox, Safari — и сохранять страницы в одном файле со встроенными картинками, вот как это выглядит:

Утилита SingleFile CLI работает из командной строки без установки (нужен только установленный Chrome/Chromium и Deno). Достаточно скачать исполняемый файл и просто запустить его:

single-file <url> [output] [options ...]

Если Chromium установлен в нестандартной папке, следует указать её в опции --browser-executable-path при запуске:

На выходе получаем один файл размером около 10 МБ со всеми встроенными изображениями:

Как и wget, утилита тоже умеет сохранять одной командой много страниц по шаблону или из списка URL'ов:

single-file --urls-file=list-urls.txt

А также может пройтись по всем внутренним ссылкам и сохранить их тоже:

single-file https://www.wikipedia.org --crawl-links=true --crawl-inner-links-only=true --crawl-max-depth=1 --crawl-rewrite-rule="^(.*)\\?.*$ $1"

Кстати, такой формат удобен и для хостинга веб-сайтов, когда вы не хотите возиться с сотнями отдельных файлов для каждой страницы.

Но у SingleFile есть неприятный недостаток: некоторые страницы при упаковке в один файл раздуваются до невообразимых размеров. Например, вот эта 0,6-мегабайтная html-страница PaintsUndo при сохранении в один файл занимает 485 МБ. Такое часто происходит с постами Medium и другими сайтами. Такое происходит из-за того, что SingleFile включает в файл кучу шрифтов, JS, картинок, виджетов, иконок и прочего, ещё и преобразуя их в формат Base64 для файла HTML.

Что особенно обидно, посетитель оригинальной веб-страницы вовсе не обязан скачивать эти 485 МБ — он скачивает только те картинки, которые появляются на экране. Но в архивную версию приходится включать всё.

Формат Gwtar

В 2026 году известный разработчик и блогер Гвен Бранвен представил новый экспериментальный формат для архивирования HTML-страниц под названием Gwtar (произносится как guitar). Он был благосклонно принят публикой, потому что устраняет недостатки SingleFile благодаря нескольким интересным хакам.

Gwtar сохраняет веб-страницы в одиночный самодостаточный (статичный) и эффективный HTML-файл, который открывается в браузере. Это достигается с помощью скрипта в заголовке, который делает HTTP-запросы range (запрос точного диапазона байтов внутри URL). HTTP-запросы range применяются для различных полезных функций. Например, локальный клиент может запрашивать из серверной БД только нужный фрагмент информации, не скачивая всю базу на терабайт.

«Самодостаточный» HTML означает, что в него включены все ресурсы. При хранении на диске не требуется никаких дополнительных файлов.

И главное. Формат поддерживает эффективную ленивую загрузку ресурсов в браузер по мере необходимости, в отличие от SingleFile. По словам автора, ни один известный формат до сих пор не удовлетворял всем трём вышеупомянутым критериям (самодостаточный, одиночный, эффективный).

MHTML, MAFF, SingleFile и SingleFileZ — статичные и одиночные форматы, но не эффективные, а WARC и WACZ — статичные и эффективные, но не одиночные, потому что для их рендеринга требуется сложный софт типа WebRecorde и Replay Webpage.

Таким образом, .gwtar.html — первый в своём роде формат, уникальный для архивирования.

Например, вы открываете статичный HTML размером 1 ГБ с кучей встроенных ресурсов, но они не будут загружаться в браузере, пока пользователь не нажмёт на кнопку воспроизведения в плеере. Это актуально для хостинга архивных страниц и сайтов, если вы раздаёте их пользователям со своего сервера.

Вот пример Gwtar:

2010-02-brianmoriarty-thesecretofpsalm46.gwtar.html (файл 276 МБ со встроенным аудиофайлом)

Это самораспаковывающийся файл с заголовком HTML+JavaScript, за которым следует tarball оригинального HTML и ресурсов. Скрипт с командой window.stop() в заголовке HTML-файла не даёт браузеру загружать остальную часть файла, он загружает только оригинальный маленький HTML, а затем перехватывает запросы и превращает их в запросы range к остальной части файла с tarball.

Метод window.stop() поддерживается всеми современными браузерами.

Скрипт в заголовке хранит JSON-словарь файлов/размеров/типов/SHA-256-хэшей реального HTML (с именем "0"), за которым следуют все его ресурсы (basename-asset-N.ext). В заголовке всегда есть HTML-файл и как минимум один ресурс. Все ресурсы хранятся в архиве сразу после заголовка.

<script>
let assets = {
    "0": {
        "size": 130673,
        "content-type": "text/html",
        "basename": "1999-03-17-brianmoriarty-whoburiedpaul",
        "hash": "79111815b482504d79428f5cea329741348060fd2d943da933288595e2c9e969"
    },
    "1999-03-17-brianmoriarty-whoburiedpaul-asset-1.js": {
        "size": 15127,
        "content-type": "application/x-javascript",
        "hash": "d739d46b0f3b188cd409c97ab47964ea3a009cce9d08a50b763fdb958e39b822"
    },
    "1999-03-17-brianmoriarty-whoburiedpaul-asset-2.js": {
        "size": 27146,
        "content-type": "text/javascript",
        "hash": "dd29affcde5ff55d96613aa7ac55fa56cc8eeda20d6aef90185b75332e2c3cde"
    },
    ...
}
</script>

В конце скрипта вызывается window.stop():

Таким образом, обычный браузер загружает то, что кажется обычным HTML-файлом, и все ресурсы загружаются только по мере необходимости. Получается, что в статическую веб-страницу можно встроить что угодно — например, медиафайлы размером в гигабайты — но они не будут передаваться клиенту до тех пор, пока это не станет необходимо, даже несмотря на то, что сервер видит один большой HTML-файл, который обрабатывается как обычно.

Gwtar похож на файл-полиглот, поскольку содержит внутри файлы разных форматов: .html, .tar и, возможно, .par2.

Поскольку файл самодостаточный, он автоматически совместим с будущими версиями браузеров. Gwtar позволяет легко и надёжно архивировать даже самые большие HTML-страницы, сохраняя их при этом удобными для чтения. Скрипт deconstruct_singlefile.php разбирает файлы SingleFile и генерирует из них Gwtar'ы. Можно использовать на своё усмотрение. Пример использования:

php ./static/build/deconstruct_singlefile.php --create-gwtar --add-fec-data \
    2010-02-brianmoriarty-thesecretofpsalm46.html

Эта команда берёт оригинальный файл 2010-02-brianmoriarty-thesecretofpsalm46.html и конвертирует его в 2010-02-brianmoriarty-thesecretofpsalm46.gwtar.html.

Вот такой интересный хак для эффективного хранения контента в одном файле, но который загружается клиенту не целиком, а по частям. Возможно, для кого-то формат Gwtar окажется полезным.

Если рассматривать «ПК для Апокалипсиса», с которого информация загружается только локально, то Gwtar — не самый лучший вариант, потому что браузеру запрещено делать JS-запросы к HTML из-за безопасности. И он откажется открывать такой файл локально:

Такая же проблема у формата SingleFileZ со сжатием

Но файл можно легко конвертировать обратно в единый HTML со встроенными ресурсами без JS:

perl -ne'print $_ if $x; $x=1 if /<!-- GWTAR END/' < 2010-02-brianmoriarty-thesecretofpsalm46.gwtar.html | tar --extract

А вот при хостинге и раздаче файлов по сети формат Gwtar действительно эффективнее, потому что экономит трафик и память, а также уменьшает время первоначальной загрузки HTML. Кроме того, внутри файла можно эффективно хранить бинарные активы.

Если же ничего раздавать не планируется, то для личного архива удобнее хранить HTML-страницы в формате SingleFile, тогда они сразу открываются локально.

Комментарии (31)

Dick_from_mountain
20.04.2026 09:07
#29855320
1. rus-spb
  20.04.2026 09:07
  #29862278
  Спецслужбистский комитет мониторит “интернет”?

LinkToOS
20.04.2026 09:07
#29855400
Насколько часто владельцы сайтов создают защиту от трансляции содержимого в offline-формат?
(Гугл ответил что “Защита от офлайн-скачивания и парсинга (scraping) контента становится стандартной практикой для коммерческих и контентных сайтов”)
1. vikarti
  20.04.2026 09:07
  #29856116
  Offline Explorer умеет некоторые спецхитрости чтобы например с Facebook качать.
1. Moog_Prodigy
  20.04.2026 09:07
  #29857642
  Частенько. Даже новомодные bothub , который тут раз в день публикуется, это вполне практикует - из ихнего чата невозможно ничего скопировать, даже свой написанный промпт. За это им тонны лучей неуважения, и если это баг, то они должны извиниться. Но ребята просто рубят бабло, так что вряд ли. Такой баг, что в коде даже прописано обнуление буфера обмена после копирования)
  1. Rigidus
    20.04.2026 09:07
    #29862614
    Вот чудаки!

NeoCode
20.04.2026 09:07
#29855452
Я еще со времен diap-up имею привычку сохранять и скачивать всё интересное. Одних только статей Хабра уже многие тысячи, если не больше.

А вообще это же не только на случай апокалипсиса или чебурнета. Бывает что ценный и интересный сайт просто исчезает, внезапно, после многих лет и даже десятилетий работы. И я задумываюсь, а не имеет ли смысл написать свою скачивалку сайтов, сейчас с помощью ИИ можно довольно быстро реализовывать различные идеи. То что есть или не работает (как телепорт), или кривое до невозможности.

Особенно интересно сделать скачивание форумов с восстановлением структуры базы. То есть не просто скачивать страницы и скидывать их в файлы, а парсить и складывать в локальную sqlite базу, а затем специальной программой просматривать в удобном виде, с поиском, фильтрацией, сортировкой, сложными запросами (и даже скормить локальному ИИ). Форумных движков не так уж и много, под каждый можно сделать свою настройку парсинга, кроме того очевидно что можно сделать интерактивные настройки, позволяющие подстраиваться под особенности конкретного сайта прямо при скачивании.
1. OlegZH
  20.04.2026 09:07
  #29855498
  Когда-то такие программы были в ходу. Жалею, что не скопировал пару-тройку форумов. Были места, где накапливались весьма значительные объёмы информации. :-(
1. cssfish
  20.04.2026 09:07
  #29856992
  я так тоже нужное сохранял в *.mht а потом мозилла сменила движок и плагины отпали для него )
  1. Astus
    20.04.2026 09:07
    #29858642
    Хром умеет в mhtml из коробки, чем я активно и пользуюсь, при том что основной мой браузер - Firefox.
1. yppro
  20.04.2026 09:07
  #29859306
  Одних только статей Хабра уже многие тысячи, если не больше.
  
  — Почему нет русскоязычного аналога Project Nomad?
  — Потому что русские не собираются выживать после апокалипсиса. Они оставляют планету американцам и (возможно) китайцам.
  — С чего вы взяли?
  — Посмотрите хотя бы комменты на Хабре, сообществе самых продвинутых и технически грамотных. Ни одного подобного проекта, даже мысли об этом.
  1. LLazy
    20.04.2026 09:07
    #29862646
    Ну, вроде, есть форк. Надо посмотреть, кстати.
  1. Xt0uRusX
    20.04.2026 09:07
    #29863226
    Сначала меня бесило то, что у хабра не было своего нормального приложения, но потом я вспомнил, как сам бесится, что каждый сраный сайт/магазин пилит свое приложение и хрен в них разберёшься,наоборот полюбил то, что у хабра достаточно адекватная верстка для больших браузеров и мобильных и не особо нужно им приложение.
1. Calculater
  20.04.2026 09:07
  #29860680
  Бывает что ценный и интересный сайт просто исчезает, внезапно, после многих лет и даже десятилетий работы.
  
  Как раз такие случаи и вынуждаю на автоном переходить, ведь вебархив не всегда спасает.
1. Akr0n
  20.04.2026 09:07
  #29862456
  Одних только статей Хабра уже многие тысячи, если не больше.
  
  А соолько раз за это время эти статьи понадобились? Вот прямо чтоб доставать их из пыльных залежей.
1. dibu28
  20.04.2026 09:07
  #29865898
  Я для этих целей использую KaraKeep. Это self-hosted bookmark приложение, которое позволяет сохранять ещё и текст и искать по нему и создаёт саммари и тэги для страниц с помощью ИИ. И есть режим чтения сохранённого текста. Да, бывает часто что страницы и информация пропадают и это позволяет сохранить информацию, не всё, но хотя бы основной текст сайта.

alexs963
20.04.2026 09:07
#29855614
Только вот SingleFile (не Z) работает без js.

wert_lex
20.04.2026 09:07
#29856594
Время от времени задаюсь тем же самым вопросом и пришел вот к чему:
- в идеале хорошо бы уметь все хранить в text-friendly формате (html + js + css). Но риск того, что из-за динамического построения страницы, запросов куда-нибудь-там и логики рендера завязанной на ответы API, копия страницы не откроется - как будто бы высокая.
- как будто бы Markdown + картинки очень не плох для этого, но результаты не впечатлили (иногда все хорошо, иногда всё очень плохо)
- в итоге, пришёл к выводу, что если рендерить страницы в PDF, то получается достаточно хорошо. Не очень text-friendly, но в быту - удобно.
  - плюс из всяких Obsidian, Evernote, и что вы там любите, на PDF более-менее можно ссылаться и прикреплять
Да, ну и для чтения не требуется какой-то слишком специфичный софт. PDF внутри - это конечно адок, но PDF ридеров огромное количество. А вот что делать после того, как какой-нибудь SingleFile со товарищи загнется через пару лет - вопрос.
1. cssfish
  20.04.2026 09:07
  #29857004
  в итоге все сводится к тому что чем проще, тем лучше. Если для чего то .md достаточно то ок. Для прочего надежнее pdf или png/jpg наверное уже не придумать.
  1. BSOZ
    20.04.2026 09:07
    #29857230
    Без поиска по тексту какой-то бесполезный инструмент получится. Не удобнее скриншота.
    
    Habr4687544
    20.04.2026 09:07
    #29858032
    Можно, например, метадату заполнять
1. night-walker
  20.04.2026 09:07
  #29857674
  В pdf сохраняется практически, как Вы "видете", поэтому и удобно, сам сохраняю в pdf, те же статьи из Хабра, но вот структурировать сами страницы и информацию в них уже сложнее, хотя можно в pdf прописывать метки, но для этого надо каждый файл прогонять через редактор вручную, можно ли как-то это автоматизировать интересно ? Также раньше сохранял в браузер Vivaldi, там есть сайд-бар с заметками, туда и картинки крепились, т.е. сохраняешь pdf и к ней уже точно такой же текст.

RulenBagdasis
20.04.2026 09:07
#29857410
Только это всё не поможет, к сожалению, нужно как в анекдоте про бордель не кровати двигать, а б#@&€¥ менять…

night-walker
20.04.2026 09:07
#29857628
Подборка кинофильмов на несколько десятилетий:- недоступность интернета ( я беру в широком смысле слова) - скатывание на виток развития назад, несмотря на тех. прогресс и на все ИИ - через n-времени - проблема выживания (или как заработать в лайт-версии будущей реальности ) может стать первоочередной на повестке дня и это ещё не говоря о том, что может быть в военном аспекте. Вообщем пока мамонтов будем забивать - некогда будет смотреть. На музыку чутка останется времени, да и справочники читать (возможно с гаджетов) при пламени костра или керосинок.

GlazOtca
20.04.2026 09:07
#29859338
Ага, вазелина себе еще полтонны заготовить не забудьте! Нормальные люди во всем мире отстаивают свои права и готовятся иначе!

molnij
20.04.2026 09:07
#29860374
Для pdf никакого плагина не надо, ctrl+p и отправка на виртуальный принтер. В винде он вроде давно уже в стандартной поставке, в *nix- вероятно каждый сам себе творец счастья..

По теме - когда-то сохранял в mhtml, сейчас просто ctrl+s в режиме "полностью". Да есть оверхед, да, не сохраняются приложенные видео. Оба минуса пока устраивают. На гитару посмотрю, но скорее всего необходимость в отдельном инструменте перевесит плюсы.

koshkokoshka
20.04.2026 09:07
#29860794
Для архивирования сайтов давно завёл простенький .bat'ник. Может быть кому-то будет полезен (рядом с ним нужно положить wget.exe):
```
set /p url="Enter website URL: "
wget.exe --mirror --convert-links --adjust-extension --page-requisites --no-parent %url%
```

moscowman
20.04.2026 09:07
#29861362
Отдельные странички довольно хорошо скачивает плагин Save Page WE.

На выходе единственный html. Как работает с аудио на странице, я не знаю, но картинки сохраняются в Base64 внутри.

Ещё перед сохранением я сначала обычно инструментом браузера удаляю ненужные блоки (как правило это футеры и блок с навигацией)

legolegs
20.04.2026 09:07
#29861518
2010-02-brianmoriarty-thesecretofpsalm46.gwtar.html (файл 276 МБ со встроенным аудиофайлом)

Не работает. Сначала не открылся вовсе, со второго раза открылся, но аудио не воспроизводится.

KuroiOokami77
20.04.2026 09:07
#29862752
Давно пользуюсь проектом linkwarden вместе с расширением SingleFile.
Скачивает полноценную страницу и сохраняет её в linkwarden.
Только рекомендую использовать версию 2.13.5, с 2.14 почему-то перестал сохранять странички с хабра.

dibu28
20.04.2026 09:07
#29866018
Немного не в тему статьи, но в тему ПК для Апокалипсиса и сжатия страниц и википедии, вспомнился такой древний бенчмарк архиваторов от Matt Mahoney который до сих пор обновляется. Там собраны все лучшие известные архиваторы и сделаны бенчмарки на 1GB текстов Английской Википедии. Есть замеры времени сжатия и распаковки, использования оперативки и размера архиватора. Тем кто захочет сжимать Википедию возможно будет полезно)

https://mattmahoney.net/dc/