Бывшая угольная шахта, в которой размещатся хранилище Arctic World Archive. Фото: Guy Martin / Bloomberg Businessweek
Свободное программное обеспечение — краеугольный камень современной цивилизации и общее наследие всего человечества. Миссия программы GitHub Archive — сохранить этот код для будущих поколений, чтобы история Александрийской библиотеки никогда не повторилась.
Для этого GitHub заведёт много резервных копий на разных носителях, в том числе долгосрочное хранилище Arctic Code Vault на Шпицбергене. Оно размещается в бывшей угольной шахте на глубине 250 метров в вечной мерзлоте и рассчитано на срок хранения минимум 1000 лет.
Снимок программного кода человечества сделают 2 февраля 2020 года.
Проект долговременного хранения данных запущен совместно с Long Now Foundation, Интернет-архивом, Фондом наследия программного обеспечения, Arctic World Archive и другими партнёрами.
Проект LOCKSS
Жизненно важный сегодня код со временем может быть забыт или потерян. Самое страшное, если в случае глобальной катастрофы мы потеряем всю информацию, которая сохранялась на «эфемерных» носителях: HDD, SSD, CD и DVD, рассчитанных на несколько десятилетий, на лентах, у которых условный срок службы 30 лет предполагает строгий контроль температуры и влажности.
Решение проблемы — дубликация резервных копий, то есть архивирование программного обеспечения несколькими организациями и в разных формах. Этот проект под названием LOCKSS стартовал ещё почти 20 лет. В мае 2019 года была представлена программа LOCKSS 2.0-alpha — первый прототип ПО для распределённого сохранения данных на длительное время с поддержкой множества участников и внешних хранилищ.
Разработчики системы исходят из того, что аппаратные средства могут быть гораздо более долговечными, чем эфемерные носители: поэтому «существует целый ряд возможных вариантов будущего, в которых рабочие современные компьютеры существуют, но их программное обеспечение в значительной степени потеряно».
GitHub напоминает о множестве потерянных технологий, которые могли быть полезными: римский бетон (его рецепт был заново открыт только в 2014 году), противомалярийный препарат DFDT, утерянные чертежи ракеты «Сатурн-5». Легко представить себе будущее, в котором сегодняшнее программное обеспечение будет рассматриваться как причудливая и давно забытая ненужность, пока не возникнет неожиданная потребность в нём: «Как и любая резервная копия, архивная программа GitHub также предназначена для непредвиденного будущего», — говорится на сайте программы GitHub Archive.
GitHub Archive
GitHub Archive предусматривает три уровня резервных копий:
- Горячий: почти в реальном времени
- Тёплый: обновляется в промежутках от месяца до года
- Холодный: обновляется каждые 5+ лет
После любых действий пользователей GitHub все данные Git реплицируются в несколько дата-центров по всему миру. В нескольких местах хранятся бэкапы Git, issue, пул-реквесты и все пользовательские данные на GitHub. Эта информация доступна в реальном времени через GitHub API.
Кроме того, организован рекурсивное индексирование краулером GHTorrent, который будет выкладывать архивы на ежедневной или ежемесячной основе. Через GH Archive снимки из архива можно получать запросами BigQuery. Другие копии кода размещаются в хорошо известной «Машине времени» для Интернет-архива, которая хранит копии в нескольких местах. Наконец, Фонд наследия программного обеспечения (Software Heritage Foundation) будет регулярно сканировать GitHub и добавлять свои публичные репозитории в свой архив, для которого есть публичный API.
Арктическое хранилище GitHub
2 февраля 2020 года GitHub сделает копию всех активных публичных репозиториев — и поместит их в Арктическое хранилище GitHub.
Данные будут храниться на 3500-футовых плёночных катушках, предоставленных норвежской компанией Piql, которая специализируется на длительном хранении данных. Согласно измерениям ISO, эта плёнка с галогенидами серебра в полиэфире имеет срок жизни 500 лет. Тесты имитационного старения показали, что плёнка Piql сохраняет информацию как минимум вдвое дольше.
Кроме того, GitHub Archive сотрудничает с исследователи проекта Microsoft Silica, чтобы записать все публичные репозитории на кварцевые стеклянные пластины с помощью фемтосекундного лазера. Этот носитель обеспечит сохранность данных более 10 000 лет.
Арктическое хранилище кода GitHub создаётся на базе Arctic World Archive (AWA) на глубине 250 метров в вечной мерзлоте. Архив находится в бывшей угольной шахте на архипелаге Шпицберген, что не очень далеко от Северного полюса. Глобальное потепление затронет всего несколько метров вечной мерзлоты и не угрожает шахте в ближайшее время (несколько тысяч лет).
Шпицберген регулируется международным договором как демилитаризованная зона. Это одно из самых отдалённых и геополитически стабильных человеческих поселений на Земле, считает GitHub. Там же неподалёку располагается знаменитое Всемирное семенохранилище, главная надежда человечества на случай апокалипсиса.
Всемирное семенохранилище на Шпицбергене
AWA — совместная инициатива между норвежской государственной горнодобывающей компанией Norske Spitsbergen Kulkompani (SNSK) и провайдером цифрового сохранения Piql AS. Там уже сохраняются исторические и культурные данные из Италии, Бразилии, Норвегии, Ватикана и других стран.
Фото: Guy Martin / Bloomberg Businessweek
Катушки с кодом GitHub будут храниться в контейнере со стальными стенками внутри герметичной камеры. В снимок 02.02.2020 года попадут все активные репозитории GitHub и значительная часть неактивных (судя по звёздам, зависимостям и др.), все бинарные файлы до 100 КБ. Каждый репозиторий в отдельном файле tar. Всё должно поместиться на 200 катушек по 120 ГБ.
Вместе с архивом положат человекочитаемый каталог и технические руководства по декодированию QR, форматам файлам, кодировкам символов и другие важным метаданным, чтобы потомки преобразовать данные обратно в исходный код.
В архив также включат общее руководство Tech Tree на тот случай, если у будущих читателей не останется работающих компьютеров и им придётся восстанавливать технологии с нуля.
Комментарии (53)
alexmat
14.11.2019 13:24+1Пора создавать репозиторий с посланием потомкам?
Cerberuser
14.11.2019 14:50И опубликовать его под свободной лицензией, чтобы каждый мог сделать свою версию?
exr
14.11.2019 14:21Охтыж, пойду спрячу(нет) все свои публичные репозитории, а то не дай бог через тысячу лет кто-то увидит мой код и скажет "что за обезьяна это писала!" (как будто сейчас этого никто не может сделать)
edwardspec
14.11.2019 14:55+3Не прячьте. Через 1000 лет напишут научную работу «Эволюция мозга человека на примере варварского доисторического программного кода, археологически раскопанного в холодных хранилищах древности»
QtRoS
14.11.2019 15:16Действительно отличная новость! Возможность утери всего написанного ПО реально пугает. А ведь это, как я понимаю, плюс-минус возможный кейс, например если на солнце начнутся какие-то нереальные магнитные аномалии.
Но что делать с проприетарным софтом?rinaty
15.11.2019 12:55Напишут все заново только без огромного устаревшего легаси… вот только боюсь что при тех событиях при которых может пропасть весь или большинство софта, софт будет меньшей из проблем
justhabrauser
14.11.2019 16:02> человекочитаемый каталог и технические руководства… чтобы потомки преобразовать данные обратно
Всё хорошо, но…
1. это если потомки будут уметь читать
2. на английском языке (они же правильно догадаются, что бумажки, откопанные на норвежском острове прямо напротив российского Мурманска на глубине, соответствующей кембрию, написано на американском диалекте английского конца XX века?)engine9
14.11.2019 23:36Представьте, если мы сейчас откопали глиняную табличку с кодом, созданным пару тысячелетий назад. Лучшие умы планеты с огромной охотой бы стали её анализировать.
ReklatsMasters
15.11.2019 00:56- Будут, это выгодно с точки зрения общения и передачи информации.
- Лингвистика это большая наука, которая изучает языки. А английский самый распространенный язык. Если мы сейчас можем прочитать древнеегипетские письмена, то английский уж точно смогут.
dbax
15.11.2019 11:31+2«английский самый распространенный язык». Уточнение: последние 100 с небольшим лет.
Serge78rus
14.11.2019 16:17А в далеком будущем археологи будут ломать голову над вопросом: «нахрена древние программисты писали код, закопавшись в шахтах?»
lehkap
14.11.2019 16:48+1Или подумают что это какая-то гробница, в которую складывали, артефакты содержащие непонятные письмена…
synedra
15.11.2019 05:47+1Скорее что в этой шахте был погребён, например, Столлман. И вместе с ним закопали двадцать терабайт опенсорсного кода, аналогично коням и рабам каких-нибудь царей Бронзового века.
Serge78rus
15.11.2019 12:46Рабам и коням, согласно условиям использования, больше соответствовал бы проприетарный софт.
Rosenkraunz
15.11.2019 12:13+1рисунки и текст в гробницах фараонов заиграли новыми красками! это код для древних машин! срочно зовите рентв!
Methos
14.11.2019 18:12Этот код будет также бесполезен уже через 100 лет, как и код, когда то написанный для калькуляторов мк, например.
Areso
14.11.2019 19:58+1Бизнес-логика сможет рассказать потомкам о различных хозяйственных сферах.
samizdam
15.11.2019 09:27+3Хм, чтобы понять бизнес-логику в коде написанном в прошлом году предыдущей командой, я трачу многие, многие часы день за днём. Учитывая что и язык реализации прекрасно знаю, и хозяйственная сфера современна мне, и кто-то из авторов даже консультирую… А вы говорите 1000 летнее легаси, авторы которого давно мертвы, поможет.
akuzmin
15.11.2019 13:32Вероятнее всего, в далеком будущем будет возможность разобрать его с помощью какой-нибудь простой нейронки, управляемой голосовыми командами в стиле: «Загрузи код с этой кассеты и определи наиболее вероятные сферы его применения».
zloddey
14.11.2019 21:46+1Да, не зря я залил туда репу со своим рогаликом-недоделкой, который лепил в школьные годы! Потомкам будет на что посмотреть
sergey-b
14.11.2019 22:55Интересно, где все эти годы будет храниться оборудование, способное что-либо прочитать с этих уникальных носителей? Например, у меня есть дискета 3'', но что на ней, узнать не представляется возможным.
Viceroyalty
15.11.2019 04:08У меня на даче пара старых компов с флопповодами, но не поеду туды из-за этого
xxxgoes
15.11.2019 10:50+13" != 3.5"
Gummilion
15.11.2019 14:20Между прочим, 3" диски действительно существовали — www.cpcwiki.eu/index.php/CF2_Compact_Floppy_Disc. Хотя не уверен, что предыдущие комментаторы имели в виду именно их (а может, в самом деле парочка Амстрадов завалялась?)
sergey-b
15.11.2019 21:47Я всегда называл их трехдюймовыми, и мои собеседники всегда понимали, что именно я имею в виду. По-русски не очень принято использовать слова типа «трех-с-половиной-дюймовые». Вот если бы в ходу были одновременно оба формата 3’’ и 3.5’’, тогда пришлось бы их как-то дифференцировать.
sergey-b
15.11.2019 12:13+4А мне пока и не надо. Я на дискете написал, что если что, то дисковод есть у viceroyalty на даче. Пусть потомки сами разбираются.
ua30
15.11.2019 12:03Еще в космос отправьте. Инопланетным цивилизация будет очень интересно все это. И на дельфиньем языке так же версию записать не забудьте. Когда люди вымрут, а дельфины эволюционируют, им так же будет очень важно это наше наследие.
Реально, вообще больше не чем заняться, других проблем вообще нет?
inetstar
15.11.2019 12:23+1А оборудование для считывания не положили. Промоакция компании делающей плёнки.
Jekcep
15.11.2019 13:26Надо бы координаты всех таких хранилищ распечатать на бумаге, а лучше на металических пластинках, и массово распространить.
Gummilion
15.11.2019 14:41Нет, лучше зашифровать координаты в пропорциях гигантских скульптур, и расставить их по всей Земле.
sergey-b
15.11.2019 21:52Сначала надо расшифровать те координаты, которые в виде гигантских сооружений оставили для нас представители предыдущих культур.
MTyrz
15.11.2019 22:20+1Вы в самом деле хотите найти терабайты доисторического легаси?
sergey-b
16.11.2019 00:00Конечно. Вы видели сколько плюсов собрал пост про сборку 1-го перла? А если его через PVS-studio проанализировать, то можно очень конкретно свой профиль прокачать.
S-trace
15.11.2019 14:23Сама по себе идея создать вечное хранилище исходных кодов выглядит конечно очень здорово, но то, что воплотить её собирается компания которая сама же и удаляет раз за разом репозитории с важными и востребованными проектами своих пользователей выглядит несколько лицемерно, не находите?
evorios
15.11.2019 22:48Хотел бы я посмотреть на реальное «Tech Tree», которое позволит из железного века докатиться до информационного. Интересовался вопросом, но любой поиск любезно показывал игровые деревья технологий, всячески избегая реальности.
prototip_iv
16.11.2019 23:38Помнится было подобное хранилище только для семян, то же тысячелетнее, то же для потомков, то же в вечной мерзлоте, лет несколько назад его эвакуировали из-за того что вечная мерзлота растаяла.
Chupaka
17.11.2019 20:46Данные будут храниться на 3500-футовых плёночных катушках
Воспринял сначала по аналогии с "пятидюймовыми дискетами" и восхитился масштабу предприятия. Потом немношк разочаровался...
PrinceKorwin
Ещё одна выгода быть OpenSource :)