Бывшая угольная шахта, в которой размещатся хранилище Arctic World Archive. Фото: Guy Martin / Bloomberg Businessweek

Свободное программное обеспечение — краеугольный камень современной цивилизации и общее наследие всего человечества. Миссия программы GitHub Archive — сохранить этот код для будущих поколений, чтобы история Александрийской библиотеки никогда не повторилась.

Для этого GitHub заведёт много резервных копий на разных носителях, в том числе долгосрочное хранилище Arctic Code Vault на Шпицбергене. Оно размещается в бывшей угольной шахте на глубине 250 метров в вечной мерзлоте и рассчитано на срок хранения минимум 1000 лет.

Снимок программного кода человечества сделают 2 февраля 2020 года.

Проект долговременного хранения данных запущен совместно с Long Now Foundation, Интернет-архивом, Фондом наследия программного обеспечения, Arctic World Archive и другими партнёрами.

Проект LOCKSS


Жизненно важный сегодня код со временем может быть забыт или потерян. Самое страшное, если в случае глобальной катастрофы мы потеряем всю информацию, которая сохранялась на «эфемерных» носителях: HDD, SSD, CD и DVD, рассчитанных на несколько десятилетий, на лентах, у которых условный срок службы 30 лет предполагает строгий контроль температуры и влажности.

Решение проблемы — дубликация резервных копий, то есть архивирование программного обеспечения несколькими организациями и в разных формах. Этот проект под названием LOCKSS стартовал ещё почти 20 лет. В мае 2019 года была представлена программа LOCKSS 2.0-alpha — первый прототип ПО для распределённого сохранения данных на длительное время с поддержкой множества участников и внешних хранилищ.

Разработчики системы исходят из того, что аппаратные средства могут быть гораздо более долговечными, чем эфемерные носители: поэтому «существует целый ряд возможных вариантов будущего, в которых рабочие современные компьютеры существуют, но их программное обеспечение в значительной степени потеряно».

GitHub напоминает о множестве потерянных технологий, которые могли быть полезными: римский бетон (его рецепт был заново открыт только в 2014 году), противомалярийный препарат DFDT, утерянные чертежи ракеты «Сатурн-5». Легко представить себе будущее, в котором сегодняшнее программное обеспечение будет рассматриваться как причудливая и давно забытая ненужность, пока не возникнет неожиданная потребность в нём: «Как и любая резервная копия, архивная программа GitHub также предназначена для непредвиденного будущего», — говорится на сайте программы GitHub Archive.

GitHub Archive


GitHub Archive предусматривает три уровня резервных копий:

  • Горячий: почти в реальном времени
  • Тёплый: обновляется в промежутках от месяца до года
  • Холодный: обновляется каждые 5+ лет

После любых действий пользователей GitHub все данные Git реплицируются в несколько дата-центров по всему миру. В нескольких местах хранятся бэкапы Git, issue, пул-реквесты и все пользовательские данные на GitHub. Эта информация доступна в реальном времени через GitHub API.

Кроме того, организован рекурсивное индексирование краулером GHTorrent, который будет выкладывать архивы на ежедневной или ежемесячной основе. Через GH Archive снимки из архива можно получать запросами BigQuery. Другие копии кода размещаются в хорошо известной «Машине времени» для Интернет-архива, которая хранит копии в нескольких местах. Наконец, Фонд наследия программного обеспечения (Software Heritage Foundation) будет регулярно сканировать GitHub и добавлять свои публичные репозитории в свой архив, для которого есть публичный API.

Арктическое хранилище GitHub


2 февраля 2020 года GitHub сделает копию всех активных публичных репозиториев — и поместит их в Арктическое хранилище GitHub.

Данные будут храниться на 3500-футовых плёночных катушках, предоставленных норвежской компанией Piql, которая специализируется на длительном хранении данных. Согласно измерениям ISO, эта плёнка с галогенидами серебра в полиэфире имеет срок жизни 500 лет. Тесты имитационного старения показали, что плёнка Piql сохраняет информацию как минимум вдвое дольше.

Кроме того, GitHub Archive сотрудничает с исследователи проекта Microsoft Silica, чтобы записать все публичные репозитории на кварцевые стеклянные пластины с помощью фемтосекундного лазера. Этот носитель обеспечит сохранность данных более 10 000 лет.

Арктическое хранилище кода GitHub создаётся на базе Arctic World Archive (AWA) на глубине 250 метров в вечной мерзлоте. Архив находится в бывшей угольной шахте на архипелаге Шпицберген, что не очень далеко от Северного полюса. Глобальное потепление затронет всего несколько метров вечной мерзлоты и не угрожает шахте в ближайшее время (несколько тысяч лет).

Шпицберген регулируется международным договором как демилитаризованная зона. Это одно из самых отдалённых и геополитически стабильных человеческих поселений на Земле, считает GitHub. Там же неподалёку располагается знаменитое Всемирное семенохранилище, главная надежда человечества на случай апокалипсиса.


Всемирное семенохранилище на Шпицбергене

AWA — совместная инициатива между норвежской государственной горнодобывающей компанией Norske Spitsbergen Kulkompani (SNSK) и провайдером цифрового сохранения Piql AS. Там уже сохраняются исторические и культурные данные из Италии, Бразилии, Норвегии, Ватикана и других стран.


Фото: Guy Martin / Bloomberg Businessweek

Катушки с кодом GitHub будут храниться в контейнере со стальными стенками внутри герметичной камеры. В снимок 02.02.2020 года попадут все активные репозитории GitHub и значительная часть неактивных (судя по звёздам, зависимостям и др.), все бинарные файлы до 100 КБ. Каждый репозиторий в отдельном файле tar. Всё должно поместиться на 200 катушек по 120 ГБ.

Вместе с архивом положат человекочитаемый каталог и технические руководства по декодированию QR, форматам файлам, кодировкам символов и другие важным метаданным, чтобы потомки преобразовать данные обратно в исходный код.

В архив также включат общее руководство Tech Tree на тот случай, если у будущих читателей не останется работающих компьютеров и им придётся восстанавливать технологии с нуля.

Комментарии (53)


  1. PrinceKorwin
    14.11.2019 13:11

    Ещё одна выгода быть OpenSource :)


  1. alexmat
    14.11.2019 13:24
    +1

    Пора создавать репозиторий с посланием потомкам?


    1. Cerberuser
      14.11.2019 14:50

      И опубликовать его под свободной лицензией, чтобы каждый мог сделать свою версию?


      1. mkll
        15.11.2019 15:02
        +2

        Под WTFPL. :)


        1. Cerberuser
          15.11.2019 16:03

          Я хотел сказать "под CC0", но WTFPL — ещё лучше, соглашусь.


  1. exr
    14.11.2019 14:21

    Охтыж, пойду спрячу(нет) все свои публичные репозитории, а то не дай бог через тысячу лет кто-то увидит мой код и скажет "что за обезьяна это писала!" (как будто сейчас этого никто не может сделать)


    1. edwardspec
      14.11.2019 14:55
      +3

      Не прячьте. Через 1000 лет напишут научную работу «Эволюция мозга человека на примере варварского доисторического программного кода, археологически раскопанного в холодных хранилищах древности»


  1. QtRoS
    14.11.2019 15:16

    Действительно отличная новость! Возможность утери всего написанного ПО реально пугает. А ведь это, как я понимаю, плюс-минус возможный кейс, например если на солнце начнутся какие-то нереальные магнитные аномалии.
    Но что делать с проприетарным софтом?


    1. vagran
      14.11.2019 22:44
      +4

      У закрытого софта нет будущего, очевидно.


    1. rinaty
      15.11.2019 12:55

      Напишут все заново только без огромного устаревшего легаси… вот только боюсь что при тех событиях при которых может пропасть весь или большинство софта, софт будет меньшей из проблем


  1. justhabrauser
    14.11.2019 16:02

    > человекочитаемый каталог и технические руководства… чтобы потомки преобразовать данные обратно
    Всё хорошо, но…
    1. это если потомки будут уметь читать
    2. на английском языке (они же правильно догадаются, что бумажки, откопанные на норвежском острове прямо напротив российского Мурманска на глубине, соответствующей кембрию, написано на американском диалекте английского конца XX века?)


    1. boojum
      14.11.2019 19:37

      3. Если потомки будут людьми. А не нейросетями, например.


    1. engine9
      14.11.2019 23:36

      Представьте, если мы сейчас откопали глиняную табличку с кодом, созданным пару тысячелетий назад. Лучшие умы планеты с огромной охотой бы стали её анализировать.


    1. ReklatsMasters
      15.11.2019 00:56

      1. Будут, это выгодно с точки зрения общения и передачи информации.
      2. Лингвистика это большая наука, которая изучает языки. А английский самый распространенный язык. Если мы сейчас можем прочитать древнеегипетские письмена, то английский уж точно смогут.


      1. dbax
        15.11.2019 11:31
        +2

        «английский самый распространенный язык». Уточнение: последние 100 с небольшим лет.


  1. Serge78rus
    14.11.2019 16:17

    А в далеком будущем археологи будут ломать голову над вопросом: «нахрена древние программисты писали код, закопавшись в шахтах?»


    1. lehkap
      14.11.2019 16:48
      +1

      Или подумают что это какая-то гробница, в которую складывали, артефакты содержащие непонятные письмена…


      1. synedra
        15.11.2019 05:47
        +1

        Скорее что в этой шахте был погребён, например, Столлман. И вместе с ним закопали двадцать терабайт опенсорсного кода, аналогично коням и рабам каких-нибудь царей Бронзового века.


        1. Serge78rus
          15.11.2019 12:46

          Рабам и коням, согласно условиям использования, больше соответствовал бы проприетарный софт.


          1. Cerberuser
            15.11.2019 12:56

            А опенсорсный тогда что — членам семьи?


            1. hippohood
              15.11.2019 13:27

              Массовое захоронение же. Потом ИИ их найдут и похоронят как должно


      1. Rosenkraunz
        15.11.2019 12:13
        +1

        рисунки и текст в гробницах фараонов заиграли новыми красками! это код для древних машин! срочно зовите рентв!


  1. BubaVV
    14.11.2019 17:13
    +1

    Amazon, your Glacier is not cool enough


  1. boojum
    14.11.2019 17:34
    +1

    Дикарям будущего будет чем отапливать эту пещеру — эти пленки горят ведь?


  1. Methos
    14.11.2019 18:12

    Этот код будет также бесполезен уже через 100 лет, как и код, когда то написанный для калькуляторов мк, например.


    1. Areso
      14.11.2019 19:58
      +1

      Бизнес-логика сможет рассказать потомкам о различных хозяйственных сферах.


      1. samizdam
        15.11.2019 09:27
        +3

        Хм, чтобы понять бизнес-логику в коде написанном в прошлом году предыдущей командой, я трачу многие, многие часы день за днём. Учитывая что и язык реализации прекрасно знаю, и хозяйственная сфера современна мне, и кто-то из авторов даже консультирую… А вы говорите 1000 летнее легаси, авторы которого давно мертвы, поможет.


        1. akuzmin
          15.11.2019 13:32

          Вероятнее всего, в далеком будущем будет возможность разобрать его с помощью какой-нибудь простой нейронки, управляемой голосовыми командами в стиле: «Загрузи код с этой кассеты и определи наиболее вероятные сферы его применения».


  1. zloddey
    14.11.2019 21:46
    +1

    Да, не зря я залил туда репу со своим рогаликом-недоделкой, который лепил в школьные годы! Потомкам будет на что посмотреть


    1. sergey-b
      14.11.2019 23:14

      К сожалению, есть ненулевая вероятность, что вашу репу просто снесут через месяц-другой после очередного обновления пользовательского соглашения, как не представляющую коммерческой ценности.


      1. zloddey
        15.11.2019 04:18

        Я ж Злоддей, Империя Зла должна быть на моей стороне


  1. sergey-b
    14.11.2019 22:55

    Интересно, где все эти годы будет храниться оборудование, способное что-либо прочитать с этих уникальных носителей? Например, у меня есть дискета 3'', но что на ней, узнать не представляется возможным.


    1. Viceroyalty
      15.11.2019 04:08

      У меня на даче пара старых компов с флопповодами, но не поеду туды из-за этого


      1. xxxgoes
        15.11.2019 10:50
        +1

        3" != 3.5"


        1. sergey-b
          15.11.2019 12:10

          У нас метрическая система. Я вообще не врубаюсь, что такое 3.5'' дюйма. ©


        1. Gummilion
          15.11.2019 14:20

          Между прочим, 3" диски действительно существовали — www.cpcwiki.eu/index.php/CF2_Compact_Floppy_Disc. Хотя не уверен, что предыдущие комментаторы имели в виду именно их (а может, в самом деле парочка Амстрадов завалялась?)


          1. sergey-b
            15.11.2019 21:47

            Я всегда называл их трехдюймовыми, и мои собеседники всегда понимали, что именно я имею в виду. По-русски не очень принято использовать слова типа «трех-с-половиной-дюймовые». Вот если бы в ходу были одновременно оба формата 3’’ и 3.5’’, тогда пришлось бы их как-то дифференцировать.


      1. sergey-b
        15.11.2019 12:13
        +4

        А мне пока и не надо. Я на дискете написал, что если что, то дисковод есть у viceroyalty на даче. Пусть потомки сами разбираются.


        1. Viceroyalty
          16.11.2019 05:09

          Примерно так был написан календарь майя


  1. ua30
    15.11.2019 12:03

    Еще в космос отправьте. Инопланетным цивилизация будет очень интересно все это. И на дельфиньем языке так же версию записать не забудьте. Когда люди вымрут, а дельфины эволюционируют, им так же будет очень важно это наше наследие.

    Реально, вообще больше не чем заняться, других проблем вообще нет?


  1. inetstar
    15.11.2019 12:23
    +1

    А оборудование для считывания не положили. Промоакция компании делающей плёнки.


  1. Jekcep
    15.11.2019 13:26

    Надо бы координаты всех таких хранилищ распечатать на бумаге, а лучше на металических пластинках, и массово распространить.


    1. MrMYSTIC
      15.11.2019 14:22

      Металлические пластинки рано или поздно деградируют до состояния руды.


    1. Gummilion
      15.11.2019 14:41

      Нет, лучше зашифровать координаты в пропорциях гигантских скульптур, и расставить их по всей Земле.


      1. sergey-b
        15.11.2019 21:52

        Сначала надо расшифровать те координаты, которые в виде гигантских сооружений оставили для нас представители предыдущих культур.


        1. MTyrz
          15.11.2019 22:20
          +1

          Вы в самом деле хотите найти терабайты доисторического легаси?


          1. sergey-b
            16.11.2019 00:00

            Конечно. Вы видели сколько плюсов собрал пост про сборку 1-го перла? А если его через PVS-studio проанализировать, то можно очень конкретно свой профиль прокачать.


  1. S-trace
    15.11.2019 14:23

    Сама по себе идея создать вечное хранилище исходных кодов выглядит конечно очень здорово, но то, что воплотить её собирается компания которая сама же и удаляет раз за разом репозитории с важными и востребованными проектами своих пользователей выглядит несколько лицемерно, не находите?


  1. ilmarin77
    15.11.2019 18:32

    Ура, все мои копии Hello world! будут доступны для потомков!


  1. evorios
    15.11.2019 22:48

    Хотел бы я посмотреть на реальное «Tech Tree», которое позволит из железного века докатиться до информационного. Интересовался вопросом, но любой поиск любезно показывал игровые деревья технологий, всячески избегая реальности.


  1. prototip_iv
    16.11.2019 23:38

    Помнится было подобное хранилище только для семян, то же тысячелетнее, то же для потомков, то же в вечной мерзлоте, лет несколько назад его эвакуировали из-за того что вечная мерзлота растаяла.


  1. Andronas
    17.11.2019 18:27

    Бэкап это всегда отлично особенно если его можно восстановить


  1. Chupaka
    17.11.2019 20:46

    Данные будут храниться на 3500-футовых плёночных катушках
    Воспринял сначала по аналогии с "пятидюймовыми дискетами" и восхитился масштабу предприятия. Потом немношк разочаровался...