Ошибка одного человека, пропущенное резервное копирование, полная перезагрузка, организационный хаос, секретность и саморегулирование




Начинают проявляться ключевые детали касательно отказа европейской спутниковой навигационной системы "Галилео", произошедшего этим летом, — и они оказываются достаточно неприглядными.

Один из руководителей проекта пытался обвинить одного человека за отказ всей системы, но источники внутри проекта предупреждают, что также стоит винить и организационный хаос, чрезмерную секретность и необычные практики саморегулирования.

Вместе с этими проблемами битва европейских организаций за контроль над спутниковой системой и задержка независимого отчёта по июльскому затыку говорят о серьёзных проблемах европейского конкурента американской GPS. Возможно, системе предстоит давно назревшая встряска.

В середине июля агентство, отвечающее за работу сети из 26 спутников, европейское агентство систем глобальной спутниковой навигации EGSA, предупредило об «ухудшении работы сервиса», но пообещало, что все проблемы будут быстро решены.

Однако решить их не получилось, и даже шесть дней спустя система не просто не работала – её показания становились всё менее точными, а местоположение спутников, о котором они сообщали, кардинально отличалось от реального. Это была серьёзная проблема для системы, чья единственная цель – обеспечивать данные о позиционировании с погрешностью до 20 см.

Миллиарды организаций, частных лиц, телефонов, приложений и прочего по всему земному шару просто перестали пользоваться «Галилео». Сложно представить больший бардак, разве что если бы эти спутники попадали на Землю.

Но, несмотря на отказ сервиса и обильную критику ответственных лиц за неспособность объяснить происходящее, агентства и организации, занимающиеся этим проектом, практически не давали никакой информации.

Расследование


В сентябре было объявлено о том, что намечается независимое расследование причин происшествия – в основном, из-за отсутствия информации. «Предварительные рекомендации» расследования обещали дать к октябрю. И до сих пор никаких сведений.

Затем в начале ноября человек, отвечающий за работу всей системы, заместитель директора Пьер Делсо, нарушил молчание на встрече европейских чиновников по космической политике в Вашингтоне.

Во время сессии вопросов и ответов после презентаций Делсо спросили о причинах отсутствия информации, непрозрачности, а также об отсутствии резервной системы. Он взорвался, утверждая, что проблему вызвал один человек, допустивший ошибку, и не сумевший правильно выполнить действия по её устранению. Он сказал, что эта ошибка была «неприемлемой» и заявил, что она «никогда не повторится».

Делсо ничего не сказал по поводу резервных копий или отсутствия информации и прозрачности. Но другие европейские чиновники тоже не стали отвечать на эти вопросы, указав, что о проблеме было рассказано на недавней конференции – именно после этого некоторые любители космоса зарылись в информацию с сайта Института навигации, со страницы конференции в Майами, проходившей в сентябре.

Одним из этих исследователей был Берт Хьюберт, эксперт по DNS, заинтересовавшийся неразберихой, творившейся с «Галилео» этим летом, и решивший создать свой независимый ресурс для отслеживания состояния системы. В начале ноября Хьюберт опубликовал отчёт о том, что он обнаружил с момента начала своего расследования, перечислив некоторые организационные и политические проблемы, существующие у «Галилео».

Никаких цифр


Среди самых интересных деталей, связанных с «Галилео», есть и такая: из 26 находящихся в космосе спутников работает только 21; при этом для достижения запланированной точности системе требуется не менее 24 спутников.

В следующем году планируется вывести дополнительные спутники, но вероятность их выведения на орбиту постоянно уменьшается, особенно ввиду распрей между Европейским космическим агентством и Евросоюзом.

ЕКА создало систему «Галилео» и работает над обновлённой версией системы, для которой необходимо выводить новые спутники. Но из-за политики ЕС, ухудшившейся вследствие Брекзита, ЕС хочет добиться более строгого контроля над этим проектом.

ЕС собирается создавать новое европейское космическое агентство, EUSA, что, по сути, будет простым переименованием существующего агентства систем глобальной спутниковой навигации. А ещё одно космическое ведомство, GSA, станет агентством Евросоюза по космической программе, и ЕС скоро назначит нового директора по «оборонной промышленности и космосу». Короче говоря, идёт очень много политических пертурбаций, что приводит к появлению разнообразных проблем.

Краткая сводка


И в процессе всего этого происходит полный отказ флагманской европейской системы спутниковой навигации, «Галилео», причём никто не может понятным языком объяснить, что и почему случилось. Вот, что нам известно на основании отчёта, составленного по мотивам сентябрьской конференции в Майами и дополнительных деталей, раскопанных Хьюбертом и другими.

  • Туманные отчёты команды «Галилео», где утверждалось, что всё хорошо и не о чем беспокоиться, относились к тому факту, что физически все спутники были в рабочем состоянии (за исключением тех, которые не работали), и на ожидаемых позициях. Иначе говоря, с железом на орбите всё было нормально; спутники ни с чем не столкнулись и никуда не разлетелись.
  • Реальная проблема почти наверняка связана с ПО, решающим сложную задачу синхронизации всей системы. Довольно сложно соблюдать наносекундную точность атомных часов, которыми оборудованы спутники, летающие на разных орбитах. В системе во время обновления случилась некая аномалия, связанная с эталонным временем – это и была ошибка оператора – из-за чего вся система пошла вразнос.
  • По остающимся непонятными причинам резервная система была недоступной, поэтому нельзя было просто откатиться на предыдущую версию. В итоге всё стало работать всё менее и менее точно.
  • Кроме того, судя по всему, в момент сбоя система не была правильно настроена, поэтому инженерам было очень сложно разобраться, как заставить её снова работать.
  • В итоге было решено, что если на поиски ответа на вопрос о том, что пошло не так, уходит так много времени, проще будет перезагрузить всю систему. Что инженеры и сделали. Но поскольку система чрезвычайно сложна, на перезагрузку ушло несколько дней.

Это наиболее полная информация о происшествии. Есть однако небольшая, но ценная информация о том, как и почему всё пошло не так, и почему у системы не было адекватного способа восстановления.

Сложность


Становится всё более вероятным, что достаточно важной частью проблемы было сложное переплетение организаций, отвечающих за обслуживание и разработку различных частей этой системы. Сразу после того, как всё сломалось, стало ясно, что в рамках проекта «Галилео» нет эффективной схемы обмена информацией, а также, что все начали сразу обвинять друг друга в проблемах, что лишь ухудшило ситуацию.


Неполная схема управления проектом «Галилео» от Берта Хьюберта

Кроме того, есть вопрос того, есть ли у одной конкретной организации, GMV, дополнительная ответственность за всю эту неразбериху. Ведь она управляет не менее, чем тремя различными частями структуры «Галилео».

Что особенно примечательно, она управляет отделением по обработке орбитальной синхронизации (OSPF), отвечающей за выдачу данных, которые пошли в разнос в данном случае — эфемерид. Кроме эфемерид, в подчинении GMV находится отдел обработки целостности данных, занимающийся независимым наблюдением и отслеживанием тех же данных.

Послужило ли одной из причин коллапса то, что одна компания проверяет работу самой себя?

Что до связей с общественностью, то ни одна организация из окружающего «Галилео» созвездия не считала себя вправе рассказывать о происходящем, и оставляла эту задачу чиновникам – никто из которых не знал, что происходит. Иначе говоря, это был классический провал в обмене информацией.

Мы до сих пор точно не представляем себе случившегося, но надеемся, что в результате независимого расследования вскоре выйдет подробный отчёт. Его должны закончить к концу года.

Тем временем опасные объёмы политического маневрирования принуждают инженеров не высовываться. А жаль, поскольку, судя по всему, они проводят большие объёмы работы, усложнённые организационным хаосом.

Короче говоря, «Галилео» – это классическое европейское предприятие: прекрасная идея в реализации талантливых людей, превратившаяся в бюрократический бардак, в котором никто не хочет нести ответственность за проблемы, возникшие вследствие неоправданных организационных сложностей.

Комментарии (18)


  1. lostmsu
    28.11.2019 11:33

    Пришёл сюда за техническими деталями, а нашёл лишь политоту.


    1. panvartan
      28.11.2019 11:39
      +1

      Пришел за данными, а получил метаданные


  1. Igor_Shumilov
    28.11.2019 12:17
    +3

    все спутники были в рабочем состоянии (за исключением тех, которые не работали)
    Отличная формулировка!


    1. Zavtramen
      28.11.2019 12:33

      я по работе теперь так отвечать буду: сделал все (за исключением того, что не сделал)


      1. Tufed
        28.11.2019 14:09

        Хах. Прям дежавю какое-то. Мне вчера на вопрос «нам понадобится обновление платформы?» наша 1С команда программеров ответила «Может потребоваться, а может нет».


        1. Victor_koly
          28.11.2019 15:25

          А имелось в виду обновить софт или купить более мощный сервер?


      1. Sloky
        28.11.2019 22:04

        Ха ха, пойду сейчас с отчетом к партнеру — воспользуюсь Вашей формулировкой :)


  1. striver
    28.11.2019 14:37

    Хм, а вот и получаем на лицо сложность и проблемы касательно разработки софта многими людьми. То есть, когда софтом пользуются на миллиарды — это очень быстро становится достоянием общественности. А вот если меньше, то не так часто это можно услышать, хотя, опять же — Винда. И получается так, что оказывается железо, даже если оно в отличном состоянии — это просто железо без софта. И чем далее — тем сложнее. Интересно, какая у них система контроля версий. А разработка и софт всё далее будет усложнятся. С гитом не всегда получается совладать, если частая смена людей, то через год-два — полный ататуй. Нужно что-то новое, Линус может опять что-то придумает )?


    1. pod
      29.11.2019 11:17
      -1

      [grammarnazi mode on]
      на лицо и налицо имеет разные смыслы…
      [grammarnazi mode off]


      1. striver
        29.11.2019 11:52

        Таки да.


  1. oleg_go
    28.11.2019 17:22
    +1

    Как всё плохо с ещё не законченной системой глобального позиционирования Галилео… из 26 спутников работает только 21, при необходимых 24, и вероятность вывода новых спутников в след.году уменьшается и картина покрытия, которая была, не блещет.
    image
    То ли дело у давно введенной в строй системы Глонасс — из 27 спутников работает только 21, при необходимых 24, вероятность вывода спутников новой «версии» K2 в следующем году, а так же всех следующих после следующего годах, уменьшается и вот такая картина покрытия в ту минуту когда пишу сообщение
    image


    1. crazymassa
      28.11.2019 22:04

      Правильно она работает! Там где нужно))) и не нужно!


      1. Hab_Reader
        29.11.2019 08:33

        Ага! Судя по картам:
        — Глонасс — работает в России и не работает в США (just as planned!)
        — Галилео — имеет проблемы с работой в самой Европе


        1. oleg_go
          29.11.2019 12:32

          Глонасс имеющая в том числе военное применение не работает в США — ну так они же партнеры. Хотя учитывая что у нас над территорией США полноценно не работают даже спутники системы раннего предупреждения о ракетном нападение, ситуация с Глонасс плановая, а точнее закономерная.


    1. Victor_koly
      29.11.2019 11:57

      Я правильно понимаю, что на второй картинке показано число видимых спутников, то есть над большей частью России оно 1?


      1. oleg_go
        29.11.2019 12:27

        Это позиционный (трехмерный) геометрический фактор
        Больше 6 вот такую формулировку дает Википедия

        7-8 Средняя Результаты можно использовать в вычислениях, однако рекомендуется озаботиться повышением точности, например, выйти на более открытое место.
        9-20 Ниже среднего Результаты могут использоваться только для грубого приближения местоположения
        21-50 Плохая Выходная точность ниже половины футбольного поля. Обычно такие результаты должны быть отброшены.


        1. Victor_koly
          29.11.2019 13:37

          Спасибо, я понял.

          Когда спутники в области видимости находятся слишком близко друг к другу
          — это явно плохой вариант, погрешности определения координат приемника будут выше.


    1. somebody4
      30.11.2019 18:24

      Мне на карте покрытия Галилео видится череп, это совпадение или намёк?