Заканчивается 10-летие эксплуатации малой серии сконструированных под моим руководством компьютеризированных систем, и можно, не претендуя на всеобщность выводов, тем не менее, по случаю юбилея, подвести некоторые итоги в части надёжности работы вычислительной техники на продолжительных интервалах времени.

Изделие, опыт эксплуатации которого мы рассматриваем, предназначено для проведения измерений в реальном масштабе времени и состоит из ряда электронных модулей собственной разработки и иерархически организованной группы компьютеров: промышленной рабочей станции верхнего уровня типа ICP PPC-5150 под управлением Windows, промышленного управляющего компьютера типа ICP WS-855 с одной процессорной платой Rocky-C800 под управлением DOS и встраиваемого компьютера Fastwel CPU-188 под управлением DOS. Единицей эксплуатации на объекте является группа из двух изделий, резервирующих друг друга, и группового комплекта ЗИП (запчастей и принадлежностей). Всего имеется порядка 10 объектов эксплуатации в различных населённых пунктах России (соответственно, 20 изделий, или 80 входящих в них компьютеров с учётом ЗИПа). Гарантийный срок эксплуатации изделий составляет 10 лет, назначенный срок эксплуатации – 20 лет.

В целом, эксплуатация изделий за 10 лет прошла успешно. Благодаря удачно выбранной политике резервирования (полный горячий резерв плюс априорно наименее надёжные блоки и модули в ЗИПе), не было ни одного случая невозможности использовать изделие по целевому назначению.

Можно привести основные выводы в области надёжности для разработчиков компьютерных систем, полученные по результатам эксплуатации вышеупомянутой серии и, отчасти, других изделий. Некоторую полезную специфику собранной статистике, отличающую её от более широких данных ремонтных центров, придаёт одинаковость аппаратной конфигурации, программного обеспечения и целевой задачи эксплуатации изделий, установленных на различных объектах. Итак, выводы:

1. Значительное число отказов изделий (в нашем случае – порядка 50%) связано с выходом из строя серийно выпускаемых компьютерных комплектующих. Этот результат оказался для нас довольно неожиданным, так как на комплектующих мы не экономили, и априорно ожидали меньшей надёжности нашей собственной электронной аппаратуры ввиду её меньшей отработки. На описанной выше серии изделий мы получали в среднем по одной рекламации на компьютерные комплектующие в год.

2. Существует начальный период эксплуатации (несколько месяцев), в течении которого проявляются присущие комплектующим дефекты, не успевшие проявиться при тестировании у изготовителя. Статистика неисправностей на начальном периоде связана, по-видимому, с нераспознанным заводским браком, и существенно отличается от статистики дальнейшего периода (после года и далее), связанной с деградацией характеристик в ходе эксплуатации. Большинство неисправностей, обнаруженных в начальном периоде, в дальнейшем не повторяются.

3. Если компьютерные комплектующие изделия выходят из строя на втором-третьем году эксплуатации, можно с большой вероятностью утверждать, что такие же комплектующие будут выходить из строя и в дальнейшем. Из этого можно сделать вывод о целесообразности создания дополнительного ремонтного запаса по результатам двух-трёх лет эксплуатации, пока комплектующие данного типа ещё не сняты с производства.

4. Компьютеры типа PPC-5150 и их составные части выходили из строя многократно, в то время как WS-855 и CPU-188 и их составные части – ни разу после начального периода. Предположительно, это связано с более высокой степенью интеграции, более высокой частотой и более высокой температурой в PPC-5150.

5. Существует очень значительная зависимость вероятности выхода из строя электронных модулей от объекта их эксплуатации. Эта зависимость не сводится к человеческому фактору, так как за время формирования нашей выборки эксплуатирующий персонал на объектах менялся, а характер статистики – нет. Предположительно, причины сводятся к качеству электропитания или климатическим особенностям.

6. В компактных системных блоках производители склонны выбирать нестандартные конструктивные решения и менять их по мере производственной необходимости. Это приводит к тому, что, например, номинально общая серия ICP PPC-5150 распадается на ряд конструктивно несовместимых между собой моделей. При отказе, например, материнской платы в старой PPC-5150, установить на её место плату от новой PPC-5150 невозможно (по крайней мере, без лобзика и эпоксидной смолы), и приходится заменять системный блок целиком. [Здесь могло бы быть упоминание о фирме Apple].

7. При проектировании изделий с продолжительным сроком службы повышенное внимание необходимо уделять встроенным источникам питания (батарейкам), срок службы которых ограничен. Если стандартные элементы питания, вроде, скажем, CR2032 на материнской плате, можно рассчитывать без труда заменить через несколько лет, то с интегрированными модулями и микросборками, включающими элемент питания в свой неразборный конструктив, могут возникнуть значительные проблемы при их снятии с производства.

8. Системный блок компьютера, положенный целиком в ЗИП, может оказаться очень кстати. Эксплуатирующему персоналу гораздо проще заменить системный блок целиком, а потом, совместно с изготовителем, разбираться с локализацией неисправности, чем пытаться найти неисправную деталь на месте. Вообще, практика показывает, что единственным видом ремонтных работ, который целесообразно поручать эксплуатирующему персоналу, не имеющему специальной квалификации, является замена неисправных блоков или модулей целиком.

9. Информация, записанная на DVD-R/RW, проживает дольше нескольких лет только при известном везении. Впрочем, о долговременном архивном хранении информации лучше написать отдельную статью.

Комментарии (9)


  1. amarao
    19.04.2016 17:14

    Фантастика: «у нас был запасной компьютер и потому у нас всегда был запасной компьютер».

    А где реальная жизнь? У вас за 10 лет сколько CVE'шек попатчено было? И ни одной регрессии?

    Или «это не наши проблемы, как поставили так и работает»?


    1. vadimr
      19.04.2016 17:28

      Для промышленного оборудования, не имеющего связи с внешними сетями общего назначения и внешних носителей данных, CVE – неактуальный вопрос. Например, Вы за 10 лет сколько раз фиксили CVE на своей стиральной машине?

      Но вообще программное обеспечение, в том числе и прошивки, меняется после того, как проверяется у изготовителя на аналогичном оборудовании. В условиях неизменности аппаратной и программной среды это очень простой вопрос, и регрессиям тут неоткуда взяться.

      Основная реальная проблема в данном случае другая – как всегда иметь запасной компьютер к оборудованию образца десятилетней давности. И статья поэтому посвящена вычислительной технике, а не программному обеспечению.


      1. amarao
        19.04.2016 18:27
        +1

        На моей стиральной машине нет windows.

        Алсо, CVE для автомобиля, позволяющего его открыть без ключа — вполне требует исправления.


        1. vadimr
          19.04.2016 18:46

          Я бы не был так уверен про стиральную машину. После того, как Windows стала стандартом де-факто для банкоматов, возможно всё.

          Конечно, Windows сама по себе представляет собой одну большую точку уязвимости, и может быть испорчена многими способами, в том числе и очумелыми ручками с клавиатуры. Поэтому в нашей системе была предусмотрена самозагружаемая резервная копия диска, позволяющая в случае возникновения проблем вернуть состояние жёсткого диска к последней версии изготовителя. Ну и собственно компьютер с Windows нужен больше для красоты, основная функциональность доступна и без него. Я просто не стал останавливаться на этих вопросах в статье, посвящённой железу.

          Что касается CVE в системе доступа к автомобилю, то я очень сомневаюсь, что автопроизводитель будет их фиксить в течении 10 лет (практика показывает, что вообще обновление прошивок в автомобиле – событие довольно редкое, а у старых моделей – экстраординарное). Скорее всего, вам в таком случае в сервис-центре посоветуют поставить на вашу машину дополнительную сигнализацию или застраховать его от хищения. Вообще, доступ в открытую среду передачи данных и требования к длительному сроку эксплуатации – во многом противоречащие друг другу требования, в том числе, и по обозначенной Вами причине. И слишком быстро в интернете всё меняется, чтобы поддержание работоспособности сервера 2006 года сейчас представляло практический интерес.


  1. inetstar
    20.04.2016 11:00

    А как расшифровывается ЗИП?


    1. vadimr
      20.04.2016 11:10

      “Запасные части, инструменты, принадлежности”. В данном случае речь идёт о комплекте запчастей.


  1. askbow
    22.04.2016 19:11

    Значительное число отказов изделий (в нашем случае – порядка 50%) связано с выходом из строя серийно выпускаемых компьютерных комплектующих.
    А что у вас выходило из строя и как часто? (интересно узнать обобщённо по типам: платы, БП, механика (вентиляторы и т.п.), что-то ещё) Менялась ли частота отказа из года в год? Были ли замены на новые аналоги и как бы вы охарактеризовали их надёжность? Были ли отказы ЗИП (т.е. замена не запускалась после длительного хранения)?


  1. vadimr
    22.04.2016 19:45
    +1

    Выходили из строя различные части PPC-5150, практически не повторяясь (в данный момент нет при себе точных материалов, но навскидку помню: стабилизатор напряжения на материнской плате, жёсткий диск, разъём жёсткого диска (разболтался, несмотря на то, что был залит герметиком – может, уронили компьютер?), DVD-драйв, неустановленный дефект материнской платы. В первые месяцы проявилась ошибка в оперативной памяти одного из компьютеров. Элементы питания на материнских платах заменялись штатным образом. Повторяемости отказов не было ни разу, ЗИП тоже из строя не выходил. Один компьютер (с полностью отказавшей материнской платой) целиком заменили года три назад на новую модель PPC-5150, она пока из строя не вышла. В остальном заменяли на аналогичные комплектующие. Частота отказов, начиная со второго года, практически постоянна.


    1. vadimr
      23.04.2016 14:57

      Исходя из вышесказанного, я предполагаю, что внутри PPC-5150, учитывая плотность его компоновки, просто жарко, что влияет на все его компоненты. Хотя он номинирован на температуру до +60?C, а эксплуатируется в обитаемых помещениях, где вряд ли когда бывает больше +30?C. С другой стороны, никто ведь и не обещал для него 10 лет успешной работы.