В статье разъясняются некоторые моменты, связанные с практической реализацией требований к готовности вычислительной системы.
Обратите внимание: статья предназначена для обычных IT-специалистов и руководителей IT-подразделений, столкнувшихся с необходимостью удовлетворения формальных требований по готовности, и не содержит ничего нового для специалистов в области надёжности.
При построении систем, к которым предъявляются требования в области надёжности и отказоустойчивости, в отечественной инженерно-технической практике часто используются понятия коэффициента готовности Кг и коэффициента оперативной готовности Копер. В соответствии с ГОСТ 27.002-89,
Кг (t) = Тиспр (t) / (Тиспр (t) + Тпрост (t)),
то есть отношение времени исправной работы к сумме времени исправной работы и времени простоев за срок службы t;
Копер (t, тау) = Кг (t) * P (тау),
где P (тау) – вероятность безотказной работы на интервале тау, то есть вероятность того, что, если система была работоспособна в течение некоторого срока, то в следующие тау единиц времени она не выйдет из строя.
Коэффициент оперативной готовности важен, в основном, для изделий, ресурс которых интенсивно расходуется в ходе эксплуатации – всяческого рода обрабатывающих твёрдый материал инструментов, стволов огнестрельного оружия, мощных лазеров и тому подобных разрушающихся при работе технических систем. Для достаточно надежных и долгоживущих устройств, к которым относится вычислительная техника, вероятность P (тау) на интервале единиц часов, характерном для типового сеанса работы, близка к единице, поэтому коэффициент Копер обычно очень мало отличается от Кг.
Основная сложность для вычислительных систем, как правило, состоит в обеспечении целевого значения коэффициента готовности Кг. К расчёту Кг можно подойти формально или вдумчиво.
При формальном подходе, подразумевается, что изделие всегда может быть отремонтировано заменой отказавшего блока на взятый из ЗИПа (запаса запчастей), лишь бы в ЗИПе нашёлся такой же. Для расчёта ЗИПа, исходя из заданных показателей надёжности блоков, существуют специальные методики и готовые программные средства, которые позволяют сравнительно легко получить требуемый результат. Однако, с теоретико-вероятностной точки зрения, проблема здесь заключается в том, что принятая модель надёжности рассматривает отказы разных изделий как независимые события, что для вычислительной техники на длинных интервалах времени не соответствует действительности — часто устройства одновременно выходят из строя как при эксплуатации, так и при хранении.
При вдумчивом подходе, мы обязаны рассмотреть возможность ситуации, когда взятый из ЗИПа на замену блок оказался тоже неработоспособным (что вполне вероятно, учитывая характер деградации характеристик вычислительной техники, часто зависящей больше от времени жизни устройства, чем от интенсивности его работы). Вариантом этой ситуации является изначальное отсутствие в ЗИПе требуемого блока из-за слишком оптимистичной начальной оценки его надёжности. Тогда время простоя будет состоять из времени оповещения эксплуатирующим персоналом ответственных за ремонт лиц о неисправности, получения ремонтной организацией или подразделением неисправного блока, поиска и приобретения нового аналогичного (или, при менее удачном раскладе, решения вопроса об изменении конструкции изделия), его проверки, настройки, отправки в эксплуатирующую организацию и замены. Практика показывает, что для единично применяемых блоков, не имеющих многократного резервирования на ремонтном складе, время простоя в таком случае практически невозможно сократить до величины менее двух месяцев (учитывая, что один только срок приобретения некоторых комплектующих может достигать 60 дней и более).
Заметим, что, разумеется, при приобретении оборудования ответственного назначения предпочтительно заключать сервисный контракт с производителем, обеспечивающий замену отказавших комплектующих в короткие сроки. Однако, редко когда такие контракты бывают доступны более чем на 5 лет, чего, зачастую, недостаточно для плановых сроков эксплуатации промышленных систем.
Решим простые пропорции, вытекающие из формулы коэффициента готовности:
Тиспр1 / (Тиспр1 + 2 месяца) = 0.95
и
Тиспр2 / (Тиспр2 + 2 месяца) = 0.99
для типовых величин коэффициента готовности 0.95 и 0.99.
Получаем: Тиспр1 = 38 месяцев (3 года) и Тиспр2 = 188 месяцев (16 лет).
Таким образом, для обеспечения коэффициента готовности Кг = 0.95 необходимо применять в эксплуатируемом изделии (и его ЗИПе) блоки с ожидаемым сроком службы 3 года и при этом восполнять ЗИП не более чем за 2 месяца. Такие условия представляются реалистичными, и стратегия восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа в данном случае вполне адекватна.
Иная картина вырисовывается для Кг = 0.99. Для достижения коэффициента готовности 0.99 требуется обеспечить, чтобы либо ожидаемый срок службы всех блоков превышал 16 лет, либо ремонт при отсутствии запчастей на объекте выполнялся быстрее, чем за 2 месяца, либо всегда в течение 16 лет на объекте находился исправный ЗИП для всех блоков. Первые два требования удовлетворить при современном состоянии дел представляется нереальным. Последнее требование невозможно удовлетворить при пассивном хранении ЗИП, так как велика вероятность, что через 16 лет, когда выйдет из строя какой-то блок, его замена из ЗИП тоже окажется вышедшей из строя. Единственной возможностью удовлетворить это требование является постоянный контроль работоспособности и замена при выходе из строя всех блоков, в том числе и запасных. Способом обеспечения такого контроля является стратегия горячего резервирования.
Выводы:
1. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания, возможно достижение коэффициента готовности 0.95 при стратегии восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа.
2. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания для единичных изделий, достижение коэффициента готовности 0.99 невозможно путём только использования ЗИПа и требует использования горячего резервирования или другого метода постоянного контроля всех блоков, в том числе и запасных.
Обратите внимание: статья предназначена для обычных IT-специалистов и руководителей IT-подразделений, столкнувшихся с необходимостью удовлетворения формальных требований по готовности, и не содержит ничего нового для специалистов в области надёжности.
При построении систем, к которым предъявляются требования в области надёжности и отказоустойчивости, в отечественной инженерно-технической практике часто используются понятия коэффициента готовности Кг и коэффициента оперативной готовности Копер. В соответствии с ГОСТ 27.002-89,
Кг (t) = Тиспр (t) / (Тиспр (t) + Тпрост (t)),
то есть отношение времени исправной работы к сумме времени исправной работы и времени простоев за срок службы t;
Копер (t, тау) = Кг (t) * P (тау),
где P (тау) – вероятность безотказной работы на интервале тау, то есть вероятность того, что, если система была работоспособна в течение некоторого срока, то в следующие тау единиц времени она не выйдет из строя.
Коэффициент оперативной готовности важен, в основном, для изделий, ресурс которых интенсивно расходуется в ходе эксплуатации – всяческого рода обрабатывающих твёрдый материал инструментов, стволов огнестрельного оружия, мощных лазеров и тому подобных разрушающихся при работе технических систем. Для достаточно надежных и долгоживущих устройств, к которым относится вычислительная техника, вероятность P (тау) на интервале единиц часов, характерном для типового сеанса работы, близка к единице, поэтому коэффициент Копер обычно очень мало отличается от Кг.
Основная сложность для вычислительных систем, как правило, состоит в обеспечении целевого значения коэффициента готовности Кг. К расчёту Кг можно подойти формально или вдумчиво.
При формальном подходе, подразумевается, что изделие всегда может быть отремонтировано заменой отказавшего блока на взятый из ЗИПа (запаса запчастей), лишь бы в ЗИПе нашёлся такой же. Для расчёта ЗИПа, исходя из заданных показателей надёжности блоков, существуют специальные методики и готовые программные средства, которые позволяют сравнительно легко получить требуемый результат. Однако, с теоретико-вероятностной точки зрения, проблема здесь заключается в том, что принятая модель надёжности рассматривает отказы разных изделий как независимые события, что для вычислительной техники на длинных интервалах времени не соответствует действительности — часто устройства одновременно выходят из строя как при эксплуатации, так и при хранении.
При вдумчивом подходе, мы обязаны рассмотреть возможность ситуации, когда взятый из ЗИПа на замену блок оказался тоже неработоспособным (что вполне вероятно, учитывая характер деградации характеристик вычислительной техники, часто зависящей больше от времени жизни устройства, чем от интенсивности его работы). Вариантом этой ситуации является изначальное отсутствие в ЗИПе требуемого блока из-за слишком оптимистичной начальной оценки его надёжности. Тогда время простоя будет состоять из времени оповещения эксплуатирующим персоналом ответственных за ремонт лиц о неисправности, получения ремонтной организацией или подразделением неисправного блока, поиска и приобретения нового аналогичного (или, при менее удачном раскладе, решения вопроса об изменении конструкции изделия), его проверки, настройки, отправки в эксплуатирующую организацию и замены. Практика показывает, что для единично применяемых блоков, не имеющих многократного резервирования на ремонтном складе, время простоя в таком случае практически невозможно сократить до величины менее двух месяцев (учитывая, что один только срок приобретения некоторых комплектующих может достигать 60 дней и более).
Заметим, что, разумеется, при приобретении оборудования ответственного назначения предпочтительно заключать сервисный контракт с производителем, обеспечивающий замену отказавших комплектующих в короткие сроки. Однако, редко когда такие контракты бывают доступны более чем на 5 лет, чего, зачастую, недостаточно для плановых сроков эксплуатации промышленных систем.
Решим простые пропорции, вытекающие из формулы коэффициента готовности:
Тиспр1 / (Тиспр1 + 2 месяца) = 0.95
и
Тиспр2 / (Тиспр2 + 2 месяца) = 0.99
для типовых величин коэффициента готовности 0.95 и 0.99.
Получаем: Тиспр1 = 38 месяцев (3 года) и Тиспр2 = 188 месяцев (16 лет).
Таким образом, для обеспечения коэффициента готовности Кг = 0.95 необходимо применять в эксплуатируемом изделии (и его ЗИПе) блоки с ожидаемым сроком службы 3 года и при этом восполнять ЗИП не более чем за 2 месяца. Такие условия представляются реалистичными, и стратегия восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа в данном случае вполне адекватна.
Иная картина вырисовывается для Кг = 0.99. Для достижения коэффициента готовности 0.99 требуется обеспечить, чтобы либо ожидаемый срок службы всех блоков превышал 16 лет, либо ремонт при отсутствии запчастей на объекте выполнялся быстрее, чем за 2 месяца, либо всегда в течение 16 лет на объекте находился исправный ЗИП для всех блоков. Первые два требования удовлетворить при современном состоянии дел представляется нереальным. Последнее требование невозможно удовлетворить при пассивном хранении ЗИП, так как велика вероятность, что через 16 лет, когда выйдет из строя какой-то блок, его замена из ЗИП тоже окажется вышедшей из строя. Единственной возможностью удовлетворить это требование является постоянный контроль работоспособности и замена при выходе из строя всех блоков, в том числе и запасных. Способом обеспечения такого контроля является стратегия горячего резервирования.
Выводы:
1. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания, возможно достижение коэффициента готовности 0.95 при стратегии восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа.
2. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания для единичных изделий, достижение коэффициента готовности 0.99 невозможно путём только использования ЗИПа и требует использования горячего резервирования или другого метода постоянного контроля всех блоков, в том числе и запасных.