
Если вы уже давно знакомы с Backblaze (особенно, если следите за обзорами Drive Stats), то наверняка читали наши обсуждения кривой отказов. В статье «Drive Failure Over Time: The Bathtub Curve Is Leaking» мы писали о том, как проверяли истинность старого инженерного принципа, гласящего, что сбои в работе привода, представленные в виде временного графика, демонстрируют предсказуемую U-образную кривую, иначе называемую кривая «ванны».
Но тест этого не подтвердил. В результате анализа нашей коллекции приводов были зафиксированы всплески и плато, которые никак не вписывались в предсказуемый паттерн. Теперь, спустя 13 лет непрерывного сбора данных, удалось получить более ясную картину, но и более странную.
И «ванна» в этом случае не просто «потекла» (отсылка к leak в названии вышеупомянутой статьи, — прим. пер.), её форма больше напоминает бордюр при входе в душевую кабину. Складная история о том, что вначале идут сбои, а потом спокойный средний период с плавным повышением отказов, больше не вписываются в реалии жизни наших приводов. Они становятся лучше. Говоря точнее, датасет Drive Stats указывает на повышение их качественных показателей конкретно в дата-центрах.
Давайте же посмотрим, как выглядит полученная нами кривая отказов, и как она соотносится с прежними поколениями анализа.
Если коротко, то жёсткие диски становятся лучше.
Введение: кривая отказов
Если вы занимались изучением надёжности аппаратных устройств, то она вам знакома — это плавная U-образная линия, называемая кривой «ванны». Она призвана упорядочить хаотичную информацию о сбоях — показать историю, где устройства начинают жизнь со всплеска проявления дефектов, затем переходят в период устойчивости и, наконец, постепенно начинают отказывать, демонстрируя прогнозируемый спад. Вот как это выглядит на графике:

Классическая «ванна».
Не один десяток лет она использовалась как инженерное клише, отражающее цикл жизни устройств. Но в результате более чем десяти лет сбора данных и миллионов отработанных приводами часов стало ясно — реальная картина выглядит сложнее.
Как кривая отказов выглядела раньше
Впервые мы провели этот анализ в 2013 году, и когда публиковали обновлённый отчёт в 2021, то разместили в нём этот график:

Здесь отражён годовой процент отказов (AFR) среди всего пула винчестеров на момент двух завершающих точек — 2013 и 2021 года. В те времена уже было видно, что «ванна», как выразился уважаемый Энди Кляйн, «потекла». Данные 2013 года ближе соответствуют истинной кривой отказа, а вот в 2021 уже видно меньше проблем в начале и меньший их процент в течение большего числа лет. По графику также видно, что средняя продолжительность жизни до момента, когда начинаются частые отказы, увеличилась примерно на 2 года.
Числа могут как определять реальность, так и искажать
Помимо всего прочего, при сравнении надёжности жёстких дисков с течением времени есть ряд важных факторов. Например, отличие между особенностями их использования нами и клиентами, изменение рабочих нагрузок и так далее. Самое же важное в том, что мы используем средние показатели, поэтому легко утерять нить контекста нашего датасета — о каком количестве дисков речь идёт в 2013 и в 2021 годах?
На момент анализа данных в 2013 году компания Backblaze уже работала шесть лет, но публиковать датасет Drive Stats мы начали только с 2013. Поэтому показать данные в ретроспективе (то есть, сколько дисков дали сбой в свой первый год использования) было сложнее, чем в случае привычного составления отчётов. Речь шла о приводах, которые попали в пул в 2007 году, и по ним мы не публиковали подробные ежедневные журналы работы, даже если диск всё ещё работал в 2013 (что, как видно из графика, было маловероятно). Их надёжность мы анализировали через сопоставление отказов и времени наработки. В итоге при недавнем воспроизведении этого анализа мы использовали следующий SQL-запрос:
CREATE VIEW introduction_dates AS
-- Вычисляем дату добавления дисков, которые на 2013-04-10 уже были в работе.
SELECT serial_number, date(date_add('hour', -1 smart_9_raw, TIMESTAMP '2013-04-10 00:00:00')) AS introduced
FROM drivestats
WHERE date = DATE '2013-04-10'
UNION
-- Используем наименьшую дату для дисков, которые начали работать после 2013-04-10.
SELECT serial_number, MIN(date) as introduced
FROM drivestats
WHERE serial_number NOT IN (
SELECT serial_number
FROM drivestats
WHERE date = DATE '2013-04-10'
)
GROUP BY serial_number;
SELECT
date_diff('day', d2.introduced, d1.date) / 91 AS age_in_quarters,
100 365 (cast(SUM(d1.failure) AS DOUBLE) / COUNT()) AS afr
FROM drivestats AS d1
INNER JOIN introduction_dates AS d2
ON d1.serial_number = d2.serial_number
GROUP BY 1
ORDER BY 1;
При этом в 2013 году наш пул дисков выглядел совсем иначе. Он не только был меньше (на сентябрь 2014 года работало ~35 000 приводов, содержавших более 100 ПБ данных), но и состоял из «потребительских» устройств. В ходе тестирования в рабочей среде мы не заметили их особого отличия от корпоративных. Но тогда был сложный период, когда мы активно «добывали диски», а поскольку доступными оказывались только внешние, то для установки в серверы их приходилось «раздевать», извлекая из корпусов. Естественно, это повышало риск повредить устройства. Жёсткие диски, конечно, живучие и надёжные, к тому же мы были осторожны, но тем не менее.
К моменту повторного анализа в 2021 году количество дисков сильно возросло, составив где-то 206 928, и данных на них тоже хранилось значительно больше. Между 2013 и 2021 мы нарастили ёмкость нашего дата-центра в Сакраменто, расширили свой географический охват двумя центрами в Финиксе и Амстердаме, планируя открыть очередные в 2022 году. Кроме того, мы запустили проект Backblaze B2 Cloud Storage и, вдобавок ко всему, вышли на биржу.
С исторической перспективы всё это круто, но есть более значительный факт, который стоит иметь в виду. Чем меньше у тебя данных (в нашем случае — меньше дисков), тем больше каждая их отдельная точка оказывает влияние на весь датасет. В кривой отказа по мере старения дисков их количество естественным образом уменьшается — в первый день присутствуют все диски, но не факт, что они все доживут до 1 462 дня (проще говоря, протянут четыре года и один день). Чем меньше дисков, тем больше всплесков. Поэтому, если вы начинаете с большим их числом, то и показатели получите более ровные — если только не возникнет реальная проблема, или анализ не дойдёт до истинной зоны сбоя всего пула дисков.
А поскольку мы начали покупать больше дисков и изменили процедуру их списания, всё это повлияло на итоговый результат. Подробнее о гигиене пула мы поговорим позднее, сейчас же перейдём к текущим данным.
Как выглядит кривая отказов сегодня
Взглянем на статистику отказов в нашем текущем пуле дисков в Backblaze:

Здесь мы видим довольно уверенное отклонение от двух последних измерений как по части продолжительности жизни дисков, так и по верхней точке AFR. На момент составления в конце второго квартала 2025 года наш отчёт включал данные по 317 230 дискам. Можете рассматривать эти результаты как примерные, поскольку в каждом отчёте Drive Stats дисков постепенно становится меньше. Тем не менее общую картину эти отчёты нам дают.
К примеру, вот график от 2013 года:

А вот от 2021:

Здесь недостаёт одного сложного для визуализации элемента — масштаба по осям x (время в годах) и y (годовой процент отказов). Теперь для наглядности поместим все три кривые на один график.

Заметьте, что в данных от 2013 и 2021 годов ближе к концу жизни всего пула дисков наблюдается скачок отказов. В 2013 это было 13,73% примерно в возрасте 3 лет и 3 месяцев (и 13,30% в 3 года, 9 месяцев), а на графике 2021 года этот пик достиг 14,24% в районе 7 лет и 9 месяцев.
Теперь сравним всё это с данными от 2025 года. Здесь пик составил 4,25% в возрасте 10 лет и 3 месяца (как вам?). И это не только значительное улучшение по части долгожительства дисков, но и первый раз, когда пик отказов наблюдается в самом конце кривой. При этом его величина составляет всего треть от пиков в двух других анализах.
В то же время в самом начале кривой мы тоже наблюдаем крайне низкий показатель по сбоям — в первый год жизни дисков AFR едва дотягивает до 1,30%. К слову, показатель AFR за последний квартал составил 1,36%.
И всё же по линиям тренда видно, что графики от 2021 и 2025 года не сильно отличаются по самой форме. То есть наблюдается примерно равный процент отказов на протяжении основной части жизни дисков, потом следует резкий скачок, означающий начало основной зоны выхода оборудования из строя.
Как это понимать? Можно сказать, что диски становятся лучше и живут дольше. И ввиду того, что графики от 2021 и 2025 года имеют примерно одну форму, следует повторить этот анализ в 2029 — вдруг пик отказов сместится ещё дальше.
А как же различие в контексте, о котором было сказано выше?
Хороший вопрос. Наш датасет претерпел значительные изменения, которые могут влиять на общие показатели. Мы уже проговорили вопрос отличия потребительских и корпоративных устройств, и хотя у нас нет свежих результатов тестов по этой части, оптовая закупка дисков имеет ещё один нюанс, который может влиять на данные.
К примеру, поскольку мы покупаем много дисков разом, они отправляются в пул одновременно. В результате с течением лет мы реально наблюдали отличия только от модели к модели. Смысл в том, что, если вам попалась неудачная партия дисков, которую вы добавили в пул, то в итоге многие из них могут отказывать разом.
Кроме того, сегодня мы выводим из работы диски по другой схеме. Наш подход включает много аспектов, но все они так или иначе сводятся к управлению рисками и необходимости постепенного расширения объёма хранилища. С практической точки зрения это означает, что порой есть диски, которые вроде бы работают хорошо, но мы всё равно их списываем. В результате они покидают пул, несмотря на то, что отказа не произошло. Поскольку описанный выше анализ опирается на годовой процент отказов относительно возраста диска, мы наблюдаем значительное падение количества дисков без ожидаемого скачка сбоев.
И, наконец, для новых приводов у нас другие стандарты. Некоторые из этих стандартов связаны с отраслью в целом — ёмкость приводов растёт, и схемы хранения в них данных меняются. Но в сравнении с 2013 годом, когда природный катаклизм вынудил нас искать возможности для срочного апгрейда, теперь мы более свободны в выборе устройств при покупке и можем учитывать особенности нашей рабочей среды.
А могла кривая отказов оказаться ошибочной?
Суть не в том, что кривая ошибочна, а в том, что она не охватывает многих деталей. В ней надёжность измеряется только по времени — без учёта рабочей нагрузки, изменений в технологии производства, обновлений прошивки и списания дисков. При этом она опирается на несколько допущений:
Устройства идентичны и работают в одинаковых условиях.
Отказы происходят независимо и определяются в основном продолжительностью работы.
Рабочая среда остаётся постоянной в течение всей жизни продукта.
Радует то, что в случае дата-центров большинство из этих нюансов актуальны в той же степени, что и в случае типичных рабочих условий. В дата-центрах акцент делается на максимальной стабильности среды, чтобы снизить энергозатраты, а также иметь возможность предвидеть и планировать рабочие нагрузки. По сути, стабильность = успешный дата-центр.
Тем не менее условия никогда не бывают идеальными. Наши показатели всегда отражали и будут отражать как удачное планирование, так и непредвиденные повороты жизни. Понимание того, являются ли диски «хорошими» или «плохими», всегда представляет некий баланс между теорией (в нашем случае кривой отказов) и реальностью (датасет Drive Stats).
Что дальше?
Почему весь этот разговор о количествах важен? Дело в том, что по мере расширения пула дисков наша уверенность в наблюдаемых результатах росла — как в день первый, так и в день 1 462. Даже если бы в 2021 году мы анализировали в точности такие же модели дисков при такой же комбинации пула, что и в 2021 году (в процентах), при их большем количестве результаты получились бы лучше. Сегодня же наш пул намного разнообразнее, и дисков в нём значительно больше.
Это не значит, что по части проверки дисков мы являемся исчерпывающей и окончательной инстанцией, но такое положение даёт нам основания для взвешенного анализа данных и представления их вам. Как обычно, весь датасет Drive Stats лежит на нашем сайте. То есть вы можете повторить эксперимент сами или использовать наши данные любым иным способом.
Комментарии (3)

kma21
24.10.2025 15:16Статью не читал, но спросить хочется. Когда графики строили, количество отказов сравняли с количеством исследуемых дисков? Чтобы число было с размерностью отказов/N дисков.
Иначе график с названием "График кривой отказа дисков на 2025 год", показывает, что у дисков при возрасте от 8 до 10 лет открывается второе дыхание. И одни и те же диски значительно менее вероятно откажут, чем ещё год назад.
Может так потому, что таких дисков было меньше в выборке?
AlexKniga
От 2013 до 2021 = 8 годов, а на «График сопоставления двух столбчатых диаграмм от 2013 и 2021 года» 2 года. Исседователи2021 не учитывали данные за 2009—2015 ?
Bright_Translate Автор
2013 и 2021 - это годы завершения анализа, итоговые. То есть шесть лет отсчитываются до них - с 2007 до 2013 и с 2015 до 2021, по 6 лет в обоих случаях. Ниже в статье это проясняется.