Привет, Хабр! На связи Даша из МТС, сегодня поговорим про жесткие диски. В феврале мы писали, что качество HDD снижается, причем это актуально для всех производителей. Судя по всему, тенденция сохраняется.

Провайдер облачных сервисов Backblaze продолжает публиковать статистику отказов жестких дисков. В эксплуатации у компании сотни тысяч HDD, так что ее выборка надежна. Работа разных моделей жестких дисков оставляет желать лучшего — улучшений нет. Но зачем вообще Backblaze собирает информацию по надежности HDD? В первую очередь для формирования стратегий замены и миграции HDD внутри своей инфраструктуры. Дальше — под катом.

Что происходит  

Сейчас в распоряжении Backblaze находится около 285 тысяч жестких дисков, полгода назад было 250 тыс. Компания уже опубликовала результаты их эксплуатации.

Основное, на что нужно обращать внимание в таких отчетах, — годовая частота отказов  (annualized fail rate, AFR). Компания использует этот показатель для измерения надежности как HDD, так и твердотельных накопителей. AFR означает вероятность выхода носителя в течение полного года его эксплуатации. Зависимость здесь обратная: чем выше AFR, тем ниже надежность.

Средний показатель AFR по итогам II квартала 2024 года составил 1,71%. В первом квартале этого года он равнялся 1,4%. Получается, надежность HDD снизилась. Падение не очень значительное, но оно есть. Тенденция характерна в основном для новых моделей: среди HDD прошлых лет ситуация получше. Есть носители, которые работают без проблем больше восьми лет.

Авторы отчета говорят, что есть и другая зависимость: чем больше емкость определенной модели, тем выше вероятность сбоя. Это объяснимо, ведь чем более емкий диск, тем сложнее его структура.

В статистику компании не входят модели, которых в распоряжении Backblaze не больше 100 штук. К тому же не учитываются носители, которые не накопили 10 000 суток работы в сумме за квартал. Но и без них в отчете достаточно данных — в итоговый результат вошли показатели 283 065 дисков.

Больше подробностей

Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604), чей AFR за отчетный период подскочил до 7,17%. Зато есть и лидеры, которые работают без сбоев: две модели от Seagate, 14 Тбайт ST14000NM000J и 16 Тбайт ST16000NM002J. За весь квартал ни один из них не засбоил. Правда, в распоряжении компании не так много этих дисков.

Самая старая модель, которая еще работает в стойках компании, — Seagate емкостью 4 Тбайт (ST4000DM000). Один из дисков этой модели на конец второго квартала проработал 9 лет 11 месяцев и 23 дня. Все HDD ST4000DM000 в ближайшее время хотят заменить на более современные HDD с большей емкостью. Это нужно для экономии полезного пространства, ведь чем больше емкость жестких дисков, тем выше плотность хранения данных.

Компания опубликовала не только таблицы, но и диаграммы, составленные на основе статистики сбоев жестких дисков. Ниже показана первая. Она отображает AFR для 14 моделей, средний возраст которых составляет 60 месяцев и менее. Почему именно столько? Это типичный гарантийный срок для жестких дисков корпоративного класса.

Интересно, что диски, которые попали в первый квадрант на первой диаграмме, описываются специалистами компании как хорошо работающие, с AFR менее 1,5%. Второй квадрант показывает характеристики дисков, которые работают в штатном режиме с AFR выше 1,5%. В третьем квадранте дисков пока нет из-за их «молодости», просто по ним еще мало информации. В четвертом же показаны новые HDD, проработавшие какое-то время. Сбоев среди них не так много.

На второй диаграмме — данные для моделей со средним возрастом больше 60 месяцев. Здесь в первом квадранте показаны хорошо работающие модели, во втором и третьем — HDD, которые вызывают беспокойство. В четвертом квадранте показана модель HDD, у нее пока нет проблем.

Наконец, третья диаграмма показывает частоту отказов за весь срок службы по девяти моделям старше 60 месяцев — для наглядности отсчет ведется с 24 месяцев. Здесь распределение проявляется по первому и второму квадранту. Надежнее всего модели с почти вертикальными линиями: красная, коричневая и фиолетовая.

HDD с увеличенным числом отказов показаны синей и серой лентой. Еще менее стабильные HDD — в третьем квадранте. И черная линия — совсем уж «уставшая» модель Seagate емкостью в 4 Тб. Тот самый «долгожитель», о котором я говорил выше.

Результаты отчета можно использовать, но с условием

Полная информация от Backblaze доступна по этой ссылке. Компания разрешает использовать результаты анализа в своих целях, но, как это было и раньше, нужно выполнить три условия:

  • Сослаться на Backblaze в качестве источника, если вы решите использовать отчет.

  • Признать единоличную ответственность за то, как вы используете информацию из отчета. То есть не обвинять в дальнейшем Backblaze, если ее информация каким-то образом кому-то навредит.

  • Передавать информацию бесплатно, коммерческое использование исключено.

Мы планируем публиковать статистику компании примерно раз в полгода, чтобы держать вас в курсе. Будем надеяться, что ситуация улучшится.

Возможно, у вас или вашей компании есть собственная статистика? Если так, поделитесь информацией в комментариях — нам всем будет интересно!

Комментарии (4)


  1. ky0
    21.08.2024 14:22

    Без метрик "количество отказов на единицу прочитанной/записанной информации" сделать вывод, стали ли диски менее надёжными, нельзя.

    Если раньше диск ломался, условно, через год после чтения 10 петабайт, а сейчас начал ломаться через полгода после чтения 25 петабайт (а это вполне понятный тренд, учитывая увеличение ёмкости дисков) - то получается, что стало не хуже, а лучше.


    1. tuxi
      21.08.2024 14:22
      +1

      Но по факту, если раньше была 1 поломка в год, а сейчас например 2 - то стало хуже. И не важно сколько петабайт отдал/записал наш сервер, фактически важно только то, сколько раз и сколько времени сервер был не доступен. Разве нет?


      1. ky0
        21.08.2024 14:22

        Недоступность чего бы то ни было тут вообще не рассматривается, только HDD, единичные отказы которых компенсируются избыточными массивами.

        Если диск крутится, но по факту не используется - это работа вхолостую. Диск, целый год лопатящий данные под СУБД и диск, на который всё это время складываются бэкапы - это очень разные диски и мерять между ними "среднее по больнице" некорректно.


    1. N-Cube
      21.08.2024 14:22

      Это бред сивой кобылы, попросту говоря - интерфейсы не изменились, сервера не изменились, с какой стати и каким способом с новых дисков, установленных на замену в старую конфигурацию, может считываться кратно больше информации?