Привет, Хабр! На связи Даша из МТС, сегодня поговорим про жесткие диски. В феврале мы писали, что качество HDD снижается, причем это актуально для всех производителей. Судя по всему, тенденция сохраняется.

Провайдер облачных сервисов Backblaze продолжает публиковать статистику отказов жестких дисков. В эксплуатации у компании сотни тысяч HDD, так что ее выборка надежна. Работа разных моделей жестких дисков оставляет желать лучшего — улучшений нет. Но зачем вообще Backblaze собирает информацию по надежности HDD? В первую очередь для формирования стратегий замены и миграции HDD внутри своей инфраструктуры. Дальше — под катом.

Что происходит  

Сейчас в распоряжении Backblaze находится около 285 тысяч жестких дисков, полгода назад было 250 тыс. Компания уже опубликовала результаты их эксплуатации.

Основное, на что нужно обращать внимание в таких отчетах, — годовая частота отказов  (annualized fail rate, AFR). Компания использует этот показатель для измерения надежности как HDD, так и твердотельных накопителей. AFR означает вероятность выхода носителя в течение полного года его эксплуатации. Зависимость здесь обратная: чем выше AFR, тем ниже надежность.

Средний показатель AFR по итогам II квартала 2024 года составил 1,71%. В первом квартале этого года он равнялся 1,4%. Получается, надежность HDD снизилась. Падение не очень значительное, но оно есть. Тенденция характерна в основном для новых моделей: среди HDD прошлых лет ситуация получше. Есть носители, которые работают без проблем больше восьми лет.

Авторы отчета говорят, что есть и другая зависимость: чем больше емкость определенной модели, тем выше вероятность сбоя. Это объяснимо, ведь чем более емкий диск, тем сложнее его структура.

В статистику компании не входят модели, которых в распоряжении Backblaze не больше 100 штук. К тому же не учитываются носители, которые не накопили 10 000 суток работы в сумме за квартал. Но и без них в отчете достаточно данных — в итоговый результат вошли показатели 283 065 дисков.

Больше подробностей

Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604), чей AFR за отчетный период подскочил до 7,17%. Зато есть и лидеры, которые работают без сбоев: две модели от Seagate, 14 Тбайт ST14000NM000J и 16 Тбайт ST16000NM002J. За весь квартал ни один из них не засбоил. Правда, в распоряжении компании не так много этих дисков.

Самая старая модель, которая еще работает в стойках компании, — Seagate емкостью 4 Тбайт (ST4000DM000). Один из дисков этой модели на конец второго квартала проработал 9 лет 11 месяцев и 23 дня. Все HDD ST4000DM000 в ближайшее время хотят заменить на более современные HDD с большей емкостью. Это нужно для экономии полезного пространства, ведь чем больше емкость жестких дисков, тем выше плотность хранения данных.

Компания опубликовала не только таблицы, но и диаграммы, составленные на основе статистики сбоев жестких дисков. Ниже показана первая. Она отображает AFR для 14 моделей, средний возраст которых составляет 60 месяцев и менее. Почему именно столько? Это типичный гарантийный срок для жестких дисков корпоративного класса.

Интересно, что диски, которые попали в первый квадрант на первой диаграмме, описываются специалистами компании как хорошо работающие, с AFR менее 1,5%. Второй квадрант показывает характеристики дисков, которые работают в штатном режиме с AFR выше 1,5%. В третьем квадранте дисков пока нет из-за их «молодости», просто по ним еще мало информации. В четвертом же показаны новые HDD, проработавшие какое-то время. Сбоев среди них не так много.

На второй диаграмме — данные для моделей со средним возрастом больше 60 месяцев. Здесь в первом квадранте показаны хорошо работающие модели, во втором и третьем — HDD, которые вызывают беспокойство. В четвертом квадранте показана модель HDD, у нее пока нет проблем.

Наконец, третья диаграмма показывает частоту отказов за весь срок службы по девяти моделям старше 60 месяцев — для наглядности отсчет ведется с 24 месяцев. Здесь распределение проявляется по первому и второму квадранту. Надежнее всего модели с почти вертикальными линиями: красная, коричневая и фиолетовая.

HDD с увеличенным числом отказов показаны синей и серой лентой. Еще менее стабильные HDD — в третьем квадранте. И черная линия — совсем уж «уставшая» модель Seagate емкостью в 4 Тб. Тот самый «долгожитель», о котором я говорил выше.

Результаты отчета можно использовать, но с условием

Полная информация от Backblaze доступна по этой ссылке. Компания разрешает использовать результаты анализа в своих целях, но, как это было и раньше, нужно выполнить три условия:

  • Сослаться на Backblaze в качестве источника, если вы решите использовать отчет.

  • Признать единоличную ответственность за то, как вы используете информацию из отчета. То есть не обвинять в дальнейшем Backblaze, если ее информация каким-то образом кому-то навредит.

  • Передавать информацию бесплатно, коммерческое использование исключено.

Мы планируем публиковать статистику компании примерно раз в полгода, чтобы держать вас в курсе. Будем надеяться, что ситуация улучшится.

Возможно, у вас или вашей компании есть собственная статистика? Если так, поделитесь информацией в комментариях — нам всем будет интересно!

Комментарии (34)


  1. ky0
    21.08.2024 14:22
    +6

    Без метрик "количество отказов на единицу прочитанной/записанной информации" сделать вывод, стали ли диски менее надёжными, нельзя.

    Если раньше диск ломался, условно, через год после чтения 10 петабайт, а сейчас начал ломаться через полгода после чтения 25 петабайт (а это вполне понятный тренд, учитывая увеличение ёмкости дисков) - то получается, что стало не хуже, а лучше.


    1. tuxi
      21.08.2024 14:22
      +6

      Но по факту, если раньше была 1 поломка в год, а сейчас например 2 - то стало хуже. И не важно сколько петабайт отдал/записал наш сервер, фактически важно только то, сколько раз и сколько времени сервер был не доступен. Разве нет?


      1. ky0
        21.08.2024 14:22
        +1

        Недоступность чего бы то ни было тут вообще не рассматривается, только HDD, единичные отказы которых компенсируются избыточными массивами.

        Если диск крутится, но по факту не используется - это работа вхолостую. Диск, целый год лопатящий данные под СУБД и диск, на который всё это время складываются бэкапы - это очень разные диски и мерять между ними "среднее по больнице" некорректно.


        1. N-Cube
          21.08.2024 14:22
          +3

          Прежде чем сочинять вот это все, прочитайте, о чем речь идет. Backblaze это облачный провайдер, у которого четверть миллиона дисков используются половиной миллиона клиентов, и на таких масштабах нагрузка распределяется практически равномерно между всеми дисками. Можете данные смарт для дисков скачать и проверить, все опубликовано.


          1. xSVPx
            21.08.2024 14:22
            +4

            В смысле "равномерно"?

            Год назад у них была одна емкость всех дисков, а теперь что, такая же ? Данных "перемололи" больше, обьем диска (средний) больше, отказов больше.

            Пока неясно больше отказов на единицу полезной работы или нет...


          1. ky0
            21.08.2024 14:22
            +1

            В статье, точнее, прямо в заголовке есть тезис - "диски стали менее надёжными". Кем высказывается этот тезис, равномерная ли у них нагрузка на разные диски - вообще не важно. Важна методика подсчёта.

            Мой контртезис - "мерять надёжность дисков продолжительностью срока службы в вакууме некорректно". Возможно, диски действительно стали менее надёжными - но чтобы подтвердить это, нужна дополнительная информация, которой в статье нету.


            1. rPman
              21.08.2024 14:22
              +2

              Вы издеваетесь? Там есть ссылка на гигабайтовые дампы в т.ч. с полями из smart, конкретно вас должны интересовать 241 и 242 поля (lba write/read), вот посмотрел первая же строчка из последнего csv, их raw значения 60957120592 и 1217526119807 и там все такие


            1. N-Cube
              21.08.2024 14:22

              В оригинале все есть, а ваши фантазии просто бессмысленные. Откройте данные смарт, вместо сочинения глупостей.


    1. N-Cube
      21.08.2024 14:22

      Это бред сивой кобылы, попросту говоря - интерфейсы не изменились, сервера не изменились, с какой стати и каким способом с новых дисков, установленных на замену в старую конфигурацию, может считываться кратно больше информации?


      1. pnetmon
        21.08.2024 14:22

        Сервера не изменились, вот их использование могло измениться.

        Можно поставить диск для постоянных обращений, а можно поставить диск большого объема для хранения бэкапов на которые пишут эпизодически в течении дня, притом время работы у них может быть одинаково, а вот сама специфика разная.

        У них в таблице три модели дисков у которых средний срок меньше 7 месяцев с очень разной надежностью 0,00% 1,37% 4,15%

        Как и интересно выглядят Сигейты вверху модель маленькое количество 0,00%, а чуть ниже модель за 30 тысяч уже 0.83%


        1. N-Cube
          21.08.2024 14:22
          +2

          Четверть миллиона дисков, полмиллиона клиентов, все дисковые операции перемешиваются как можно равномернее в облачном сервисе, чтобы уменьшить износ оборудования и увеличить отзывчивость - а вы про какие-то отдельные диски для бекапов фантазируете. Вы думаете, что у облачных провайдеров сотня тысяч сотрудников бегает и четверть миллиона дисков для полмиллиона клиентов перетыкают руками так быстро, что пользователи ничего не замечают?:)


      1. xSVPx
        21.08.2024 14:22

        Почему вы решили, что конфигурация старая ? Раньше в этих отчетах были диски по 2-4тб, теперь по 10-12... Если три диска заменили одним и afr увеличился на 40%, то это лучше или хуже :)? Надежней стало или ненадежней ?


        1. N-Cube
          21.08.2024 14:22

          Что за ерунда - вы как в 5м рейде замените три диска на один?… А скорость чтения и записи данных от замены дисков не меняется, для рейдов зависит от интерфейса подключения и производительности контроллера. В итоге, количество записанной и прочитанной информации на один диск зависит только от того, куда его воткнут, и никак не зависит от объема диска.


          1. xSVPx
            21.08.2024 14:22
            +1

            Сколько данных было считано и записано со всех дисков за предыдущие полгода ? Сколько за последние ?

            Если это отношение скажем 1к2, а показатель отказов ,конкретных дисков увеличился на 20%, то надежность увеличилась или уменьшилась ?


  1. win7_forever
    21.08.2024 14:22
    +3

    С уменьшением техпроцесса SSD тоже здоровей не становятся.


    1. AlexM2001
      21.08.2024 14:22
      +2

      SSD как средство хранения ответственных данных, это для смелых)

      Если умирает, то практически гарантированно информацию теряет.

      В отличии от HDD. Где есть шанс частично данные восстановить.


      1. xSVPx
        21.08.2024 14:22

        Когда диск умирает лучше бы данные из бэкапов восстанавливать. А частично восстановленные часто вообще не нужны.

        Если данные ответственные, то должно быть много копий. Не две. И не три.


        1. AlexM2001
          21.08.2024 14:22

          Бекапы конечно хорошо. Когда они есть)))

          Когда можно частично восстановить данные, уже неплохо.

          Из тысячи фотографий например. Если 900 спасти удастся , уже очень хорошо.

          Свадебные фотографы не дадут соврать)


  1. uranik
    21.08.2024 14:22
    +2

    Да, прошли те времена когда я без рейдов дома себя спокойно чувствовал.


    1. vvzvlad
      21.08.2024 14:22
      +1

      В те времена, когда я себя спокойно чувствовал без рейдов, я был молодым и глупым. Две потери данных спустя это исправилось.


      1. Didimus
        21.08.2024 14:22

        Рейд дома это только лишние точки отказа. Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.

        Дома нужен холодный бэкап и онлайн-бэкап в облако. Если вам это не подходит, то вы не дома, а на производстве.


        1. vvzvlad
          21.08.2024 14:22
          +1

          Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.

          Ага, а можно подумать, что когда умирает единственный диск, данные вытаскиваются гораздо проще? Кроме того, это какое-то странное зеркало, если из него данные с трудом вытаскиваются. Может вы его готовить не умеете?

          Рейд не заменяет бекапа и бекап не заменяет рейда. Рейд — это способ пережить отказ оборудования. Если у меня разваливается зеркало, я даже не замечаю перебоев кроме сообщения на почте о деградации рейда и просто могу заменить диск.


          1. Didimus
            21.08.2024 14:22

            Так сломался не диск, а массив. Предлагалось только пересобрать его, тк degraded


            1. xSVPx
              21.08.2024 14:22

              Погодите, но ведь mirror по факту два одинаковых диска, любой из которых можно из рейда вынуть, куда-то воткнуть и он будет работать...


              1. Didimus
                21.08.2024 14:22

                Нет, так не работает. Это только на дорогих промышленных контроллерах так, а на домашних это реализуется драйверами контроллера обычно. Он может просто так однажды сказать "я развалился" и больше ничего сделать нельзя, так как диск размечен нестандартно. Приходится снимать файлы с помощью PC-3000, например


                1. uranik
                  21.08.2024 14:22

                  На домашних обычно хватает программного рейда 1, что на винде, что на линуксе, чтобы он развалился и не собрался это очень удивительно.


                  1. Didimus
                    21.08.2024 14:22

                    А виндоус сможет загрузиться с такой конфигурации?


                    1. xSVPx
                      21.08.2024 14:22

                      Ктож копию дистрибутива будет на дорогостоящих продублированных массивах хранить ? Аптайм дома не нужен...


                1. xSVPx
                  21.08.2024 14:22

                  Так зачем вам аппаратный то ? Программный же можно сделать.

                  Что-то пропиетарное - это да "грусть-тоска" :(.


  1. andrewzhuk
    21.08.2024 14:22

    Похоже западные коллеги просто они наняли консалтинговую компанию (любителей квадрантов), чтобы оправдать определенные акценты в закупках. В целом в комбинации с ценой и обьемами поставок надо смотреть это все


  1. SunTechnik
    21.08.2024 14:22

    > Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604)

    А Seagate на 12ТВ чем лучше? Его AFR вообще больше 11.


  1. ksv_ksv
    21.08.2024 14:22

    Имел небольшой опыт (в плане количества дисков) но длительный по времени использований HDD в системах видеонаблюдения примерно с середины 2000-х. На начальном этапе из опыта применения несомненно лидировали диски Seagate, количество отказов было ну очень небольшим, среднее время на отказ точно было не меньше 5-и лет. В какой-то момент, примерно году в 2013-2014 качество дисков просто сильно упала, в том плане, что при единицах закупленных дисков, часть менялось еще на этапе гарантийного срока. В это время как раз ушла Fujitsu (вот чьи диски вообще не использовал). Возможно падение качества связано с этим, возможно с цунами, когда часть производств вообще закрылась на несколько месяцев, гадать тут сложно. В этот момент стал использовать WDC диски. К удивлению качество оказалось на уровне, ну и использовались модели с 5400 об/с. Кстати, в третьем графике модели WDC вообще не представлены, что может говорить о некоторой предвзятости статьи.

    Касательно модели Seagate c 0% процентом отказа, по моему скромному мнению, выборка немного нерепрезантитвна (100+ единиц) и срок менее 2-х лет. Единичный отказ приведет к резкому скачку данной статистики. Так что надо быть внимательным к деталям, и сразу станет понятно, кто оплачивает статистику)


    1. Didimus
      21.08.2024 14:22

      Судя по статье, сигейи самые проблемные


      1. AlexM2001
        21.08.2024 14:22

        Никогда такого не было, и вот снова (С)