Backblaze: надежность жестких дисков продолжает падать / forpes.ru

Главная
Backblaze: надежность жестких дисков продолжает падать

Backblaze: надежность жестких дисков продолжает падать +7

21.08.2024 14:00

divolko3 34 9900 Источник

Привет, Хабр! На связи Даша из МТС, сегодня поговорим про жесткие диски. В феврале мы писали, что качество HDD снижается, причем это актуально для всех производителей. Судя по всему, тенденция сохраняется.

Провайдер облачных сервисов Backblaze продолжает публиковать статистику отказов жестких дисков. В эксплуатации у компании сотни тысяч HDD, так что ее выборка надежна. Работа разных моделей жестких дисков оставляет желать лучшего — улучшений нет. Но зачем вообще Backblaze собирает информацию по надежности HDD? В первую очередь для формирования стратегий замены и миграции HDD внутри своей инфраструктуры. Дальше — под катом.

Что происходит

Сейчас в распоряжении Backblaze находится около 285 тысяч жестких дисков, полгода назад было 250 тыс. Компания уже опубликовала результаты их эксплуатации.

Основное, на что нужно обращать внимание в таких отчетах, — годовая частота отказов (annualized fail rate, AFR). Компания использует этот показатель для измерения надежности как HDD, так и твердотельных накопителей. AFR означает вероятность выхода носителя в течение полного года его эксплуатации. Зависимость здесь обратная: чем выше AFR, тем ниже надежность.

Средний показатель AFR по итогам II квартала 2024 года составил 1,71%. В первом квартале этого года он равнялся 1,4%. Получается, надежность HDD снизилась. Падение не очень значительное, но оно есть. Тенденция характерна в основном для новых моделей: среди HDD прошлых лет ситуация получше. Есть носители, которые работают без проблем больше восьми лет.

Авторы отчета говорят, что есть и другая зависимость: чем больше емкость определенной модели, тем выше вероятность сбоя. Это объяснимо, ведь чем более емкий диск, тем сложнее его структура.

В статистику компании не входят модели, которых в распоряжении Backblaze не больше 100 штук. К тому же не учитываются носители, которые не накопили 10 000 суток работы в сумме за квартал. Но и без них в отчете достаточно данных — в итоговый результат вошли показатели 283 065 дисков.

Больше подробностей

Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604), чей AFR за отчетный период подскочил до 7,17%. Зато есть и лидеры, которые работают без сбоев: две модели от Seagate, 14 Тбайт ST14000NM000J и 16 Тбайт ST16000NM002J. За весь квартал ни один из них не засбоил. Правда, в распоряжении компании не так много этих дисков.

Самая старая модель, которая еще работает в стойках компании, — Seagate емкостью 4 Тбайт (ST4000DM000). Один из дисков этой модели на конец второго квартала проработал 9 лет 11 месяцев и 23 дня. Все HDD ST4000DM000 в ближайшее время хотят заменить на более современные HDD с большей емкостью. Это нужно для экономии полезного пространства, ведь чем больше емкость жестких дисков, тем выше плотность хранения данных.

Компания опубликовала не только таблицы, но и диаграммы, составленные на основе статистики сбоев жестких дисков. Ниже показана первая. Она отображает AFR для 14 моделей, средний возраст которых составляет 60 месяцев и менее. Почему именно столько? Это типичный гарантийный срок для жестких дисков корпоративного класса.

Интересно, что диски, которые попали в первый квадрант на первой диаграмме, описываются специалистами компании как хорошо работающие, с AFR менее 1,5%. Второй квадрант показывает характеристики дисков, которые работают в штатном режиме с AFR выше 1,5%. В третьем квадранте дисков пока нет из-за их «молодости», просто по ним еще мало информации. В четвертом же показаны новые HDD, проработавшие какое-то время. Сбоев среди них не так много.

На второй диаграмме — данные для моделей со средним возрастом больше 60 месяцев. Здесь в первом квадранте показаны хорошо работающие модели, во втором и третьем — HDD, которые вызывают беспокойство. В четвертом квадранте показана модель HDD, у нее пока нет проблем.

Наконец, третья диаграмма показывает частоту отказов за весь срок службы по девяти моделям старше 60 месяцев — для наглядности отсчет ведется с 24 месяцев. Здесь распределение проявляется по первому и второму квадранту. Надежнее всего модели с почти вертикальными линиями: красная, коричневая и фиолетовая.

HDD с увеличенным числом отказов показаны синей и серой лентой. Еще менее стабильные HDD — в третьем квадранте. И черная линия — совсем уж «уставшая» модель Seagate емкостью в 4 Тб. Тот самый «долгожитель», о котором я говорил выше.

Результаты отчета можно использовать, но с условием

Полная информация от Backblaze доступна по этой ссылке. Компания разрешает использовать результаты анализа в своих целях, но, как это было и раньше, нужно выполнить три условия:

Сослаться на Backblaze в качестве источника, если вы решите использовать отчет.
Признать единоличную ответственность за то, как вы используете информацию из отчета. То есть не обвинять в дальнейшем Backblaze, если ее информация каким-то образом кому-то навредит.
Передавать информацию бесплатно, коммерческое использование исключено.

Мы планируем публиковать статистику компании примерно раз в полгода, чтобы держать вас в курсе. Будем надеяться, что ситуация улучшится.

Возможно, у вас или вашей компании есть собственная статистика? Если так, поделитесь информацией в комментариях — нам всем будет интересно!

Комментарии (34)

ky0
21.08.2024 14:22
#27192088
+6
Без метрик "количество отказов на единицу прочитанной/записанной информации" сделать вывод, стали ли диски менее надёжными, нельзя.

Если раньше диск ломался, условно, через год после чтения 10 петабайт, а сейчас начал ломаться через полгода после чтения 25 петабайт (а это вполне понятный тренд, учитывая увеличение ёмкости дисков) - то получается, что стало не хуже, а лучше.
1. tuxi
  21.08.2024 14:22
  #27192136
  +6
  Но по факту, если раньше была 1 поломка в год, а сейчас например 2 - то стало хуже. И не важно сколько петабайт отдал/записал наш сервер, фактически важно только то, сколько раз и сколько времени сервер был не доступен. Разве нет?
  1. ky0
    21.08.2024 14:22
    #27192408
    +1
    Недоступность чего бы то ни было тут вообще не рассматривается, только HDD, единичные отказы которых компенсируются избыточными массивами.
    
    Если диск крутится, но по факту не используется - это работа вхолостую. Диск, целый год лопатящий данные под СУБД и диск, на который всё это время складываются бэкапы - это очень разные диски и мерять между ними "среднее по больнице" некорректно.
    
    N-Cube
    21.08.2024 14:22
    #27192800
    +3
    Прежде чем сочинять вот это все, прочитайте, о чем речь идет. Backblaze это облачный провайдер, у которого четверть миллиона дисков используются половиной миллиона клиентов, и на таких масштабах нагрузка распределяется практически равномерно между всеми дисками. Можете данные смарт для дисков скачать и проверить, все опубликовано.
    
    xSVPx
    21.08.2024 14:22
    #27192864
    +4
    В смысле "равномерно"?
    
    Год назад у них была одна емкость всех дисков, а теперь что, такая же ? Данных "перемололи" больше, обьем диска (средний) больше, отказов больше.
    
    Пока неясно больше отказов на единицу полезной работы или нет...
    
    ky0
    21.08.2024 14:22
    #27192894
    +1
    В статье, точнее, прямо в заголовке есть тезис - "диски стали менее надёжными". Кем высказывается этот тезис, равномерная ли у них нагрузка на разные диски - вообще не важно. Важна методика подсчёта.
    
    Мой контртезис - "мерять надёжность дисков продолжительностью срока службы в вакууме некорректно". Возможно, диски действительно стали менее надёжными - но чтобы подтвердить это, нужна дополнительная информация, которой в статье нету.
    
    rPman
    21.08.2024 14:22
    #27193724
    +2
    Вы издеваетесь? Там есть ссылка на гигабайтовые дампы в т.ч. с полями из smart, конкретно вас должны интересовать 241 и 242 поля (lba write/read), вот посмотрел первая же строчка из последнего csv, их raw значения 60957120592 и 1217526119807 и там все такие
    
    N-Cube
    21.08.2024 14:22
    #27194294
    В оригинале все есть, а ваши фантазии просто бессмысленные. Откройте данные смарт, вместо сочинения глупостей.
1. N-Cube
  21.08.2024 14:22
  #27192262
  Это бред сивой кобылы, попросту говоря - интерфейсы не изменились, сервера не изменились, с какой стати и каким способом с новых дисков, установленных на замену в старую конфигурацию, может считываться кратно больше информации?
  1. pnetmon
    21.08.2024 14:22
    #27192828
    Сервера не изменились, вот их использование могло измениться.
    
    Можно поставить диск для постоянных обращений, а можно поставить диск большого объема для хранения бэкапов на которые пишут эпизодически в течении дня, притом время работы у них может быть одинаково, а вот сама специфика разная.
    
    У них в таблице три модели дисков у которых средний срок меньше 7 месяцев с очень разной надежностью 0,00% 1,37% 4,15%
    
    Как и интересно выглядят Сигейты вверху модель маленькое количество 0,00%, а чуть ниже модель за 30 тысяч уже 0.83%
    
    N-Cube
    21.08.2024 14:22
    #27194276
    +2
    Четверть миллиона дисков, полмиллиона клиентов, все дисковые операции перемешиваются как можно равномернее в облачном сервисе, чтобы уменьшить износ оборудования и увеличить отзывчивость - а вы про какие-то отдельные диски для бекапов фантазируете. Вы думаете, что у облачных провайдеров сотня тысяч сотрудников бегает и четверть миллиона дисков для полмиллиона клиентов перетыкают руками так быстро, что пользователи ничего не замечают?:)
  1. xSVPx
    21.08.2024 14:22
    #27192878
    Почему вы решили, что конфигурация старая ? Раньше в этих отчетах были диски по 2-4тб, теперь по 10-12... Если три диска заменили одним и afr увеличился на 40%, то это лучше или хуже :)? Надежней стало или ненадежней ?
    
    N-Cube
    21.08.2024 14:22
    #27194266
    Что за ерунда - вы как в 5м рейде замените три диска на один?… А скорость чтения и записи данных от замены дисков не меняется, для рейдов зависит от интерфейса подключения и производительности контроллера. В итоге, количество записанной и прочитанной информации на один диск зависит только от того, куда его воткнут, и никак не зависит от объема диска.
    
    xSVPx
    21.08.2024 14:22
    #27194616
    +1
    Сколько данных было считано и записано со всех дисков за предыдущие полгода ? Сколько за последние ?
    
    Если это отношение скажем 1к2, а показатель отказов ,конкретных дисков увеличился на 20%, то надежность увеличилась или уменьшилась ?

win7_forever
21.08.2024 14:22
#27193838
+3
С уменьшением техпроцесса SSD тоже здоровей не становятся.
1. AlexM2001
  21.08.2024 14:22
  #27196982
  +2
  SSD как средство хранения ответственных данных, это для смелых)
  
  Если умирает, то практически гарантированно информацию теряет.
  
  В отличии от HDD. Где есть шанс частично данные восстановить.
  1. xSVPx
    21.08.2024 14:22
    #27200898
    Когда диск умирает лучше бы данные из бэкапов восстанавливать. А частично восстановленные часто вообще не нужны.
    
    Если данные ответственные, то должно быть много копий. Не две. И не три.
    
    AlexM2001
    21.08.2024 14:22
    #27201542
    Бекапы конечно хорошо. Когда они есть)))
    
    Когда можно частично восстановить данные, уже неплохо.
    
    Из тысячи фотографий например. Если 900 спасти удастся , уже очень хорошо.
    
    Свадебные фотографы не дадут соврать)

uranik
21.08.2024 14:22
#27195800
+2
Да, прошли те времена когда я без рейдов дома себя спокойно чувствовал.
1. vvzvlad
  21.08.2024 14:22
  #27196350
  +1
  В те времена, когда я себя спокойно чувствовал без рейдов, я был молодым и глупым. Две потери данных спустя это исправилось.
  1. Didimus
    21.08.2024 14:22
    #27198616
    Рейд дома это только лишние точки отказа. Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.
    
    Дома нужен холодный бэкап и онлайн-бэкап в облако. Если вам это не подходит, то вы не дома, а на производстве.
    
    vvzvlad
    21.08.2024 14:22
    #27200036
    +1
    Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.
    
    Ага, а можно подумать, что когда умирает единственный диск, данные вытаскиваются гораздо проще? Кроме того, это какое-то странное зеркало, если из него данные с трудом вытаскиваются. Может вы его готовить не умеете?
    
    Рейд не заменяет бекапа и бекап не заменяет рейда. Рейд — это способ пережить отказ оборудования. Если у меня разваливается зеркало, я даже не замечаю перебоев кроме сообщения на почте о деградации рейда и просто могу заменить диск.
    
    Didimus
    21.08.2024 14:22
    #27200098
    Так сломался не диск, а массив. Предлагалось только пересобрать его, тк degraded
    
    xSVPx
    21.08.2024 14:22
    #27200904
    Погодите, но ведь mirror по факту два одинаковых диска, любой из которых можно из рейда вынуть, куда-то воткнуть и он будет работать...
    
    Didimus
    21.08.2024 14:22
    #27201228
    Нет, так не работает. Это только на дорогих промышленных контроллерах так, а на домашних это реализуется драйверами контроллера обычно. Он может просто так однажды сказать "я развалился" и больше ничего сделать нельзя, так как диск размечен нестандартно. Приходится снимать файлы с помощью PC-3000, например
    
    uranik
    21.08.2024 14:22
    #27201262
    На домашних обычно хватает программного рейда 1, что на винде, что на линуксе, чтобы он развалился и не собрался это очень удивительно.
    
    Didimus
    21.08.2024 14:22
    #27201762
    А виндоус сможет загрузиться с такой конфигурации?
    
    xSVPx
    21.08.2024 14:22
    #27202206
    Ктож копию дистрибутива будет на дорогостоящих продублированных массивах хранить ? Аптайм дома не нужен...
    
    xSVPx
    21.08.2024 14:22
    #27201396
    Так зачем вам аппаратный то ? Программный же можно сделать.
    
    Что-то пропиетарное - это да "грусть-тоска" :(.

andrewzhuk
21.08.2024 14:22
#27196184
Похоже западные коллеги просто они наняли консалтинговую компанию (любителей квадрантов), чтобы оправдать определенные акценты в закупках. В целом в комбинации с ценой и обьемами поставок надо смотреть это все

SunTechnik
21.08.2024 14:22
#27197210
> Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604)

А Seagate на 12ТВ чем лучше? Его AFR вообще больше 11.

ksv_ksv
21.08.2024 14:22
#27198102
Имел небольшой опыт (в плане количества дисков) но длительный по времени использований HDD в системах видеонаблюдения примерно с середины 2000-х. На начальном этапе из опыта применения несомненно лидировали диски Seagate, количество отказов было ну очень небольшим, среднее время на отказ точно было не меньше 5-и лет. В какой-то момент, примерно году в 2013-2014 качество дисков просто сильно упала, в том плане, что при единицах закупленных дисков, часть менялось еще на этапе гарантийного срока. В это время как раз ушла Fujitsu (вот чьи диски вообще не использовал). Возможно падение качества связано с этим, возможно с цунами, когда часть производств вообще закрылась на несколько месяцев, гадать тут сложно. В этот момент стал использовать WDC диски. К удивлению качество оказалось на уровне, ну и использовались модели с 5400 об/с. Кстати, в третьем графике модели WDC вообще не представлены, что может говорить о некоторой предвзятости статьи.

Касательно модели Seagate c 0% процентом отказа, по моему скромному мнению, выборка немного нерепрезантитвна (100+ единиц) и срок менее 2-х лет. Единичный отказ приведет к резкому скачку данной статистики. Так что надо быть внимательным к деталям, и сразу станет понятно, кто оплачивает статистику)
1. Didimus
  21.08.2024 14:22
  #27200126
  Судя по статье, сигейи самые проблемные
  1. AlexM2001
    21.08.2024 14:22
    #27201544
    Никогда такого не было, и вот снова (С)