Привет, Хабр! На связи Даша из МТС, сегодня поговорим про жесткие диски. В феврале мы писали, что качество HDD снижается, причем это актуально для всех производителей. Судя по всему, тенденция сохраняется.
Провайдер облачных сервисов Backblaze продолжает публиковать статистику отказов жестких дисков. В эксплуатации у компании сотни тысяч HDD, так что ее выборка надежна. Работа разных моделей жестких дисков оставляет желать лучшего — улучшений нет. Но зачем вообще Backblaze собирает информацию по надежности HDD? В первую очередь для формирования стратегий замены и миграции HDD внутри своей инфраструктуры. Дальше — под катом.
Что происходит
Сейчас в распоряжении Backblaze находится около 285 тысяч жестких дисков, полгода назад было 250 тыс. Компания уже опубликовала результаты их эксплуатации.
Основное, на что нужно обращать внимание в таких отчетах, — годовая частота отказов (annualized fail rate, AFR). Компания использует этот показатель для измерения надежности как HDD, так и твердотельных накопителей. AFR означает вероятность выхода носителя в течение полного года его эксплуатации. Зависимость здесь обратная: чем выше AFR, тем ниже надежность.
Средний показатель AFR по итогам II квартала 2024 года составил 1,71%. В первом квартале этого года он равнялся 1,4%. Получается, надежность HDD снизилась. Падение не очень значительное, но оно есть. Тенденция характерна в основном для новых моделей: среди HDD прошлых лет ситуация получше. Есть носители, которые работают без проблем больше восьми лет.
Авторы отчета говорят, что есть и другая зависимость: чем больше емкость определенной модели, тем выше вероятность сбоя. Это объяснимо, ведь чем более емкий диск, тем сложнее его структура.
В статистику компании не входят модели, которых в распоряжении Backblaze не больше 100 штук. К тому же не учитываются носители, которые не накопили 10 000 суток работы в сумме за квартал. Но и без них в отчете достаточно данных — в итоговый результат вошли показатели 283 065 дисков.
Больше подробностей
Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604), чей AFR за отчетный период подскочил до 7,17%. Зато есть и лидеры, которые работают без сбоев: две модели от Seagate, 14 Тбайт ST14000NM000J и 16 Тбайт ST16000NM002J. За весь квартал ни один из них не засбоил. Правда, в распоряжении компании не так много этих дисков.
Самая старая модель, которая еще работает в стойках компании, — Seagate емкостью 4 Тбайт (ST4000DM000). Один из дисков этой модели на конец второго квартала проработал 9 лет 11 месяцев и 23 дня. Все HDD ST4000DM000 в ближайшее время хотят заменить на более современные HDD с большей емкостью. Это нужно для экономии полезного пространства, ведь чем больше емкость жестких дисков, тем выше плотность хранения данных.
Компания опубликовала не только таблицы, но и диаграммы, составленные на основе статистики сбоев жестких дисков. Ниже показана первая. Она отображает AFR для 14 моделей, средний возраст которых составляет 60 месяцев и менее. Почему именно столько? Это типичный гарантийный срок для жестких дисков корпоративного класса.
Интересно, что диски, которые попали в первый квадрант на первой диаграмме, описываются специалистами компании как хорошо работающие, с AFR менее 1,5%. Второй квадрант показывает характеристики дисков, которые работают в штатном режиме с AFR выше 1,5%. В третьем квадранте дисков пока нет из-за их «молодости», просто по ним еще мало информации. В четвертом же показаны новые HDD, проработавшие какое-то время. Сбоев среди них не так много.
На второй диаграмме — данные для моделей со средним возрастом больше 60 месяцев. Здесь в первом квадранте показаны хорошо работающие модели, во втором и третьем — HDD, которые вызывают беспокойство. В четвертом квадранте показана модель HDD, у нее пока нет проблем.
Наконец, третья диаграмма показывает частоту отказов за весь срок службы по девяти моделям старше 60 месяцев — для наглядности отсчет ведется с 24 месяцев. Здесь распределение проявляется по первому и второму квадранту. Надежнее всего модели с почти вертикальными линиями: красная, коричневая и фиолетовая.
HDD с увеличенным числом отказов показаны синей и серой лентой. Еще менее стабильные HDD — в третьем квадранте. И черная линия — совсем уж «уставшая» модель Seagate емкостью в 4 Тб. Тот самый «долгожитель», о котором я говорил выше.
Результаты отчета можно использовать, но с условием
Полная информация от Backblaze доступна по этой ссылке. Компания разрешает использовать результаты анализа в своих целях, но, как это было и раньше, нужно выполнить три условия:
Сослаться на Backblaze в качестве источника, если вы решите использовать отчет.
Признать единоличную ответственность за то, как вы используете информацию из отчета. То есть не обвинять в дальнейшем Backblaze, если ее информация каким-то образом кому-то навредит.
Передавать информацию бесплатно, коммерческое использование исключено.
Мы планируем публиковать статистику компании примерно раз в полгода, чтобы держать вас в курсе. Будем надеяться, что ситуация улучшится.
Возможно, у вас или вашей компании есть собственная статистика? Если так, поделитесь информацией в комментариях — нам всем будет интересно!
Комментарии (34)
win7_forever
21.08.2024 14:22+3С уменьшением техпроцесса SSD тоже здоровей не становятся.
AlexM2001
21.08.2024 14:22+2SSD как средство хранения ответственных данных, это для смелых)
Если умирает, то практически гарантированно информацию теряет.
В отличии от HDD. Где есть шанс частично данные восстановить.
xSVPx
21.08.2024 14:22Когда диск умирает лучше бы данные из бэкапов восстанавливать. А частично восстановленные часто вообще не нужны.
Если данные ответственные, то должно быть много копий. Не две. И не три.
AlexM2001
21.08.2024 14:22Бекапы конечно хорошо. Когда они есть)))
Когда можно частично восстановить данные, уже неплохо.
Из тысячи фотографий например. Если 900 спасти удастся , уже очень хорошо.
Свадебные фотографы не дадут соврать)
uranik
21.08.2024 14:22+2Да, прошли те времена когда я без рейдов дома себя спокойно чувствовал.
vvzvlad
21.08.2024 14:22+1В те времена, когда я себя спокойно чувствовал без рейдов, я был молодым и глупым. Две потери данных спустя это исправилось.
Didimus
21.08.2024 14:22Рейд дома это только лишние точки отказа. Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.
Дома нужен холодный бэкап и онлайн-бэкап в облако. Если вам это не подходит, то вы не дома, а на производстве.
vvzvlad
21.08.2024 14:22+1Когда у меня развалилось зеркало, было очень сложно вытащить данные с выжившего диска.
Ага, а можно подумать, что когда умирает единственный диск, данные вытаскиваются гораздо проще? Кроме того, это какое-то странное зеркало, если из него данные с трудом вытаскиваются. Может вы его готовить не умеете?
Рейд не заменяет бекапа и бекап не заменяет рейда. Рейд — это способ пережить отказ оборудования. Если у меня разваливается зеркало, я даже не замечаю перебоев кроме сообщения на почте о деградации рейда и просто могу заменить диск.
Didimus
21.08.2024 14:22Так сломался не диск, а массив. Предлагалось только пересобрать его, тк degraded
xSVPx
21.08.2024 14:22Погодите, но ведь mirror по факту два одинаковых диска, любой из которых можно из рейда вынуть, куда-то воткнуть и он будет работать...
Didimus
21.08.2024 14:22Нет, так не работает. Это только на дорогих промышленных контроллерах так, а на домашних это реализуется драйверами контроллера обычно. Он может просто так однажды сказать "я развалился" и больше ничего сделать нельзя, так как диск размечен нестандартно. Приходится снимать файлы с помощью PC-3000, например
uranik
21.08.2024 14:22На домашних обычно хватает программного рейда 1, что на винде, что на линуксе, чтобы он развалился и не собрался это очень удивительно.
xSVPx
21.08.2024 14:22Так зачем вам аппаратный то ? Программный же можно сделать.
Что-то пропиетарное - это да "грусть-тоска" :(.
andrewzhuk
21.08.2024 14:22Похоже западные коллеги просто они наняли консалтинговую компанию (любителей квадрантов), чтобы оправдать определенные акценты в закупках. В целом в комбинации с ценой и обьемами поставок надо смотреть это все
SunTechnik
21.08.2024 14:22> Хуже всех показала себя модель HGST емкостью 12 Тбайт (HUH721212ALN604)
А Seagate на 12ТВ чем лучше? Его AFR вообще больше 11.
ksv_ksv
21.08.2024 14:22Имел небольшой опыт (в плане количества дисков) но длительный по времени использований HDD в системах видеонаблюдения примерно с середины 2000-х. На начальном этапе из опыта применения несомненно лидировали диски Seagate, количество отказов было ну очень небольшим, среднее время на отказ точно было не меньше 5-и лет. В какой-то момент, примерно году в 2013-2014 качество дисков просто сильно упала, в том плане, что при единицах закупленных дисков, часть менялось еще на этапе гарантийного срока. В это время как раз ушла Fujitsu (вот чьи диски вообще не использовал). Возможно падение качества связано с этим, возможно с цунами, когда часть производств вообще закрылась на несколько месяцев, гадать тут сложно. В этот момент стал использовать WDC диски. К удивлению качество оказалось на уровне, ну и использовались модели с 5400 об/с. Кстати, в третьем графике модели WDC вообще не представлены, что может говорить о некоторой предвзятости статьи.
Касательно модели Seagate c 0% процентом отказа, по моему скромному мнению, выборка немного нерепрезантитвна (100+ единиц) и срок менее 2-х лет. Единичный отказ приведет к резкому скачку данной статистики. Так что надо быть внимательным к деталям, и сразу станет понятно, кто оплачивает статистику)
ky0
Без метрик "количество отказов на единицу прочитанной/записанной информации" сделать вывод, стали ли диски менее надёжными, нельзя.
Если раньше диск ломался, условно, через год после чтения 10 петабайт, а сейчас начал ломаться через полгода после чтения 25 петабайт (а это вполне понятный тренд, учитывая увеличение ёмкости дисков) - то получается, что стало не хуже, а лучше.
tuxi
Но по факту, если раньше была 1 поломка в год, а сейчас например 2 - то стало хуже. И не важно сколько петабайт отдал/записал наш сервер, фактически важно только то, сколько раз и сколько времени сервер был не доступен. Разве нет?
ky0
Недоступность чего бы то ни было тут вообще не рассматривается, только HDD, единичные отказы которых компенсируются избыточными массивами.
Если диск крутится, но по факту не используется - это работа вхолостую. Диск, целый год лопатящий данные под СУБД и диск, на который всё это время складываются бэкапы - это очень разные диски и мерять между ними "среднее по больнице" некорректно.
N-Cube
Прежде чем сочинять вот это все, прочитайте, о чем речь идет. Backblaze это облачный провайдер, у которого четверть миллиона дисков используются половиной миллиона клиентов, и на таких масштабах нагрузка распределяется практически равномерно между всеми дисками. Можете данные смарт для дисков скачать и проверить, все опубликовано.
xSVPx
В смысле "равномерно"?
Год назад у них была одна емкость всех дисков, а теперь что, такая же ? Данных "перемололи" больше, обьем диска (средний) больше, отказов больше.
Пока неясно больше отказов на единицу полезной работы или нет...
ky0
В статье, точнее, прямо в заголовке есть тезис - "диски стали менее надёжными". Кем высказывается этот тезис, равномерная ли у них нагрузка на разные диски - вообще не важно. Важна методика подсчёта.
Мой контртезис - "мерять надёжность дисков продолжительностью срока службы в вакууме некорректно". Возможно, диски действительно стали менее надёжными - но чтобы подтвердить это, нужна дополнительная информация, которой в статье нету.
rPman
Вы издеваетесь? Там есть ссылка на гигабайтовые дампы в т.ч. с полями из smart, конкретно вас должны интересовать 241 и 242 поля (lba write/read), вот посмотрел первая же строчка из последнего csv, их raw значения 60957120592 и 1217526119807 и там все такие
N-Cube
В оригинале все есть, а ваши фантазии просто бессмысленные. Откройте данные смарт, вместо сочинения глупостей.
N-Cube
Это бред сивой кобылы, попросту говоря - интерфейсы не изменились, сервера не изменились, с какой стати и каким способом с новых дисков, установленных на замену в старую конфигурацию, может считываться кратно больше информации?
pnetmon
Сервера не изменились, вот их использование могло измениться.
Можно поставить диск для постоянных обращений, а можно поставить диск большого объема для хранения бэкапов на которые пишут эпизодически в течении дня, притом время работы у них может быть одинаково, а вот сама специфика разная.
У них в таблице три модели дисков у которых средний срок меньше 7 месяцев с очень разной надежностью 0,00% 1,37% 4,15%
Как и интересно выглядят Сигейты вверху модель маленькое количество 0,00%, а чуть ниже модель за 30 тысяч уже 0.83%
N-Cube
Четверть миллиона дисков, полмиллиона клиентов, все дисковые операции перемешиваются как можно равномернее в облачном сервисе, чтобы уменьшить износ оборудования и увеличить отзывчивость - а вы про какие-то отдельные диски для бекапов фантазируете. Вы думаете, что у облачных провайдеров сотня тысяч сотрудников бегает и четверть миллиона дисков для полмиллиона клиентов перетыкают руками так быстро, что пользователи ничего не замечают?:)
xSVPx
Почему вы решили, что конфигурация старая ? Раньше в этих отчетах были диски по 2-4тб, теперь по 10-12... Если три диска заменили одним и afr увеличился на 40%, то это лучше или хуже :)? Надежней стало или ненадежней ?
N-Cube
Что за ерунда - вы как в 5м рейде замените три диска на один?… А скорость чтения и записи данных от замены дисков не меняется, для рейдов зависит от интерфейса подключения и производительности контроллера. В итоге, количество записанной и прочитанной информации на один диск зависит только от того, куда его воткнут, и никак не зависит от объема диска.
xSVPx
Сколько данных было считано и записано со всех дисков за предыдущие полгода ? Сколько за последние ?
Если это отношение скажем 1к2, а показатель отказов ,конкретных дисков увеличился на 20%, то надежность увеличилась или уменьшилась ?