Отчёт Backblaze по надёжности HDD: статистика с 2013 по 2017 год / forpes.ru

Главная
Отчёт Backblaze по надёжности HDD: статистика с 2013 по 2017 год

Отчёт Backblaze по надёжности HDD: статистика с 2013 по 2017 год +33

02.02.2018 16:34

marks 47 17000 Источник

Компания Backblaze начиная с 2013 года ведет статистику эксплуатации жестких дисков в своих дата-центрах. Специалисты следят, какие диски работают без отказов и сбоев в течение какого времени. Ведется также анализ надежности HDD разных производителей. В базу данных включают дату производства диска, производителя, модель, серийный номер, статус (рабочий ли диск или умерший), а также SMART-атрибуты, которые сообщает сам диск. К концу 2017 года в базе данных накопилось около 88 миллионов объектов. Размер БД составляет 23 ГБ. Загрузить ее можно с сайта компании — вот здесь.

В новом отчете указываются данные по эксплуатации HDD за 2017 году. На момент составления документа в дата-центрах компании работало 91 305 винчестеров. Отчет можно просмотреть за разные периоды времени, включая каждый квартал по отдельности или же информацию за целый год.

На конец четвертого квартала 2017 года компания вела мониторинг 91 305 дисков. Для повышения точности отчета была удалена информация о тестовых моделях жестких дисков, также не учитываются модели, которых у компании меньше 45 экземпляров. В итоге осталось 91 243 диска.

Компания дает несколько разъяснений по таблице:

Процент отказов дан лишь за четвертый квартал прошлого года. Если у какой-либо модели HDD указан процент отказов 0%, это означает, что за четвертый квартал проблем с дисками не было;
Как уже говорилось выше, 62 диска не учитывается, поскольку количество моделей слишком мало для получения сколь-нибудь надежной статистики;
Квартальные показатели отказов могут отличаться, особенно для тех моделей, число экземпляров которых не слишком велико, либо же они используются относительно недолго. К примеру, для Seagate 4 ТБ, модель ST4000DM005 процент отказов составил 29,08%. Но это не значит, что диски такого типа чрезвычайно ненадежны. Их просто в компании мало, данные основаны на 1255 диско-днях и всего 1 отказе.

В 2017 году компания добавила много новых моделей винчестеров, заменив дисками большего объема в 8, 10 и 12 ТБ модели меньшего — 2,3 и 4 ТБ. Эти изменения отображены на диаграмме ниже.

Всего добавлено 25746 новых дисков. Из эксплуатации выведено 6442 диска. В итоге объем файлового пространства увеличился на 211 петабайт (добавлено HDD общим объемом в 230 петабайт и убрано дисков на 10 петабайт).

Ниже показана полная статистика для HDD, которые остались в рабочем состоянии на момент четвертого квартала 2017 года.

Ну а теперь — сравнительная таблица, демонстрирующая различные характеристики HDD. Для большинства история началась в 2015 году, хотя есть и более новые модели, которые начали работать в 2017 году.

Процент отказов был подсчитан для каждого года в отдельности. В целом, выводы можно сделать такие:

Процент отказов для 6 ТБ моделей, производителей Seagate и WDC с течением времени упал. Многие HDD продолжают работать безо всяких проблем;
Несмотря на то, что процент отказов трехтерабайтниов от WDC вроде бы тоже снизился, это вызвано, прежде всего, тем, что около 1000 таких винчестеров вывели из эксплуатации в 2017 году. Сделано это было для замены их на более емкие. На данный момент в строю осталось лишь 180 таких моделей;
У Toshiba 5 TБ и HGST 8 TБ прошлогодний процент отказов нулевой. Это впечатляет, но дело в том, что в строю лишь 45 дисков каждой из моделей, что не дает возможность получить более точную статистику;
А вот у модели HGST/Hitachi 4 TB процент отказов около 1% в течение трех лет. Это очень впечатляет.

Всего за всю историю мониторинга в распоряжении компании было 116 833 жестких диска. На данный момент в эксплуатации находится 91 305 дисков, а 25 528 были либо выведены из эксплуатации для замены, либо отказали. В 2017 году компания установила 29 844 новых HDD. По мнению представителей компании, ее статистика помогает понять, какие модели жестких дисков каких производителей надежнее остальных, и им можно доверять. Безотказность винчестера — весьма важный фактор для дата-центров любых компаний. При потере HDD, особенно сразу нескольких, можно лишиться важнейшей информации, без которой работа будет значительно усложнена.

Комментарии (47)

Javian
02.02.2018 21:29
#10586353
off Не дождался обзора. Ориентируясь на прошлые обзоры отказов взял TOSHIBA HDWE140. Быстр, но шумноват в сравнении с WD. Интересная ситуация с ценами-взять два по 4 Тб выгоднее, чем один на 8.
1. vassabi
  02.02.2018 22:17
  #10586439
  — такова наценка за экономию объема и разъема (и питания).
1. Aquahawk
  02.02.2018 22:21
  #10586445
  дома — пофиг, в дц зависит от плотности
  1. profesor08
    03.02.2018 01:21
    #10586715
    К большому сожалению может просто не хватить линий pci и какие-то устройства перестанут работать. Конечно зависит от количества подключенных устройств.
    
    Temtaime
    03.02.2018 09:38
    #10587007
    +2
    Што? С кааих пор жёсткие диски по PCI работают?
    
    clawham
    05.02.2018 11:25
    #10589639
    очень просто! msi z170a cp-mate
    Если использовать только sata порты то их 6.
    Если использовать сата и m2 то сата портов уже 4.
    Если использовать 4 видеокарты и m2 то sata портов уже два! Не винты по pcie работают — контроллеры сата работают с pcie шиной. И прикол там в том что не скорость падает а тупо отрубается порт!
1. Alexsey
  03.02.2018 01:29
  #10586721
  Интересная ситуация с ценами-взять два по 4 Тб выгоднее, чем один на 8.
  
  Как по мне — разница в 400-1000 рублей между одним 8тб и двумя 4тб вообще ни о чем. Сравнивал WD80EFZX и WD40EFRX
  1. rPman
    03.02.2018 11:27
    #10587127
    Взять четыре 3тб диска и объединить в рейд5, некоторое повышение надежности и почти тот же объем за чуть чуть выше цену.
    
    А можно raid0 поднять, с чередованием, в некоторых задачах скорость поднимется, но надежность кратно уменьшится.
    
    noanswer
    03.02.2018 14:11
    #10587351
    В моих руках raid 5 4x3tb на adaptec 5805 в одно поточных задачах давал скорость такую-же как одиночный диск… (понятно что в много поточных меньше залипания в сравнении с одним диском)
    
    raid 6 6x3тб дал скорость в ~1.5 скорости единичного диска.
    
    современный 8тб диск imho будет быстрее
    
    TheShock
    03.02.2018 20:08
    #10587879
    Ну рейд5 — это все-таки скорее ради надежности, а не ради скорости.
    
    noanswer
    03.02.2018 21:26
    #10587979
    как утверждают некоторые с надежностью там не все так радужно… особенно с большими дисками… а вот чтение, по крайней мере как мне казалось, должно быть соизмеримо с raid 0 собранным из тех-же дисков… в идеальных условиях
    
    вот сейчас:
    с 6x3тб raid 6 на SSD файл 10.6 ГБ копировался 1 минуту
    тот-же файлик с raid на 1HDD копировался 1'50"
    
    это я к тому что 4x3тб raid 5 был по скорости почти как 1HDD, маожет чууууть быстрее
    
    TheShock
    03.02.2018 22:12
    #10588025
    А откуда прирост? Ведь любые изменения необходимо записать по разу полностью на два диска.
    
    noanswer
    03.02.2018 23:04
    #10588081
    я не силен в теории, но как бы знал что приост есть, вот описамл как это выглядит в моих руках… те-же диски 3x3тб raid 5 были явно медленнее одного диска… экспериментировал давно и на другом контроллере.
    
    ну и с чипсетными контроллерами вообще все плохо, если я правильно пониамаю
    
    creker
    03.02.2018 23:42
    #10588123
    В RAID 5 и 6 при должной реализации и нагрузке можно воспользоваться тем фактом, что дисков несколько, а значит можно делать параллельную запись и чтение. Прирост в таком случае очевидно откуда будет, даже для записи. Естественно такое вряд ли сможет чипсетный контроллер — RAID5 в интеловских чипсетах медленный до ужаса у меня был. Потом пересели на 8x2ТБ RAID6 на adaptec контроллере и с десятком виртуалок все летает. Тесты не проводил, но огромная разница была сразу очевидна по времени обновления через apt get — счет на минуты идет.
    
    TheShock
    04.02.2018 00:43
    #10588187
    Все-равно не понимаю. Допустим, у нас в рейд5 четыре диска с данными и один с контрольной суммой. Мы можем записывать паралельно на любой из 4 дисков данные, но с каждой записью необходимо менять диск с контрольной сумой.
    
    Хотя, если запись К.С. будет слегка отложенной и на каждом из дисков данных писаться будет приблизительно в одно место, то имеет смысл.
    
    И да, чтение таки, очевидно, будет быстрее. Что-то я на записи зациклился.
    
    TheShock
    04.02.2018 00:54
    #10588207
    Помедитировал на эту картинку и понял откуда ускорение:
    
    Допустим, у нас 12 Мб данных и 4 диска в рейд-5 массиве. Значит на каждый диск в среднем запишется 3 Мб данных и 1 Мб к.с. Результат — теоретическое ускорение в три раза.
    
    Кстати, кто знает, если контроллер накроется — рейд5 не восстановить?
    
    noanswer
    04.02.2018 02:26
    #10588267
    Кстати, кто знает, если контроллер накроется — рейд5 не восстановить?
    от контроллера зависит, я теоретик :) но вроде как данные о массиве пишутся на диски… и если контроллер их поймает…
    
    creker
    04.02.2018 02:35
    #10588273
    Конечно восстановить. Ставим новый контроллер, возможно придется той же модели поискать, он подхватит конфигурацию и вперед. Обычно эти данные пишутся на каждый диск.
    
    remzalp
    04.02.2018 17:32
    #10588805
    Есть программы восстановления рэйдов.
    UFS использовал когда рэйд был на контроллере HP Proliant (помер контроллер), в итоге вроде и находило файлы, но с косяками. Похоже проприетарные особенности реализации контрольных сумм или еще чего.
    
    Такой же контроллер на замену поставил — всё заработало.
    
    rPman
    04.02.2018 10:28
    #10588389
    Некоторые raid контроллеры имеют свой кеш, возможно это даст внезапный прирост на очень редких случаях.
    
    Вообще то я выше писал про ускорение работы с raid0 с чередованием — когда данные дисков просто объединяются в один большой, чередуя группы секторов от каждого диска последовательно (например для двух дисков каждый четный — первый диск, каждый нечетный — второй).
    
    Это дает почти пропорциональное от количества дисков ускорение линейного чтения и небольшое (полагаю, порядка корень от количества дисков) для случайного чтения случайных данных определенного размера (когда они попадают в размер буфера упреждающего чтения и когда данные равномерно распределены по дискам), возможно с записью получится заметное ускорение, особенно если файловые системы вида zfs (которые пишут на диски линейно ака лог, даже если мы модифицируем данные в нескольких файлах, эти данные пишутся последовательно).
    
    Объединение дисков в режиме raid0 (или с зеркалированием raid01 или raid10) например оправдано для задач работы с видео, хранение и работа со слабо сжатыми или неупакованными фрагментами, когда от хранилища требуются сотни мегабайт в секунду линейного чтения/записи и большие объемы — терабайтами.
    
    Несколько лет назад, я работал именно с таким конфигом, когда диски, дающие 120мбайт/сек в секунду, в итоговом raid0 из 3-ех дисков давали почти 400мбайт/сек.
    
    TheShock
    04.02.2018 00:45
    #10588195
    как утверждают некоторые с надежностью там не все так радужно… особенно с большими дисками
    
    Ну главная идея в том, что если один из дисков откажет, то можно восстановить его данные благодаря остальным дискам и К.С.
    
    noanswer
    04.02.2018 02:38
    #10588275
    У меня с дисками 3тб 7200ppm восстановление занимало 8-12 часов… в слабеньком NAS c 2тб "зелеными" 5200ppm занимало больше суток. При этом конечно можно работать с массивом, но если что-то накроется это вероятно будет конец.
    
    Условно говоря вылетает, или планово заменяется, диск работа останавливается на сутки или около того.
    
    здесь или на хабре есть статья о том чем плох raid 5
    
    creker
    04.02.2018 02:39
    #10588277
    Проблема с RAID5, и почему повсеместно его вычеркивают напрочь из допустимых вариантов, вот в чем. Если откажет диск, то, действительно, все продолжит работать. Меняем диск, массив проходит инициализацию и все ок. Проблема в этой инициализации — вероятность получить мертвый диск в этот момент существенно повышается, т.к. инициализация очень активно грузит диски, да еще они могут быть из одной партии и умереть одновременно. Естественно мертвый диск в этот момент это потеря всего массива. Поэтому рекомендуемый минимум это RAID6.
    
    Сразу понятно, почему лучше брать более маленькие диски. Инициализация с большими дисками будет очень долгой, еще больше повышая вероятность выхода из строя еще одного диска.
    
    O1eja
    04.02.2018 11:15
    #10588437
    Для этой цели есть бекап…
    Рейд для оперативного восстановления без паузы в работе скорее.
    По моей практике помирающий диск может сжечь и соседа следящего на той же паре на контроллере. Тут конечно зависит от архитектуры, но в конечном счёте конфигурацию подбирать лучше исходя из задач. Для дома лучше зеркало… даже если вышел из строя контроллер и диск, то просто подключив выживший диск к другому компу его можно прочитать.
    Если что-то храним сильно надёжно дома, то NAS в RAID0 + любой внешний диск (можно тоже NAS), как бекап...
    
    O1eja
    04.02.2018 11:16
    #10588439
    RAID 1 не 0 — ошибся :(
    
    O1eja
    04.02.2018 10:47
    #10588405
    Скорость будет сильно зависеть от контроллера…
    Быстро (так как без вычислений почти) и надёжно это RAID 10 (1+0) но дисков много нужно… ;)
    
    noanswer
    03.02.2018 21:32
    #10587985
    … хотел сказать что raid 5 из меньше чем 5 дисков не дает прироста в скорости (в моих руках с моим контроллером) а для таких дилинных терамбайтов скорость важна… их же ещё бэкапить надо время от времени.
1. nidalee
  03.02.2018 11:17
  #10587105
  Исключительно отрицательные впечатления от этого диска.
  Греется и сыпется от любого чиха. Убрал его как можно дальше — на 16 бедах сыпаться пока перестал…
1. HiMem-74
  05.02.2018 09:57
  #10589489
  Интересная ситуация с ценами-взять два по 4 Тб выгоднее, чем один на 8.
  
  Предположу, что Вы в расчетах учитывали только стоимость самого жесткого диска? Если в формулу подставить стоимость хранилища/полочки, деленную на кол-во слотов для HDD, стоимость хранения будет более адекватная и более емкие диски будут выгоднее.
  1. Javian
    05.02.2018 10:37
    #10589573
    Речь о бытовом ПК.

burzooom
03.02.2018 00:30
#10586657
То есть, у одного диска 29% процент на отказ, но это на самом деле ничего не значит, а у другого процент на отказ 0%, и это тоже совершенно ничего не значит.
Внимание, вопрос — ну и что же покупать?
1. izobr
  03.02.2018 01:21
  #10586713
  Что угодно. Просто в любом случае надо иметь бекап.
  1. noanswer
    03.02.2018 14:20
    #10587367
    +1
    и хранить гарантийный талон :)
1. Alexsey
  03.02.2018 01:32
  #10586727
  Брать любой хард и проводить 24-часовой стресс-тест перед использованием. Если пережил стресс-тест и не умер в первые 3 месяца работы то вероятность того что он будет работать долгие годы без сбоев близится к 100%.
  1. ARD8S
    03.02.2018 11:20
    #10587109
    Это работает только или для повреждённых при транспортировке дисков или для очевидного брака. Хотя оно и так само «выявится». Те же 3ТБ Сигейты, которые с неплотно прилегающим клапаном, вы бы так не выявили. Лучше не издеваться над диском всякими там программами, но желательно скидывая инфу на более ёмкие харды иметь копию на другом носителе.
    Так что бэкап, только бэкап, а лучше два. И гарантию побольше.

Arxitektor
03.02.2018 11:32
#10587137
+1
Брать любой хард и проводить 24-часовой стресс-тест перед использованием

а какой методикой тестировать?

leggiermente
03.02.2018 11:56
#10587173
Давно ждал отчёт Backbaze: предыдущий диск (HGST HMS5C4040BLE640) выбирал для домашнего компьютера под бэкапы именно по отчёту 2015-го года. Кстати, интересно, что тогда у него было меньше отказов, чем у HGST HMS5C4040ALE640 (0.39% vs 0.62%), в 2016-м они сравнялись, а в этом году поменялись местами (0.63% vs 0.33%).

Tyusha
03.02.2018 13:53
#10587323
+2
Совершенно бездарная и безграмотная статистическая работа! (Чего только стоит верхняя граница доверительного интервала в 120%). Имея богатую и подробную сырую статистику можно было бы представить действительно полезные данные. Мне видится, что наиболее удобной цифрой было бы среднее время работы на отказ для конкретной модели. Это бы нивелировало бы то, что разные диски вводились в строй в разное время.
1. Alesh
  03.02.2018 17:13
  #10587655
  Если вы знаете в этом толк, сделайте более качественный анализ и запилите статью. Уверен — это хорошо повлияет на вашу карму)
1. remzalp
  04.02.2018 17:36
  #10588811
  www.backblaze.com/b2/hard-drive-test-data.html
  с удовольствием посмотрю. 23 гига сырых жанных.

Bonio
03.02.2018 16:52
#10587625
Насколько гелиевые диски будут надежны? Нужно покупать, но что-то с опаской на них гляжу. Дорогие, и если что случится пропадет все разом.
1. creker
  03.02.2018 18:48
  #10587771
  В таблице на 3 строчке HGST He8 серии присутствует. Данных мало, но, судя по всему, все с ними в порядке. Сам на днях приобрел He10 серии диск на замену слишком шумному wd black.
1. vis_inet
  03.02.2018 19:40
  #10587835
  А почему «пропадёт всё разом»?
  1. Bonio
    03.02.2018 19:41
    #10587837
    Потому что денег на два таких диска не хватит и все придется хранить на одном.

BigD
03.02.2018 19:42
#10587839
Статистика по WD30EFRX так себе…

ComputerPers
04.02.2018 09:48
#10588353
Жаль, что статистика только по SATA Дискам, вот бы по SAS 10K такую же.
Неужели их клиентам скорость не важна?!
1. remzalp
  04.02.2018 17:38
  #10588813
  Сверхбыстрое бэкап решение? :)
  Мне кажется, тут больше речь идёт о надёжности и объеме за минимальную цену.