Компания Backblaze начиная с 2013 года ведет статистику эксплуатации жестких дисков в своих дата-центрах. Специалисты следят, какие диски работают без отказов и сбоев в течение какого времени. Ведется также анализ надежности HDD разных производителей. В базу данных включают дату производства диска, производителя, модель, серийный номер, статус (рабочий ли диск или умерший), а также SMART-атрибуты, которые сообщает сам диск. К концу 2017 года в базе данных накопилось около 88 миллионов объектов. Размер БД составляет 23 ГБ. Загрузить ее можно с сайта компании — вот здесь.

В новом отчете указываются данные по эксплуатации HDD за 2017 году. На момент составления документа в дата-центрах компании работало 91 305 винчестеров. Отчет можно просмотреть за разные периоды времени, включая каждый квартал по отдельности или же информацию за целый год.

На конец четвертого квартала 2017 года компания вела мониторинг 91 305 дисков. Для повышения точности отчета была удалена информация о тестовых моделях жестких дисков, также не учитываются модели, которых у компании меньше 45 экземпляров. В итоге осталось 91 243 диска.



Компания дает несколько разъяснений по таблице:
  • Процент отказов дан лишь за четвертый квартал прошлого года. Если у какой-либо модели HDD указан процент отказов 0%, это означает, что за четвертый квартал проблем с дисками не было;
  • Как уже говорилось выше, 62 диска не учитывается, поскольку количество моделей слишком мало для получения сколь-нибудь надежной статистики;
  • Квартальные показатели отказов могут отличаться, особенно для тех моделей, число экземпляров которых не слишком велико, либо же они используются относительно недолго. К примеру, для Seagate 4 ТБ, модель ST4000DM005 процент отказов составил 29,08%. Но это не значит, что диски такого типа чрезвычайно ненадежны. Их просто в компании мало, данные основаны на 1255 диско-днях и всего 1 отказе.

В 2017 году компания добавила много новых моделей винчестеров, заменив дисками большего объема в 8, 10 и 12 ТБ модели меньшего — 2,3 и 4 ТБ. Эти изменения отображены на диаграмме ниже.



Всего добавлено 25746 новых дисков. Из эксплуатации выведено 6442 диска. В итоге объем файлового пространства увеличился на 211 петабайт (добавлено HDD общим объемом в 230 петабайт и убрано дисков на 10 петабайт).

Ниже показана полная статистика для HDD, которые остались в рабочем состоянии на момент четвертого квартала 2017 года.



Ну а теперь — сравнительная таблица, демонстрирующая различные характеристики HDD. Для большинства история началась в 2015 году, хотя есть и более новые модели, которые начали работать в 2017 году.



Процент отказов был подсчитан для каждого года в отдельности. В целом, выводы можно сделать такие:
  • Процент отказов для 6 ТБ моделей, производителей Seagate и WDC с течением времени упал. Многие HDD продолжают работать безо всяких проблем;
  • Несмотря на то, что процент отказов трехтерабайтниов от WDC вроде бы тоже снизился, это вызвано, прежде всего, тем, что около 1000 таких винчестеров вывели из эксплуатации в 2017 году. Сделано это было для замены их на более емкие. На данный момент в строю осталось лишь 180 таких моделей;
  • У Toshiba 5 TБ и HGST 8 TБ прошлогодний процент отказов нулевой. Это впечатляет, но дело в том, что в строю лишь 45 дисков каждой из моделей, что не дает возможность получить более точную статистику;
  • А вот у модели HGST/Hitachi 4 TB процент отказов около 1% в течение трех лет. Это очень впечатляет.

Всего за всю историю мониторинга в распоряжении компании было 116 833 жестких диска. На данный момент в эксплуатации находится 91 305 дисков, а 25 528 были либо выведены из эксплуатации для замены, либо отказали. В 2017 году компания установила 29 844 новых HDD. По мнению представителей компании, ее статистика помогает понять, какие модели жестких дисков каких производителей надежнее остальных, и им можно доверять. Безотказность винчестера — весьма важный фактор для дата-центров любых компаний. При потере HDD, особенно сразу нескольких, можно лишиться важнейшей информации, без которой работа будет значительно усложнена.

Комментарии (47)


  1. Javian
    02.02.2018 21:29

    off Не дождался обзора. Ориентируясь на прошлые обзоры отказов взял TOSHIBA HDWE140. Быстр, но шумноват в сравнении с WD. Интересная ситуация с ценами-взять два по 4 Тб выгоднее, чем один на 8.


    1. vassabi
      02.02.2018 22:17

      — такова наценка за экономию объема и разъема (и питания).


    1. Aquahawk
      02.02.2018 22:21

      дома — пофиг, в дц зависит от плотности


      1. profesor08
        03.02.2018 01:21

        К большому сожалению может просто не хватить линий pci и какие-то устройства перестанут работать. Конечно зависит от количества подключенных устройств.


        1. Temtaime
          03.02.2018 09:38
          +2

          Што? С кааих пор жёсткие диски по PCI работают?


          1. clawham
            05.02.2018 11:25

            очень просто! msi z170a cp-mate
            Если использовать только sata порты то их 6.
            Если использовать сата и m2 то сата портов уже 4.
            Если использовать 4 видеокарты и m2 то sata портов уже два! Не винты по pcie работают — контроллеры сата работают с pcie шиной. И прикол там в том что не скорость падает а тупо отрубается порт!


    1. Alexsey
      03.02.2018 01:29

      Интересная ситуация с ценами-взять два по 4 Тб выгоднее, чем один на 8.


      Как по мне — разница в 400-1000 рублей между одним 8тб и двумя 4тб вообще ни о чем. Сравнивал WD80EFZX и WD40EFRX


      1. rPman
        03.02.2018 11:27

        Взять четыре 3тб диска и объединить в рейд5, некоторое повышение надежности и почти тот же объем за чуть чуть выше цену.

        А можно raid0 поднять, с чередованием, в некоторых задачах скорость поднимется, но надежность кратно уменьшится.


        1. noanswer
          03.02.2018 14:11

          В моих руках raid 5 4x3tb на adaptec 5805 в одно поточных задачах давал скорость такую-же как одиночный диск… (понятно что в много поточных меньше залипания в сравнении с одним диском)


          raid 6 6x3тб дал скорость в ~1.5 скорости единичного диска.


          современный 8тб диск imho будет быстрее


          1. TheShock
            03.02.2018 20:08

            Ну рейд5 — это все-таки скорее ради надежности, а не ради скорости.


            1. noanswer
              03.02.2018 21:26

              как утверждают некоторые с надежностью там не все так радужно… особенно с большими дисками… а вот чтение, по крайней мере как мне казалось, должно быть соизмеримо с raid 0 собранным из тех-же дисков… в идеальных условиях


              вот сейчас:
              с 6x3тб raid 6 на SSD файл 10.6 ГБ копировался 1 минуту
              тот-же файлик с raid на 1HDD копировался 1'50"


              это я к тому что 4x3тб raid 5 был по скорости почти как 1HDD, маожет чууууть быстрее


              1. TheShock
                03.02.2018 22:12

                А откуда прирост? Ведь любые изменения необходимо записать по разу полностью на два диска.


                1. noanswer
                  03.02.2018 23:04

                  я не силен в теории, но как бы знал что приост есть, вот описамл как это выглядит в моих руках… те-же диски 3x3тб raid 5 были явно медленнее одного диска… экспериментировал давно и на другом контроллере.


                  ну и с чипсетными контроллерами вообще все плохо, если я правильно пониамаю


                1. creker
                  03.02.2018 23:42

                  В RAID 5 и 6 при должной реализации и нагрузке можно воспользоваться тем фактом, что дисков несколько, а значит можно делать параллельную запись и чтение. Прирост в таком случае очевидно откуда будет, даже для записи. Естественно такое вряд ли сможет чипсетный контроллер — RAID5 в интеловских чипсетах медленный до ужаса у меня был. Потом пересели на 8x2ТБ RAID6 на adaptec контроллере и с десятком виртуалок все летает. Тесты не проводил, но огромная разница была сразу очевидна по времени обновления через apt get — счет на минуты идет.


                  1. TheShock
                    04.02.2018 00:43

                    Все-равно не понимаю. Допустим, у нас в рейд5 четыре диска с данными и один с контрольной суммой. Мы можем записывать паралельно на любой из 4 дисков данные, но с каждой записью необходимо менять диск с контрольной сумой.

                    Хотя, если запись К.С. будет слегка отложенной и на каждом из дисков данных писаться будет приблизительно в одно место, то имеет смысл.

                    И да, чтение таки, очевидно, будет быстрее. Что-то я на записи зациклился.


                    1. TheShock
                      04.02.2018 00:54

                      Помедитировал на эту картинку и понял откуда ускорение:
                      image

                      Допустим, у нас 12 Мб данных и 4 диска в рейд-5 массиве. Значит на каждый диск в среднем запишется 3 Мб данных и 1 Мб к.с. Результат — теоретическое ускорение в три раза.

                      Кстати, кто знает, если контроллер накроется — рейд5 не восстановить?


                      1. noanswer
                        04.02.2018 02:26

                        Кстати, кто знает, если контроллер накроется — рейд5 не восстановить?

                        от контроллера зависит, я теоретик :) но вроде как данные о массиве пишутся на диски… и если контроллер их поймает…


                      1. creker
                        04.02.2018 02:35

                        Конечно восстановить. Ставим новый контроллер, возможно придется той же модели поискать, он подхватит конфигурацию и вперед. Обычно эти данные пишутся на каждый диск.


                      1. remzalp
                        04.02.2018 17:32

                        Есть программы восстановления рэйдов.
                        UFS использовал когда рэйд был на контроллере HP Proliant (помер контроллер), в итоге вроде и находило файлы, но с косяками. Похоже проприетарные особенности реализации контрольных сумм или еще чего.

                        Такой же контроллер на замену поставил — всё заработало.


                    1. rPman
                      04.02.2018 10:28

                      Некоторые raid контроллеры имеют свой кеш, возможно это даст внезапный прирост на очень редких случаях.

                      Вообще то я выше писал про ускорение работы с raid0 с чередованием — когда данные дисков просто объединяются в один большой, чередуя группы секторов от каждого диска последовательно (например для двух дисков каждый четный — первый диск, каждый нечетный — второй).

                      Это дает почти пропорциональное от количества дисков ускорение линейного чтения и небольшое (полагаю, порядка корень от количества дисков) для случайного чтения случайных данных определенного размера (когда они попадают в размер буфера упреждающего чтения и когда данные равномерно распределены по дискам), возможно с записью получится заметное ускорение, особенно если файловые системы вида zfs (которые пишут на диски линейно ака лог, даже если мы модифицируем данные в нескольких файлах, эти данные пишутся последовательно).

                      Объединение дисков в режиме raid0 (или с зеркалированием raid01 или raid10) например оправдано для задач работы с видео, хранение и работа со слабо сжатыми или неупакованными фрагментами, когда от хранилища требуются сотни мегабайт в секунду линейного чтения/записи и большие объемы — терабайтами.

                      Несколько лет назад, я работал именно с таким конфигом, когда диски, дающие 120мбайт/сек в секунду, в итоговом raid0 из 3-ех дисков давали почти 400мбайт/сек.


              1. TheShock
                04.02.2018 00:45

                как утверждают некоторые с надежностью там не все так радужно… особенно с большими дисками

                Ну главная идея в том, что если один из дисков откажет, то можно восстановить его данные благодаря остальным дискам и К.С.


                1. noanswer
                  04.02.2018 02:38

                  У меня с дисками 3тб 7200ppm восстановление занимало 8-12 часов… в слабеньком NAS c 2тб "зелеными" 5200ppm занимало больше суток. При этом конечно можно работать с массивом, но если что-то накроется это вероятно будет конец.


                  Условно говоря вылетает, или планово заменяется, диск работа останавливается на сутки или около того.


                  здесь или на хабре есть статья о том чем плох raid 5


                1. creker
                  04.02.2018 02:39

                  Проблема с RAID5, и почему повсеместно его вычеркивают напрочь из допустимых вариантов, вот в чем. Если откажет диск, то, действительно, все продолжит работать. Меняем диск, массив проходит инициализацию и все ок. Проблема в этой инициализации — вероятность получить мертвый диск в этот момент существенно повышается, т.к. инициализация очень активно грузит диски, да еще они могут быть из одной партии и умереть одновременно. Естественно мертвый диск в этот момент это потеря всего массива. Поэтому рекомендуемый минимум это RAID6.

                  Сразу понятно, почему лучше брать более маленькие диски. Инициализация с большими дисками будет очень долгой, еще больше повышая вероятность выхода из строя еще одного диска.


                  1. O1eja
                    04.02.2018 11:15

                    Для этой цели есть бекап…
                    Рейд для оперативного восстановления без паузы в работе скорее.
                    По моей практике помирающий диск может сжечь и соседа следящего на той же паре на контроллере. Тут конечно зависит от архитектуры, но в конечном счёте конфигурацию подбирать лучше исходя из задач. Для дома лучше зеркало… даже если вышел из строя контроллер и диск, то просто подключив выживший диск к другому компу его можно прочитать.
                    Если что-то храним сильно надёжно дома, то NAS в RAID0 + любой внешний диск (можно тоже NAS), как бекап...


                    1. O1eja
                      04.02.2018 11:16

                      RAID 1 не 0 — ошибся :(


              1. O1eja
                04.02.2018 10:47

                Скорость будет сильно зависеть от контроллера…
                Быстро (так как без вычислений почти) и надёжно это RAID 10 (1+0) но дисков много нужно… ;)


            1. noanswer
              03.02.2018 21:32

              … хотел сказать что raid 5 из меньше чем 5 дисков не дает прироста в скорости (в моих руках с моим контроллером) а для таких дилинных терамбайтов скорость важна… их же ещё бэкапить надо время от времени.


    1. nidalee
      03.02.2018 11:17

      Исключительно отрицательные впечатления от этого диска.
      Греется и сыпется от любого чиха. Убрал его как можно дальше — на 16 бедах сыпаться пока перестал…


    1. HiMem-74
      05.02.2018 09:57

      Интересная ситуация с ценами-взять два по 4 Тб выгоднее, чем один на 8.

      Предположу, что Вы в расчетах учитывали только стоимость самого жесткого диска? Если в формулу подставить стоимость хранилища/полочки, деленную на кол-во слотов для HDD, стоимость хранения будет более адекватная и более емкие диски будут выгоднее.


      1. Javian
        05.02.2018 10:37

        Речь о бытовом ПК.


  1. burzooom
    03.02.2018 00:30

    То есть, у одного диска 29% процент на отказ, но это на самом деле ничего не значит, а у другого процент на отказ 0%, и это тоже совершенно ничего не значит.
    Внимание, вопрос — ну и что же покупать?


    1. izobr
      03.02.2018 01:21

      Что угодно. Просто в любом случае надо иметь бекап.


      1. noanswer
        03.02.2018 14:20
        +1

        и хранить гарантийный талон :)


    1. Alexsey
      03.02.2018 01:32

      Брать любой хард и проводить 24-часовой стресс-тест перед использованием. Если пережил стресс-тест и не умер в первые 3 месяца работы то вероятность того что он будет работать долгие годы без сбоев близится к 100%.


      1. ARD8S
        03.02.2018 11:20

        Это работает только или для повреждённых при транспортировке дисков или для очевидного брака. Хотя оно и так само «выявится». Те же 3ТБ Сигейты, которые с неплотно прилегающим клапаном, вы бы так не выявили. Лучше не издеваться над диском всякими там программами, но желательно скидывая инфу на более ёмкие харды иметь копию на другом носителе.
        Так что бэкап, только бэкап, а лучше два. И гарантию побольше.


  1. Arxitektor
    03.02.2018 11:32
    +1

    Брать любой хард и проводить 24-часовой стресс-тест перед использованием

    а какой методикой тестировать?


  1. leggiermente
    03.02.2018 11:56

    Давно ждал отчёт Backbaze: предыдущий диск (HGST HMS5C4040BLE640) выбирал для домашнего компьютера под бэкапы именно по отчёту 2015-го года. Кстати, интересно, что тогда у него было меньше отказов, чем у HGST HMS5C4040ALE640 (0.39% vs 0.62%), в 2016-м они сравнялись, а в этом году поменялись местами (0.63% vs 0.33%).


  1. Tyusha
    03.02.2018 13:53
    +2

    Совершенно бездарная и безграмотная статистическая работа! (Чего только стоит верхняя граница доверительного интервала в 120%). Имея богатую и подробную сырую статистику можно было бы представить действительно полезные данные. Мне видится, что наиболее удобной цифрой было бы среднее время работы на отказ для конкретной модели. Это бы нивелировало бы то, что разные диски вводились в строй в разное время.


    1. Alesh
      03.02.2018 17:13

      Если вы знаете в этом толк, сделайте более качественный анализ и запилите статью. Уверен — это хорошо повлияет на вашу карму)


    1. remzalp
      04.02.2018 17:36

      www.backblaze.com/b2/hard-drive-test-data.html
      с удовольствием посмотрю. 23 гига сырых жанных.


  1. Bonio
    03.02.2018 16:52

    Насколько гелиевые диски будут надежны? Нужно покупать, но что-то с опаской на них гляжу. Дорогие, и если что случится пропадет все разом.


    1. creker
      03.02.2018 18:48

      В таблице на 3 строчке HGST He8 серии присутствует. Данных мало, но, судя по всему, все с ними в порядке. Сам на днях приобрел He10 серии диск на замену слишком шумному wd black.


    1. vis_inet
      03.02.2018 19:40

      А почему «пропадёт всё разом»?


      1. Bonio
        03.02.2018 19:41

        Потому что денег на два таких диска не хватит и все придется хранить на одном.


  1. BigD
    03.02.2018 19:42

    Статистика по WD30EFRX так себе…


  1. ComputerPers
    04.02.2018 09:48

    Жаль, что статистика только по SATA Дискам, вот бы по SAS 10K такую же.
    Неужели их клиентам скорость не важна?!


    1. remzalp
      04.02.2018 17:38

      Сверхбыстрое бэкап решение? :)
      Мне кажется, тут больше речь идёт о надёжности и объеме за минимальную цену.