Почему мы перешли на RAID 10 / forpes.ru

Главная
Почему мы перешли на RAID 10

Почему мы перешли на RAID 10 +97

11.02.2025 07:45

ntsaplin 227 29000 Источник

Недавно у нас развалился RAID 5. Один диск на первом году своей жизни умер сам от естественных причин. Такое может быть и в период трёхлетней гарантии — нечасто, но может. Мы вынули его, поставили на его место диск из горячего резерва — и во время ребилда в массиве умер второй диск. Данные умерли вместе с ним.

Один из пользователей, чьи данные там были, очень живо интересовался тем, что за конфигурация у нас была. Вплоть до моделей дисков, дат их производства и серийных номеров. Он, вероятно, считал, что там стоит какое-то старьё, и до последнего не верил, что так бывает на новом железе. Потом очень искренне смеялся над фразой, что ни одна схема резервирования RAID не даёт стопроцентной гарантии сохранности данных.

Это правда: ни одна схема резервирования никогда не гарантирует 100 %. Случается всякое. Диски из одной партии могут умереть в один день: у нас такое было только один раз несколько лет тому назад, но было. Разболтавшийся кулер может вызвать резонансные вибрации, которые убьют два массива целиком: такое было больше пяти лет тому назад, и мы долго расследовали ту ситуацию.

Бывает всё.

В России не очень принято выплачивать компенсации за простои и потерю данных. В прошлом году мы поняли, что это важно делать, и включили такие пункты в соглашение.

Это привело к целой цепочке последствий, в частности, к тому, что мы перешли на RAID 10 как на новый для нас стандарт хранения данных.

▍ Как было раньше

Чаще всего у нас идёт речь про восемь физических дисков в сервере (но местами есть где пять, а есть где десять) — это один контроллер. Плюс второй контроллер — для дисков с ОС. Плюс отдельно от этих массивов — для бекапа.

Раньше всё хранилось в RAID 5 (в абсолютном большинстве случаев) и в RAID 6.

RAID 5 — это один из относительно недорогих и достаточно эффективных способов хранения данных с резервированием, с защитой от отказа одного диска. Там резерв — N+1, то есть на пять физических дисков вам доступен объём четырёх дисков. Если один диск вылетает, то можно восстановить данные по избыточности с остальных: подойти к серверу, вынуть убившийся диск, поставить новый, подождать ребилда и спокойно работать дальше.

В большинстве случаев это рабочая ситуация. То есть делаешь тикет, меняешь диск из резерва, и все счастливы. Более того, в пределе такие массивы могут ждать замену диска и неделю (на клиентах мы не проверяли, но на личной машине для резерва сайта у нас был случай, что диска для него с ходу не нашлось, но провести замену всё равно успели). Но иногда бывает не так.

В RAID 6 резерв — уже N+2, то есть на четыре диска по объёму вам надо шесть дисков.

В RAID 10 — резервирование 2N: это два RAID 1, объединённых в RAID 0. То есть он быстрый и дублирует данные полностью. Статистически считается, что практическая вероятность выхода его из строя до потери данных настолько мала, что встретится всего пару раз за время работы хостинга на всех машинах во всех ЦОДах во всех странах.

Ещё надёжнее — RAID 51 (два RAID 5 в массиве RAID 1), конечно, но тут мы переходим уже к экономическим обоснованиям.

▍ Экономическое обоснование

Фактически переход на RAID 10 означает плюс два или плюс три диска в каждый сервер. Это дорого: диски, конечно, — расходники, но при этом недешёвые.

Потери данных хостинга по факту случались у нас шесть раз за всю историю из-за разваливания RAID. Пользователи теряли данные и по другими причинам (например, сами накатывали не тот бекап), но это уже такой вид развлечений, где пользователь волен делать что хочет. Сам.

По железу отказов было относительно мало. Даже с учётом SLA и выплат компенсаций дополнительный расход на диски не окупает эту историю. В смысле мы понимаем, что будем выплачивать меньше в перспективе нескольких лет, но это всё равно не окупается.

Остаётся разница, которую мы для себя объяснили репутацией.

Дело вот в чём: если часть машин хостинга ляжет, потому что городские электрики бахнули друг за другом две подстанции, а потом админы зажимали руками патрубок дизеля (такое у нас было) — это простой. Потом можно подняться и продолжить работу.

Если же мы потеряем данные пользователя, то это залёт. Потом нельзя продолжить работу просто так. Это очень больно бьёт по репутации, даже если это отдельная машина.

Поэтому — RAID 10.

▍ Редеплой сервера

Ещё одна особенность экономики — это замена дисков при редеплое сервера. Если по каким-то причинам нам надо вынуть сервер, поковыряться в нём и вернуть в ЦОД, то мы меняем в нём все диски на новые. Это прямо обязательное условие.

Сами диски сначала уходят в резерв резерва (они ещё рабочие, и если в hot swap лежит два новых диска, а потом вендор заменяет их за один рабочий день, то третий или четвёртый рабочие диски будут нелишними на всякий случай, чтобы потом заменить их на вендорские новые через день). Затем постепенно они списываются. Диски у нас довольно редко находятся в работе больше четырёх лет — разве что на промотарифах, которые когда-то были по 30 рублей.

▍ Но ведь… бекап?

Да, мы предлагаем делать бекап всем. Естественно, на машине, где крутится какой-то сервис, который, например, пережимает видео или обеспечивает коннект с каким-то API, делать бекап не надо. Он накатывается из образа и легко перезапускается. А вот если там сервис, где хранятся те же финансовые транзакции или бухгалтерия, — данные надо беречь.

Пользователи заказывают услугу бекапа менее чем в 3 % случаев. Да, у некоторых есть свой собственный внутри системы, но всё равно статистика показательная.

Пользователи, которые делают геораспределение, — их ещё меньше.

Казалось бы, ни одна система не может быть надёжной, и ответственные вещи всегда нужно хостить в нескольких разных местах — но нет. Практика — другая.

Поэтому потеря данных — это проблема хостинга, а не пользователя. В смысле можно хоть 100 раз говорить про важность бекапа и всего прочего, но всё равно виноват хостинг, даже если он ничего не гарантировал.

А мы гарантируем на уровне выплаты компенсаций за отказы и понимаем, что не хотим плодить недовольных пользователей.

▍ Это NVMe-RAID?

Нет. У нас везде — SSD: они хорошо соединяются в массивы.

NVMe, как мы писали, очень плохо соединяются в RAID: потеря производительности такая, что смысла в массивах уже и нет. Соответственно, хостеры, которые используют NVMe, практически не могут использовать RAID, если только у них не очень специфическое дорогое железо. Либо они банально приукрашивают.

Машины с NVMe у нас без RAID, но с регулярным бекапом (бесплатным, невидимым пользователю) на HDD/SSD. При развале NVMe пользователь получает машину в последнем забекапленном состоянии.

▍ Почему у вас хранение внутри сервера, а не в кластере в отдельной хранилке?

Кластер — это другой хороший отказоустойчивый подход. Но там уже сам кластер становится точкой отказа, и практика показывает, что не такой уж и редкой. Мы обмениваемся данными с коллегами и знаем, что и как бывает.

Поэтому архитектурное решение — много независимых нод с резервированием внутри них. Это решение минимизирует риски для нас и наших конкретных подходов. Кластеры могут оказаться лучше или дешевле для других условий. Это не религия, а взвешенное решение: возможно, если мы вырастем в 10 раз, то перейдём на кластеры.

Но с сегодняшней точки зрения отказ одного сервера гораздо менее болезненный, и легче решается, чем отказ кластера. Более того, при потере данных многим клиентам важнее скорее запустить новую виртуалку с возможностью накатить туда бекап из личных запасов клиента и потом подключить диск. Если удаётся считать данные с части дисков, то их восстановление на отдельном сервере происходит быстрее, чем в кластере, где процесс может быть сложнее из-за распределённого характера хранения.

Негативный опыт был и с RAID-схемами, и с кластерами. Если вы погуглите название любого хостера со словами «Потеря данных», то увидите, что такое было почти у каждого. Но самый страшный случай сферы — это когда пару лет назад один зарубежный хостер развалил хранилку с шифрованием. Тогда данные у них потерял не один клиент, а сразу много, и это было очень больно.

Схема с большим количеством независимых узлов более устойчива ещё и к человеческому фактору: кластер же не прощает ошибок админов. Когда мы говорим про очень маленькие вероятности, это становится важным.

▍ Случаи, когда RAID 5 и 6 выходили из строя

Первая ситуация — равномерный износ дисков одной партии с одной датой производства. Если один умер на втором году жизни, то есть шансы, что его соседи находятся в таком же состоянии. На практике это оказалось известной городской легендой, потому что не подтверждается статистикой. На ребилд обычно времени хватает: речь идёт про разницу в месяцы, а не часы. Но, естественно, такие совпадения бывают, и обычно они легендарны, поэтому и запоминаются. У нас такое было.

Вторая ситуация — общий фактор. У нас однажды разболталось крепление системы охлаждения, и в течение нескольких дней на сервер подавалась равномерная вибрация. В конечном счёте это убило RAID 6, что до этого мы считали крайне маловероятным событием. Ещё из общих факторов были скачки питания, перевозка серверов (такое часто бывало у коллег) и так далее.

Самая тупая ситуация за время работы нашего VDS-хостинга — это когда лично я вытащил не тот диск во время ребилда в 2017 году. Сразу скажу, что я повёл себя, как сказочный идиот.

Я был на площадке по другим делам. В это время в одном из серверов вылетел диск из рейда. Чтобы не терять времени на создание тикетов, админ решил поиграть мной в «Аватара» и попросил заменить диск, раз уж я на месте.

Пошёл, забрал диск в ЗИПе, принёс к серверу, вынул проблемный диск, поставил новый. Начался ребилд. Я пошел дальше по своим делам.

Затем снова звонит админ и просит на всякий случай заменить ещё один диск. Почему-то я решил, что речь идёт о том же массиве. Я и сейчас не админ, хотя вникаю во все аспекты работы, а тогда опыта и вовсе было меньше. Не вдаваясь в подробности, я пошёл и вытащил во время ребилда второй диск.

Дальше результат понятен. Хорошо, что на сервере было немного клиентов и почти у всех были бекапы.

С тех пор, какие бы косячные решения ни принимались во время аварий, я прекрасно понимаю, что за них нельзя ругать. Во время аварии, когда надо принимать много ответственных решений в очень сжатые сроки, вы не взлетаете на крыльях адреналина до сверхэффективности, а деградируете до уровня тренировок. Если поведение у вас не отработано многократными повторами, то, скорее всего, вы потеряетесь. Я вот потерялся даже без аварии. И мне до сих пор стыдно.

▍ Гарантирует ли RAID 10 безопасность данных?

Нет.

Ещё раз: никакой рейд не может гарантировать сохранности данных ни при каких обстоятельствах.

Есть только более безопасные и менее безопасные.

Этот — более безопасный. Но всё равно случается всякое. Другое дело, что мы считаем: с введением RAID 10 другие риски становятся выше — от перегрева в ЦОДе до критического сбоя железа. Ну и человеческий фактор.

▍ Итак, основная причина, почему RAID 10

Просто потому, что мы жадные. Других причин, как обычно, нет!

© 2025 ООО «МТ ФИНАНС»

Telegram-канал со скидками, розыгрышами призов и новостями IT ?

Комментарии (227)

Ziptar
11.02.2025 07:54
#27906158
Потом очень искренне смеялся над фразой, что ни одна схема резервирования RAID не даёт стопроцентной гарантии сохранности данных.

Сколько раз можно на одни и те же грабли наступать? RAID - средство достижения высокой доступности, а не замена бэкапам.
1. uuger
  11.02.2025 07:54
  #27906226
  по сути, для очень важных данных, которые надо хранить долго, единственный реальный бэкап - это всё та же ленточная библиотека, физически находящаяся в другом месте и с носителями, физически извлеченными из tape drive. все остальное - это компромиссы разного уровня
  1. Rsa97
    11.02.2025 07:54
    #27906272
    И минимум в двух разнесённых в пространстве копиях.
    
    uuger
    11.02.2025 07:54
    #27906286
    и из них хотя бы раз получалось пробно восстановить данные )
    
    novoselov
    11.02.2025 07:54
    #27907062
    а если tape drive сразу после считывания зажевывал ленту? :)
    
    uuger
    11.02.2025 07:54
    #27907462
    если копирование было, как минимум, 3-2-1 - быстро, но без паники, делаем ещё один бекап на новый картридж, если нет, то как говорил главный разраб на моей первой работе, "можете начинать впадать в отчаяние" )
    
    beerchaser
    11.02.2025 07:54
    #27908230
    Зажеванную ленту, если ее не порвало в лоскуты, можно аккуратно прогладить теплым утюгом :). при некоторой удаче она вполне прочитается. Плотность записи на магнитной ленте ниже, чем на жестком диске, а избыточное кодирование также присутствует.
    
    nixtonixto
    11.02.2025 07:54
    #27908378
    Ключевое слово - тёплым, потому что можно ненароком достичь точки Кюри и вообще размагнитить ленту.
    
    beerchaser
    11.02.2025 07:54
    #27908430
    Утюг, разогретый до температуры Кюри для ферромагнетиков 8-0... Вы страшный человек :))) Там скорее основа (лавсан) поплавиться. Но таки да, гладить лучше отключенным от сети утюгом.
  1. Ziptar
    11.02.2025 07:54
    #27906302
    записанные лазером в кристалл*
    
    Я про целевое назначение технологии, а не про надёжность резервирования данных. Её, как и безопасность чего бы то ни было, можно наращивать если не до бесконечности, то по крайней мере до полной нецелесообразности.
    
    uuger
    11.02.2025 07:54
    #27906316
    а вы не читали про историю с ГАС Правосудие, например? Часть данных утрачена полностью и навсегда. Потому что вот такие "нецелесообразные" бэкапы существовали только по документам.
    Или, например, в штатах происходит более 1 инцидента в день, связанных с ransomware только в сфере медицинского обслуживания.
    В мире, где данные превратились в один из самых ходовых товаров, некоторые меры по их сохранению уже давно перестали быть избыточными
    
    Ziptar
    11.02.2025 07:54
    #27906364
    а вы не читали про историю с ГАС Правосудие, например? Часть данных утрачена полностью и навсегда. Потому что вот такие "нецелесообразные" бэкапы существовали только по документам.
    
    Как связано государственное ворьё и нецелесообразность избыточных мер в реальных задачах?
    
    Или, например, в штатах происходит более 1 инцидента в день, связанных с ransomware только в сфере медицинского обслуживания.
    
    И?
    
    В мире, где данные превратились в один из самых ходовых товаров, некоторые меры по их сохранению уже давно перестали быть избыточными
    
    Какие-то да, какие-то нет. Я не пониманию, к чему это сказано. Я написал, что бэкапы в целом избыточная вещь? Нет, не написал. Но то, что вы описали выше - в 99,95% случаев избыточные неадекватные меры.
    
    uuger
    11.02.2025 07:54
    #27906462
    Как связано государственное ворьё и нецелесообразность избыточных мер в реальных задачах?
    
    так, что были утрачены как продуктивные данные, так и бэкапы, размещенные на серверах/СХД. Кто-то из админов, видимо, заверил, что этого будет достаточно "в 99,95% случаев".
    
    Я не пониманию, к чему это сказано
    
    вот к этому:
    
    для очень важных данных, которые надо хранить долго
    
    Попробуйте посчитать ваши волшебные проценты, не выкидывая это приложение из контекста. (долговременное хранение, по отраслевым стандартам, это > 10 лет, если что)
    
    Ziptar
    11.02.2025 07:54
    #27906654
    Короче говоря, вы сами не понимаете, с чем спорите, вам важен процесс спора. Ок, но без меня.
    
    mgnskydiver
    11.02.2025 07:54
    #27907000
    А где почитать про ГАС Правосудие и "нецелесообразные" бекапы? Естественно, спрашиваю не про новости в лентах.
  1. MountainGoat
    11.02.2025 07:54
    #27907794
    Зашифровать и выложить в публичный торрент, всем заинтересованным в сохранении данных скачать на свои домашние компы.
    
    uuger
    11.02.2025 07:54
    #27907804
    Поздравляю, вы приняты на работу в Яндекс.Go

KonstantinTokar
11.02.2025 07:54
#27906280
Не раскрыт вопрос хранения бэкапов - зашифрованными или нет.
1. vassabi
  11.02.2025 07:54
  #27907712
  если у вас там хранятся просто деньги или персональные данные, фотки домашнего архива и пиратский софт - то лучше хранить незашифрованными (а безопасность обеспечивать физически - сейфом итд).
  
  А если данные лучше потерять навсегда (потому что забыл где лежит private key, отпаялась микросхема или космический луч случайно попал), чем иметь шанс что кто-то кроме вас их прочитает (терморектально или аналоги) - то храните зашифрованными.
  1. lightman
    11.02.2025 07:54
    #27909938
    Может возникнуть ситуация, когда диск вышел из строя и его придётся передавать в чужие руки: будь то в лабораторию по восстановлению данных или возврату по гарантии. Так что шифрование в любом случае желательно
    
    mayorovp
    11.02.2025 07:54
    #27911064
    Передавать намеренно зашифрованный диск в лабораторию по восстановлению данных - это сильно...
    
    lightman
    11.02.2025 07:54
    #27912374
    А разве нельзя просто посекторно восстановить данные, не вдаваясь в их смысл?
    
    mayorovp
    11.02.2025 07:54
    #27913306
    Это при условии, что на физическом уровне данные не побились. Например, если сдохла механика или отказал контроллер - ваша задумка удастся. А вот если физически диск читается, но файловая система повреждена...

Aelliari
11.02.2025 07:54
#27906282

Это NVMe-RAID?

Нет. У нас везде — SSD: они хорошо соединяются в массивы.

Эмм? Wat? NVME уже не SSD?

Нет, я понимаю, конечно, что nvme по последней версии спецификации не обязан быть строго SSD, и может был HDD (а такие есть вообще на рынке?), но я не думаю что такая уже попала к хостерам
1. Aelliari
  11.02.2025 07:54
  #27906436
  Хотя в целом, некорректно. Ибо NVMe - это интерфейс, а SSD - тип накопителя не содержащий механических частей. И SSD может быть как SATA, так и NVMe, или даже SAS.

Manrus
11.02.2025 07:54
#27906344
А вы уверены что raid 10 надежнее чем raid 6?
В данной таблице также учитывается ошибка чтения (bit error rate) что многие упускают при построении массивов
1. CherryPah
  11.02.2025 07:54
  #27906394
  у меня данная таблица вызывает некоторые сомнения.
  
  Я же правильно понимаю, что в ней утверждается, что за 5 лет у меня гарантированно развалится 5ый (97%) и почти гарантированно 10ый (82%) рейды?
  1. quartz64
    11.02.2025 07:54
    #27906486
    Не совсем. Расчеты на Bit Error Rate (кстати, он тут приведен для бытовых HDD, для серверных обычно заявляют 10^-15) показывают не вероятность вероятность полного выхода из строя накопителей или развала массива по другим причинам, а вероятность получить битые данные.
    
    При ребилде нужно прочитать данные с оставшихся дисков: объемы большие, так что тут казалось бы ничтожно малый BER начинает играть роль. RAID-5 во время ребилда лишен избыточности — этого желательно избегать и использовать RAID-6. Количество дисков в одном массиве тоже желательно ограничить и разбивать большие дисковые группы (вместо 36x RAID-6 использовать три 12x RAID-60, например).
    
    В этой таблице ещё и AFR учитывается (годовая вероятность отказа) и, видимо, рост AFR по мере выработки ресурса, так что таблица ещё и про полную потерю данных, но методика расчета не указана.
    
    AetherNetIO
    11.02.2025 07:54
    #27909094
    Вот за что люблю хабр. Нисколько не специалист по теме, но получила понятие по ней из коммента. Спасибо
  1. boulder
    11.02.2025 07:54
    #27906738
    Заметьте, эти вероятности указаны для случая, если у вас 12 дисков по 8Тб каждый ;)
    
    CherryPah
    11.02.2025 07:54
    #27907076
    Просто не первый год имею отношение к эксплуатации нескольких сотен десятых рейдов, каждый из которых как минимум вдвое больше, как по количеству шпинделей, так и по объему каждого (как раз 24х16TB as usual). Не то чтобы никогда ничего не разваливалось, но табличка с кучей страшных красных девяток немножко смутила.
    
    Хотя если речь о том, что за несколько лет один из 768 000 000 000 000 бит побьётся - ну да, тут сомнений нет, шансы действительно близки к 100% xD
  1. edo1h
    11.02.2025 07:54
    #27907032
    Да. При заданном BER. На практике BER ниже, так что абсолютные цифры в таблице не особо полезны.
  1. ahabreader
    11.02.2025 07:54
    #27910170
    Более того, по таблице он развалится из-за того, что его невозможно прочитать без исправления-ошибок-на-лету. То есть при нормальной эксплуатации каждый scrub с вероятностью ~97% встречает ошибки, но они исправляются за счёт избыточности*, а когда массив degraded, то они ведут к потере данных**.
    
    А если scrub не встречает ошибок? То настоящий URE гораздо ниже заявленного производителем - враньё спрятано в этом месте.
    
    * А одиночные диски как, без массива? Полное чтение 8 ТБ тогда должно встречать ошибку в половине случаев.
    
    ** Перечисляют такие варианты:
    - Худший: заменили диск, запускается восстановление, контроллер решает прибить массив после встречи битого сектора.
    - Чуть лучше: процесс прерывается на битом секторе, успешно завершить без простоев и ручной работы с сыпящимся диском нельзя.
    - Лучший: битый сектор пропускается и на уровне массива тоже помечается как нечитаемый.
    
    ildarz
    11.02.2025 07:54
    #27911278
    А одиночные диски как, без массива? Полное чтение 8 ТБ тогда должно встречать ошибку в половине случаев.
    
    А на одиночном диске вы эту ошибку при чтении просто не увидите. Читающее приложение получит некорректные данные, а что там с ними произойдет дальше - зависит от приложения. Если это битый пиксель в текстуре игрушки - никто ничего не заметит, а если кусок ключа шифрования... Silent data corruption это вот оно.
    
    ahabreader
    11.02.2025 07:54
    #27913684
    Это заблуждения №1 + №3 по первой ссылке (или здесь в соседней ветке о том, что классическому RAID'у нет дела до тихих ошибок - то есть тоже бы не увидели). URE - частота ошибок, которые не исправились с помощью ECC.
    
    Unrecoverable Error — A read error that cannot be overcome by an ECC scheme or by
    rereading the data when host retries are enabled - westerndigital.com
    
    Давайте аналогию с ECC RAM проведём.
    
    Там SECDED ECC обнаруживает и исправляет ошибки в 1 бите.
    
    Обнаруживает ошибки в 2 битах.
    
    А ошибки в 3 и более битах может принимать за однобитные или пропускать. Silent data corruption начинается тут.
    
    У вас получилось так, словно второго этапа не существует. Перескочили на третий пункт, вероятность которого гораздо ниже и отдельно не указывается (URE включает в себя в себя второй).
    
    ildarz
    11.02.2025 07:54
    #27913848
    Неисправимую ошибку вы на одиночном диске увидите, "тихую" нет. А рейд детектирует обе. При этом URE рейд сможет исправить, а "тихую" рейд с избыточностью в одну копию - нет, потому что не знает, где правильные данные. А в две - уже сможет и исправить.
    
    что классическому RAID'у нет дела до тихих ошибок - то есть тоже бы не увидели
    
    Ну очевидно же, что это не так - в рейде не совпадет четность или данные на зеркалах.
    
    И да, реальные вероятности ошибок, возможно, и сильно ниже, чем там на скрине написано, но качественной картины это не меняет.
    
    ahabreader
    11.02.2025 07:54
    #27914142
    А рейд детектирует обе.
    
    Только во время scrub'а. А при обычной работе будет выдавать мусор. md: "RAID1 ... Changes are written to all devices in parallel. Data is read from any one device".
    
    Знание, что данные побились месяц назад - не очень полезное. Если данные горячие, то они к моменту scrub'а могли перезаписаться и даже этого знания не будет. Если холодные, то толку как от прикладывания md5 к файлам на одиночном диске (без массива).
    
    А в две - уже сможет и исправить.
    
    Но в том же md не станет. Соседняя ветка комментариев.
    
    Ну очевидно же, что это не так - в рейде не совпадет четность или данные на зеркалах.
    
    Уже который раз пишу - она проверяется только во время scrub'а.
    
    И да, реальные вероятности ошибок, возможно, и сильно ниже, чем там на скрине написано, но качественной картины это не меняет.
    
    Не вижу смысла.
    
    Касательно долей "громких" (бэд-блоки) и "тихих" ошибок в URE: классические RAID'ы и классические файловые системы (без контрольных сумм для данных) ещё существуют, потому что URE в основном состоит из "громких" ошибок.
    
    Диск обычно справляется со своей работой (обнаруживать ошибки) и проблема тихих ошибок становится чем-то вроде проблемы памяти без ECC.
    
    Касательно последствий того, что URE ниже верхней границы заявленного: RAID5 в 2009 не переехал в учебник* к RAID2-4 именно поэтому. Крупные диски без массива удаётся использовать тоже поэтому.
    
    * Тут не нужен virtue signalling на тему опасности RAID5, скрытого подтекста нет, там буквальное "не переехал в учебник".
    
    ildarz
    11.02.2025 07:54
    #27916374
    Знание, что данные побились месяц назад - не очень полезное.
    
    Полезное, бесполезное - это уже решать тому, кто массив эксплуатирует. Учитывая, что scrub как функция присутствует примерно в любом массиве, большинство считает, что все-таки полезное.
    
    Но в том же md не станет.
    
    Это сугубо вопрос конкретной реализации. Если кто-то использует md в корпоративных хранилках или на больших массивах - ну, это его личный выбор.
    
    И еще раз - исходная картинка в целом не про то, что там может или не может md или еще какая-то софтина для организации рейдов. Она про то, что вероятность получить неисправимый косяк на рейде с одиночной четностью или зеркалом значительно выше, чем получить его же на рейде с двойной четностью. Всё. Когда этот косяк будет обнаружен, как конкретно поведет себя массив при его обнаружении - это уже детали реализации.
    
    классические RAID'ы и классические файловые системы (без контрольных сумм для данных) ещё существуют, потому что URE в основном состоит из "громких" ошибок.
    
    Они существуют, потому что общая вероятность получить сбои мала, цена ошибки в общем случае не слишком велика, а организация FS или рейда, при котором эти ошибки могли бы детектироваться онлайн - не бесплатная. И чем быстрее накопители - тем более сильно она не бесплатная.
    
    ahabreader
    11.02.2025 07:54
    #27917262
    И еще раз - исходная картинка в целом не про то, что там может или не может md или еще какая-то софтина для организации рейдов. Она про то, что вероятность получить неисправимый косяк на рейде с одиночной четностью или зеркалом значительно выше, чем получить его же на рейде с двойной четностью.
    
    Да при чём тут это, я указал на ошибку составителя картинки - он не смог связать в голове теоретический URE и практическую частоту ошибок, получаемую при scrub'е. Похоже на фейнмановское "Я обнаружил очень странное явление: я задавал вопрос, и студенты отвечали, не задумываясь [не задумываясь брали 10^-14 из даташита]. Но когда я задавал вопрос еще раз - на ту же тему и, как мне казалось, тот же самый вопрос, они вообще не могли ответить! [не понимают последствия числа за пределами сценария degraded RAID]".
    
    Указал, потому что меня задевает религиозно-мифический характер этой ошибки. Имею в виду статью о том, что RAID0 надёжнее, чем RAID5 и исступлённые реакции на неё (в ответ иронизируют: "Using RAID-5 Means the Sky is Falling!").
    
    Да, несмотря на эту ошибку RAID5 опаснее, чем RAID6, нам здесь не о чем спорить. Одно дело, когда мы можем пережить отказ 1 диска. Другое дело, когда 2 диска. Про URE можно не вспоминать - сортировку RAID'ов по надёжности она не меняет.
    
    Потом переключились на обсуждение тихих ошибок.
    
    это уже решать тому, кто массив эксплуатирует
    
    А я откажу ему в таком праве. Начали с того, что RAID при чтении на лету сверяет копии (чётность). Оказалось, что нет. Теперь цепляемся за шанс получить информацию о том, что данные побились в прошлом. Это слишком сомнительный подход, если нас волнуют тихие ошибки и непостоянные ошибки вроде misdirected read он не обнаружит.
    
    большинство считает, что все-таки полезное.
    
    Нет, большинство не считает, что scrub существует для борьбы с тихими ошибками в условиях отсутствия контрольных сумм для данных.
    
    Это сугубо вопрос конкретной реализации.
    
    Ars Technica утверждает, что "most arrays don't check parity by default on every read". Где сделано не так?
    
    Если кто-то использует md в корпоративных хранилках или на больших массивах - ну, это его личный выбор.
    
    В таких условиях могут зародиться контрольные суммы для данных (T10-PI и т.д.), которые и обнаружат тихие ошибки. Обнаружат независимо от RAID'ов, о которых мы говорим.
    
    Они существуют, потому что общая вероятность получить сбои мала
    
    Или потому что она для нас велика, иначе зачем нам вообще RAID. Причём адекватно среагировать классический RAID может только на "громкую" ошибку, о которой сообщит сам диск. Если их не гораздо больше, чем тихих - зачем нам RAID? Мне эта версия кажется более логичной.
1. sdy
  11.02.2025 07:54
  #27907318
  Тоже прикинул, взял для примера некоторые дефолтные данные - можно по ссылке посмотреть. В статье явно какая то своя собственная вероятность считается. Спрашивается, зачем народ вводить в заблуждение
  
  Probability of data loss over time:
  
  RAID10 - 0.0000017402781203
  RAID5 - 0.0000121801881046
  RAID6 - 0.0000000001197614
  
  Упоминание в статье про слабую надежность RAID6 связано с тем, что где то разболтался вентилятор и это убило массив. Но это же просто гипотеза, а RAID-10 он что тогда один единственный выжил, так?
  1. ntsaplin Автор
    11.02.2025 07:54
    #27912556
    Мы ни разу не упоминали о слабой надежности RAID 6, более того, в комментариях выше это уже обсуждали. Здесь баланс между надежностью, производительностью при ребилде и ценой вопроса.
1. ntsaplin Автор
  11.02.2025 07:54
  #27907740
  RAID 10 хоть и удваивает стоимость, зато обеспечивает прирост скорости как при чтении, так и при записи. В то же время RAID 6 ускоряет чтение, но заметно замедляет запись. В данном случае важно минимизировать просадку производительности во время ребилда.
  
  Стоит отметить, что при увеличении количества дисков RAID 10 выигрывает в надежности: вероятность одновременного или последовательного выхода из строя накопителей снижается благодаря дублированию данных.
  
  Однако при небольшом количестве дисков RAID 6 оказывается надежнее. Здесь, как и всегда, приходится искать компромисс между надежностью и производительностью.
  1. mayorovp
    11.02.2025 07:54
    #27907846
    Почему вообще идёт сравнение RAID 6 и RAID 10? А не, к примеру, RAID 6 и RAID 1? Ну или RAID 60 и RAID 10?
    
    AnrDaemon
    11.02.2025 07:54
    #27908474
    Потому что схемы хранения аналогичны по архитектуре. И там, и там используется 2x2 диска, и там и там отказоустойчивость приближается к n/2. Но если в RAID10 у вас откажут ОБА зеркала разом, можете помахать вашим данным ручкой. В RAID6 у вас могут отказать два ЛЮБЫХ диска, и всё равно есть шансы полностью восстановить данные. При увеличении количества дисков в массиве, надёжность RAID10 стремительно падает (или, точнее, непропорционально медленно растёт), в то время, как надёжность RAID6 почти не снижается.
    Про RAID5 даже говорить не стоит, ещё 8 лет назад доказано, что при современных объёмах дисков RAID5 ненадёжен в принципе.
    
    xSVPx
    11.02.2025 07:54
    #27909340
    Но зачем собирать зеркала в массив ? Почему нельзя отказаться от raid0 в пользу нескольких raid1? Довольно редко попадаются файлы размером в несколько терабайт
    
    Если у вас 10 дисков и это 5 массивов зеркал, то после выхода из строя первого диска, выход только одного из оставшихся 9 приведет к проблемам.
    
    AnrDaemon
    11.02.2025 07:54
    #27909860
    Виртуальная файловая система виртуальной машины может занимать несколько терабайт. Легко. В массовом хостинге таких систем на одном СХД может быть много. Тоже легко.
    
    mayorovp
    11.02.2025 07:54
    #27911084
    И там, и там используется 2x2 диска, и там и там отказоустойчивость приближается к n/2.
    
    Но нет же, это в RAID 60 отказоустойчивость приближается к n/2 при соответствующей настройке. А в чистом RAID 6 избыточность всегда составляет ровно 2 диска.
    
    Вот я и спрашиваю - какого фига вообще сравниваются варианты с избыточностью в 2 диска из N, и с избыточностью N/2 дисков из N, да ещё и на бесконечности, и на основании этого делаются выводы о бесполезности RAID 6? Почему до очевидного решения собрать эти RAID 6 в такой же RAID 0 автор не додумался?
  1. sdy
    11.02.2025 07:54
    #27908160
    Да это неверно то что при увеличении дисков якобы RAID10 становится надежней чем RAID6, вот для примера 16 дисков (выше было 8 дисков):
    
    RAID10 - 0.0000348049869834
    
    RAID6 - 0.0000000119738849
    
    Чем ниже число, тем выше надежность, не наоборот
  1. AnrDaemon
    11.02.2025 07:54
    #27908438
    Вы мухлюете. RAID6, как и RAID10, обеспечивает полное дублирование данных.
    
    Незначительная просадка по скорости при ребилде RAID6 компенсируется наличием CRC, что позволяет нивелировать BER (именно из-за отсутствия контрольных сумм ваш RAID10 ТОЧНО будет выдавать неверные данные при длительной эксплуатации).
    
    bazanovv
    11.02.2025 07:54
    #27908776
    А можем ли мы быть уверены в том, что контроллер RAID 6 сверяет контрольные суммы при чтении блока, если ни один из дисков не вернул ошибку? В процессе patrol read - да, безусловно, для того он и предназначен. А вот при обычном чтении?
    
    Akina
    11.02.2025 07:54
    #27908810
    Вы мухлюете. RAID6, как и RAID10, обеспечивает полное дублирование данных.
    
    Есть массив из 4 дисков. Вынимаем любые два. Предположим, что они исправны. В случае RAID-10 вероятность того, что с них можно снять все данные, которые хранились на массиве - 50%. В случае RAID-6 эта вероятность равна 100%.
    
    И это не мухлёж, а чистая арифметика.
    
    czz
    11.02.2025 07:54
    #27909060
    Это если у вас в RAID10 две реплики. А если три?
    
    AnrDaemon
    11.02.2025 07:54
    #27909850
    Финансово невыгодно. Три может быть разумно, если ты хочешь вынуть диск из рабочего массива. Умножаешь количество реплик, ждёшь синхронизации, потом убираешь лишний диск и понижаешь весь массив.
    
    czz
    11.02.2025 07:54
    #27909856
    Ну, финансовая выгодность — понятие относительное. Гигабайты дешевеют, то, что было невыгодно, становится выгодно. Соответственно, становится целесообразно масштабировать RAID10 "в ширину", достигая нужной степени надежности.
    
    aborouhin
    11.02.2025 07:54
    #27908940
    именно из-за отсутствия контрольных сумм ваш RAID10 ТОЧНО будет выдавать неверные данные при длительной эксплуатации
    
    Если реализовать его не на уровне аппаратного контроллера, а программно на уровне ФС (ZFS stripe+mirror, например) - не будет.
    
    ahabreader
    11.02.2025 07:54
    #27910196
    Вы три дурацкие ошибки допускаете.
    
    Если бы массивы сверяли содержимое дисков не только время scrub'а, то ~~они имели бы скорость одного диска~~, даже на линейном чтении. UPD: я тоже их допускаю, в полной мере замедление касалось бы RAID1.
    
    Если бы они это делали, то и на RAID1 и RAID5 - тоже. Потому что иметь ошибку при расхождении данных на дисках лучше, чем иметь неверные данные.
    
    UBER (aka URE) в основном состоит из "громких" ошибок, которые за счёт ECC обнаруживает сам диск. То есть он выдаёт не неверные данные, он выдаёт ошибку.
    
    И одну не дурацкую - термин BER используют в том числе для "сырых" ошибок (RBER), которые штатно исправляются через ECC на диске. UBER/URE точнее.
    
    ahabreader
    11.02.2025 07:54
    #27910308
    Ещё к 1: например, для md RAID есть подтверждение, что он игнорирует проблему "тихих" ошибок. "If a mismatch is detected in a RAID-6 configuration, it should be possible to figure out what should be fixed", но это требует допущения, что данные побились только на одном диске и этой возможностью не пользуются. check лишь отмечает, что на дисках есть несоответствие, repair лишь заново считает чётность.
    
    От остальных реализаций логично ждать примерно того же, тихими ошибками занимается другой слой (T10-PI / dm-integrity / zfs-btrfs-bcachefs / никакой).
  1. azgnetov
    11.02.2025 07:54
    #27911898
    Стоит отметить, что при увеличении количества дисков RAID 10 выигрывает в надежности
    
    В корне неверно. Вероятность отказа 2-го диска во время ребилда равна как из битой половинки, так и из небитой. Либо пишите сразу что у вас ~~много денег~~ тройное зеркало
    
    mayorovp
    11.02.2025 07:54
    #27911910
    Но при этом эта вероятность константная и не растёт с увеличением числа дисков, а у RAID 6 растёт. Так что тут автор прав. Неправ он в другом - в том что вообще забыл про RAID 60.
1. mixsture
  11.02.2025 07:54
  #27908132
  А как это вообще читать?
  Вот беру 4 drives, иду в колонку raid 5 и вижу какие-то циферки. Но...погодите, а как из 4х дисков сделать raid5 и raid6?
  Беру 6 drives и недоумеваю, а как из них сделать raid5 (один лишний, куда его деть?) и raid10 (ему же кратность 4х нужна)?
  1. mayorovp
    11.02.2025 07:54
    #27908344
    Уточнение: raid10 нужна кратность 2х.
    
    vvzvlad
    11.02.2025 07:54
    #27909554
    Это тогда raid1 будет
    
    mayorovp
    11.02.2025 07:54
    #27911116
    В raid1 просто два диска, без всякой кратности (можно и больше, но зачем?)
  1. gluki
    11.02.2025 07:54
    #27908356
    Кажется вы где-то запутались, в "raid5" и т.д. цифра - это же название типа рейда, а не количество используемых дисков.
    raid5 - это любые n дисков фактического объёма +1 избыточный (из 4х дисков это 3+1), raid6 - это n+2.
    raid10 из 6 дисков - три пары или два тройных зеркала.
    
    mixsture
    11.02.2025 07:54
    #27908410
    Наверно, вы правы. Я до этого думал, что число дисков там неизменно и соответствует цифре (этакая зафиксированная пропорция данных и избыточности) - и можно только кратно увеличить.
    
    Вообще, при такой вольной интерпретации цифр в raid10 из 6 дисков - теперь название рейда уже не отражает одну конкретную систему, т.к. возможны 2 разные комбинации: мы либо stripe делаем на 3 диска, либо mirror на 3 диска - и это теперь 2 системы с абсолютно разными характеристиками записи, чтения и отказа. Наверно, их бы и называть надо как-то по-разному.
    
    AnrDaemon
    11.02.2025 07:54
    #27908524
    RAID10 читается как "raid one zero" - это синтез RAID1(mirror) и RAID0(stripe).
    
    RAID5 это минимум 3 диска с распределённой контрольной суммой. 4-й диск добавляют редко, его использовать можно либо как hot spare, либо как дополнительное хранилище для контрольной суммы. Но в последнем случае лучше использовать…
    
    RAID6 это 2n дисков (не менее 4) с распределённой И ОТЗЕРКАЛЕННОЙ контрольной суммой.
    
    Так понятнее? И вообще, статья на педивикии достаточно полно раскрывает тему для чайников.
    
    Ilya_JOATMON
    11.02.2025 07:54
    #27909076
    RAID5 - это когда по дискам еще + XOR блок от всех блоков в страйпе. Придуман был в то время когда контроллеры еще слабые и ничего серьезнее посчитать не могли.
    
    RAID6 - это уже + 2 блока к блокам страйпа, но не с контрольной суммой, а с кодами коррекции ошибок, эти коды позволяют восстановить любые два из страйпа.
    
    falcon4fun
    11.02.2025 07:54
    #27909920
    Интересен стал глупейший вопрос: Теоретически скорость восстановления умерших 2х страйпов (реальные данные) или 2 парити отличаются для контроллера? Или в плане времени ему плевать? Парити в отличие от адапта же физически находится на определенном, выбранном контроллером при инициализации диске?
    
    Честно, предположу что вопрос дикий. Но никогда не вдавался в низкоуровневую приципиальную схему ребилда 6 рейда.
    
    Как и не вдавался, как рейд миграция (конверсия) работает.
    
    mayorovp
    11.02.2025 07:54
    #27911146
    Там в любом случае нужно поблочно считать все диски и записать отсутствующие. Если не железе не экономили, то в скорость этих чтения и записи восстановление и упирается, сами расчёты отсутствующих данных не фоне вывода-вывода должны быть незаметны.
    
    Ilya_JOATMON
    11.02.2025 07:54
    #27914470
    Блоки парити не на одном или 2х отдельных дисках. Они перемешаны на разных страйпах, соответственно по дискам. Соответвенно от расположения страйпа в массиве зависит где будут в нем эти блоки парити.
  1. Akina
    11.02.2025 07:54
    #27908820
    RAID-5 вовсе не означает, что он состоит строго из 5 дисков! В нём может быть и 3, и 5, и 8 дисков... ТО же и для RAID-6, только минимально в нём может быть не 3, а 4 диска.
1. Wendor
  11.02.2025 07:54
  #27909970
  У меня один раз из-за перебоев с питанием на 10 рейде из 8 дисков умерло 4. Рейд выжил.

m_sinelnikov
11.02.2025 07:54
#27906354
Статья понятная и представление у меня уже 15 лет именно такое же. Хотелось бы увидеть аналитику в разрезе (стоимость хранения 1 единицы данных)/(надежность) для разных типов рейда и моделей современных дисков. Тогда можно было бы ответить на вопрос: а какой мне рейд собирать с какими дисками чтобы я мог гарантированно сохранить свои данные N часов с вероятностью Х%.
1. uuger
  11.02.2025 07:54
  #27906502
  моделей современных дисков
  
  осталось понять, где взять надежную статистику. даже крупный провайдер инфраструктуры пользуется весьма ограниченной номенклатурой дисков, а производители вряд ли публикуют данные, которые выставят их в невыгодном свете
  1. buldo
    11.02.2025 07:54
    #27908462
    Тут только статистика backblaze...
1. outlingo
  11.02.2025 07:54
  #27907270
  Фиг с ней со стоимостью хранения, есть куда более интересная метрика IOPS per GB.

Akina
11.02.2025 07:54
#27906376
Я только не понял - а вы не пробовали подумать про hot spare? Это же практически мгновенная замена вышедшего из строя диска, и нет никаких проблем с "могут ждать замену диска и неделю". Да и вероятность "во время ребилда в массиве умер второй диск" тоже изрядно снижается.

Да, это не диск в ЗИПе, его ресурс расходуется (у меня лично был случай, когда умер именно диск в горячем резерве). Да, он кушает порт. И тем не менее это весьма разумный, и не сказать что избыточно дорогой (кстати, подешевле десятки будет), способ повышения надёжности хранения данных.
1. sintech
  11.02.2025 07:54
  #27906452
  вероятность "во время ребилда в массиве умер второй диск" тоже изрядно снижается
  
  Почему снижается, запасной диск же один?
  1. Akina
    11.02.2025 07:54
    #27906494
    Смотря какой РАЙД и сколько дисков в горячем резерве. Ну и, конечно, время реакции на факт выхода из строя тоже важен. Просто наличие дисков горячего резерва максимально уменьшает время от момента выхода из строя накопителя и до момента завершения ребилда - и, как следствие, понижает вероятность утраты данных при кратном инциденте.
    
    Нет, понятно, что если пробьёт блок питания, и на диски начнёт записываться 220 вольт, никакой горячий резерв не поможет.
1. quartz64
  11.02.2025 07:54
  #27906606
  Hot-spare не поможет сохранить целостность данных при ребилде RAID-5.
  Допустим, у нас есть 12 серверных HDD (c Bit Error Rate = 1E-15) по 12 ТБ.
  Вероятность получить с одного HDD при чтении всего объёма что-то не то: 9,6E+13 × 1E-15 = 0,096.
  
  Вероятность для 12 дисков нужно считать через дополнение. Находим вероятность того, что всё будет хорошо для 12 HDD:
  (1 - 0,096)^12 = 0,3
  
  Находим обратную: 1 - 0,3 = 0,7. 70% — это уже серьёзно. Так что спасёт нас только RAID-6, при большом количестве дисков — RAID-60 с подгруппами умеренного размера (не больше 10-12 HDD) плюс hot-spare, разумеется.
  1. Akina
    11.02.2025 07:54
    #27906886
    Иными словами, вы просто не поняли, что я сказал. А я рассматриваю только и исключительно два варианта.
    
    Первый - диск вылетел, контроллер подключил hot spare и запустил ребилд, техник через Х времени пошёл за новым диском на замену, принёс, вставил.
    
    Второй - диск вылетел, техник через Х времени пошёл за новым диском на замену, принёс, вставил, контроллер запустил ребилд.
    
    Всё, больше ничего не рассматривается и ничего не сравнивается.
    
    NoOne
    11.02.2025 07:54
    #27908530
    Шанс вылета больше не во время ожидания, пока техник вставит диск, а во время самого ребилда. Поэтому время ожидания запасного диска хоть и увеличивает шанс проблем, но это не основной фактор
1. ntsaplin Автор
  11.02.2025 07:54
  #27907738
  Hot spare от выхода из строя второго диска во время ребилда не спасает никак. У нас в каждом дата-центре есть оперативный запас дисков и замена происходит очень быстро. В данном случае hot spare мы все равно изучим как мысль, спасибо!
  1. Akina
    11.02.2025 07:54
    #27907760
    Повторюсь - количество hot spare дисков не обязано быть единичным. Более того, они обычно не привязываются к массиву. То есть грубо - у вас, скажем, есть полка на 48 дисков, из 44 вы собираете 4 райда-шестёрки по 10-12 дисков, и 4 стоят в горячем резерве. В каком бы из массивов какой диск не навернулся, резервный тут же займёт его место. То есть вроде бы по арифметике и по одному диску на массив, а на практике у каждого массива их аж 4.
    
    NoOne
    11.02.2025 07:54
    #27908538
    В том и проблема, что тут же не займёт место. Начнётся ребилд, в этом и есть шанс умереть.
    
    Akina
    11.02.2025 07:54
    #27908830
    В том и проблема, что тут же не займёт место.
    
    Да? Тогда вопрос - а как ВЫ видите процесс включения диска горячего резерва в работу?
    
    Начнётся ребилд, в этом и есть шанс умереть.
    
    Шанс-то есть всегда, даже когда диск лежит на складе в коробке. Но обоснуйте, почему ребилд, по вашему мнению, повышает вероятность выхода накопителя из строя.
    
    Jsxii
    11.02.2025 07:54
    #27908872
    Потому что при ребилде постоянная занятость рейда - прочитать-пересчитать-записать. Нагрузка сильно выше.
    
    falcon4fun
    11.02.2025 07:54
    #27909934
    Примерно по той же причине по которой "снапшот снижает производительность вм". Количество iops в 2ое больше на каждую операцию.
    
    Запустите в Виктории тест вида read-write-verify. Оцените изменившуюся скорость, температуру, нагрузку на диск :)

in11w
11.02.2025 07:54
#27906504
По опыту, 10 тоже умирает при потере двух дисков. Если не повезет. По примерно описанному сценарию. Возможно, не все такие случаи в статистике учитываются.
1. Akina
  11.02.2025 07:54
  #27906530
  По опыту, 10 тоже умирает при потере двух дисков.
  
  Ну не умирает, а может умереть. Для десятки из 4 дисков это будет 50% - могут помереть одинаковые в парах, а могут и разные, и тогда из оставшихся двух информация поднимается стопроцентно. Не скажу за "средствами контроллера при ребилде", но вручную при отсутствии шифрования - точно.
  1. in11w
    11.02.2025 07:54
    #27906584
    По личному опыту, помирают в парах - такие случаи были. Единичные. Но лично я их вероятность ничтожной не считаю.
    
    AlexSpirit
    11.02.2025 07:54
    #27907136
    По личному же опыту. Не надо собирать RAID на дисках из одной партии. А ещё лучше что бы они были разных производителей (я не про наклейку на диске, если что)
    
    tremp
    11.02.2025 07:54
    #27909882
    Автор статьи написал же, что это городская легенда ) (я не админ и за свою трудовую деятельность админил десяток серверов - и то у меня было 2 случая, когда диски в рейде выходили из строя с разницей 2дня - неделя).
    
    AlexSpirit
    11.02.2025 07:54
    #27910390
    А у меня во время ребилда.

saag
11.02.2025 07:54
#27906538
Была у меня такая история, RAID 5, диск помирает, ставлю другой, ребилд и помирает Raid-контроллер. Купили какой то ноунэйм, пожадничали.
1. NikNikolson
  11.02.2025 07:54
  #27906666
  К сожалению, и на вполне приличных неноунейм системах случаются вылеты контроллера или глюки в прошивках с печальными последствиями. Тут только бэкап спасает и нормальная поддержка.
  1. AntonLarinLive
    11.02.2025 07:54
    #27906770
    В большинстве случаев бекапы лежат на таких же RAID-массивах, так что к ним применимо всё тоже самое, и вылеты контроллеров, и дисков.
    
    Lazhu
    11.02.2025 07:54
    #27906832
    
    AntonLarinLive
    11.02.2025 07:54
    #27906922
    Про них гораздо больше пишут и говорят, чем не то что используют, а хотя бы видели оборудование вживую.
    
    buldo
    11.02.2025 07:54
    #27908478
    Можно домой купить ленточное оборудование по цене 3-4х 8ТБ дисков. Вот тут и думаешь, а нужна ли лента или можно использовать большие hdd как картриджи для холодного хранения
    
    mvv-rus
    11.02.2025 07:54
    #27909398
    а хотя бы видели оборудование вживую
    
    Ну, я видел. И не только видел. Если чо, я админом тогда работал, главным.
    
    falcon4fun
    11.02.2025 07:54
    #27909950
    Кто последний эникей в фирме остался, тот и главный архитектор. Ну знаете сами :D
    
    Весело еще подпихивать в эту ленту периодически чистку головки, вычитывать бэкапы раз в какое то время, подсовывать чистящие касеты, менять вылетевшие ленты, порой смена касеты лагает. И при этом все настолько быстро происходит, что я шатал трубу этого недообразия времен второй мировой.
    
    Имел тоже дело с HPEшной лентой. То ли г4, то ли г3. Та, где вебморда на iLo3 похожа. То количество гемороя с ней в совокупности к убогому Veritas-у (стоял у клиента), вложенному времени и т.п.: проще купить нормальную полку и забыть :D
    
    CherryPah
    11.02.2025 07:54
    #27910244
    Та, где вебморда на iLo3 похожа.
    
    Ну это еще не самое страшное. Вот если бы там на iLo2 было похоже - тут надо бежать сверкая пятками
    
    E2a
    11.02.2025 07:54
    #27917514
    Ленточные библиотеки спасают. Там и чистящая кассета живёт, чистится когда нужно. Если стример на одну кассету с ручной заменой, то это грустно.
    
    RolexStrider
    11.02.2025 07:54
    #27914418
    Я в начале-середине нулевых работал "сисадмином средней руки" у провайдера (они же тогда зачастую и хостерами были). Так вот, был девайс у нас, до которого руки ни у кого не доходили: ленточная библиотека LTO (уже точно не помню какого поколения) с чейнджером на 6 кассет. А основной ОС у провайдеров в то время была FreeBSD. Так вот, одной из первых задач на работе была "разберись и запусти". А на десктопах у нас тоже FreeBSD или Linux стояла. Ну я с ней конкретно помудохался (как сейчас помню, это была Amanda ранних версий) - но завёл на своем компе, о чем и отчитался шефу. На следующий день прихожу на работу - комп выключен. Включаю - загрузка с диска не идет (но в BIOS определяется). Я слегка в шоке. И тут заходит шеф: "Настроил? Все работает? Тогда ВОССТАНАВЛИВАЙ! Включаю таймер, время пошло".
    Восстановил. Минут за 40.
    
    E2a
    11.02.2025 07:54
    #27916078
    Больше зависит от рассматриваемого сегмента экономики и его субъектов. В малом бизнесе лента будет легендой, в среднем скорее тоже, в крупном бизнесе лента используется активно.
    
    В коммерции "купи/продай" с ленточными бэкапами скорее никак, никогда не видел. В промышленности - по всякому, в зависимости от конкретного субъекта.
    
    В госах вообще своя собственная атмосфера...
    
    AntonLarinLive
    11.02.2025 07:54
    #27917184
    О том и речь, что в теории любят рассуждать про ленты. На практике же это вещь в себе, в основном используется крупными организациями. Но у них обычно не только на ленты, но и на полки, и на СХД, и на ЦОДы денег хватает.
    
    E2a
    11.02.2025 07:54
    #27917274
    Да, и СХД, и дисковые полки имеются. Хотя гиперконвергентная инфраструктура сделала СХД с дисковыми полками не столь актуальными, но бэкапы всего этого добра на ленту актуальности не потеряли.
    
    ildarz
    11.02.2025 07:54
    #27906944
    Прод и бэкап - две независимые системы (рассматриваем случаи грамотного проектирования). Полагаю, не надо объяснять, как считается вероятность отказа двух независимых систем одновременно?
    
    AntonLarinLive
    11.02.2025 07:54
    #27907024
    В теории - да. На практике бекапы могут лежать на той же СХД, на том же сервере. Каждый экономит на своих спичках.
    
    TestNickname
    11.02.2025 07:54
    #27907116
    В том же датацентре, как это было с великим пожаром в OVH.
    
    tremp
    11.02.2025 07:54
    #27909890
    Это экономия не на списках - на другом....

riky
11.02.2025 07:54
#27906568
Интересно бы услышать разную статистику по объемам умирающих hdd, ssd, m2.
1. ntsaplin Автор
  11.02.2025 07:54
  #27907736
  Мы не ведем подобную статистику. Причина — мы целенаправленно при редиплое оснащаем серверы только SSD дисками. Новые тоже только в SSD. M2 диски мы не используем.
1. falcon4fun
  11.02.2025 07:54
  #27909952
  Вам в квартальную и годовую стату Бекблейза.

kenomimi
11.02.2025 07:54
#27906598
А разве хорошие серверные NVMe ссд помирают так чтобы совсем? Они же вроде тупо в ридонли уходят, если ресурс закончился или посыпались внезапные ошибки на записи...
1. ildarz
  11.02.2025 07:54
  #27906662
  SSD - это, очень грубо говоря, плашка памяти с управляющей электроникой. Умершую память никогда не встречали? А материнки и всякие контроллеры?
  1. Zhmak
    11.02.2025 07:54
    #27915602
    Не просто управляющей электроникой, а своей SoC, на которой крутится своя ОС. Сложность системы зашкаливает.
1. edo1h
  11.02.2025 07:54
  #27907042
  Конечно помирают. Как и процессоры, материнские платы, etc
1. ntsaplin Автор
  11.02.2025 07:54
  #27907732
  У нас пока ни один NWMe не умер, не можем поделиться опытом)
1. Okeu
  11.02.2025 07:54
  #27908050
  очень даже) да и так, что потом центры восстановления данных с банок ничего прочесть не могут))
1. pnetmon
  11.02.2025 07:54
  #27908274
  Не про полное помирание, но помирание.
  
  Стояли в зеркале два NVMe для NAS (WD Red SN не энтерпрайс решения) и все было хорошо пока раз не обнаружилось через 6-9 месяцев что диск пропал из системы, пока решалось что и как оказалось что обесточивание компьютера возвращает диск в работу, через несколько месяцев повторение ситуации, после этого замена на SATA решения т.к. доступный ассортимент скукоживался в связи с известными событиями. Компьютер никогда не выключается. В англоязычном сегменте для этой модели несколько упоминаний о похожих симптомах. А если бы такое без RAID.
  1. kmosolov
    11.02.2025 07:54
    #27908396
    оказалось что обесточивание компьютера возвращает диск в работу, через несколько месяцев повторение ситуации
    
    Аналогичная ситуация была с NVMe SSD HP EX950, думал что проблема только в периодической недоступности диска, а на деле всё оказалось хуже - часть данных на диске "занулилась", ладно данные были не критичные, пришлось "разжаловать" этот диск в внешнюю "переноску" для файлов.
1. uranik
  11.02.2025 07:54
  #27908496
  У некоторых от нагрева и времени безсвинцовый припой отлетает и привет, ридонли не поможет.
1. Zhmak
  11.02.2025 07:54
  #27915680
  В R\O уходит только в случае невозможности записи по причине износа или какой-то нефатальной программной ошибки.
  
  Помимо банков флеш памяти есть куча других точек отказа, где устройство просто не сможет инициализироваться.

Alexandro_Live
11.02.2025 07:54
#27906752
Помню одну одну историю как один знакомый пытался устроится в рувдс на одну из руководящих должностей. Самый первый вопрос был, чем отличаются TCP от UDP. После первого вопроса поняли что не подходят друг другу. Если по теме, то как правило не хватает всегда дисков и все диски работают на износ. Ни когда не видел, что бы изначально были хоть какие то разумные расчёты.
1. Tomasina
  11.02.2025 07:54
  #27915918
  чем отличаются TCP от UDP.
  
  А руководитель должен это знать? Его задача - координировать действия тех, кто знает, и сделать это (решить проблему): а) с минимально возможными последствиями; б) быстро; в) недорого.
  1. Lazhu
    11.02.2025 07:54
    #27916418
    а) с минимально возможными последствиями; б) быстро; в) недорого
    
    выберите любые два пункта
    
    Tomasina
    11.02.2025 07:54
    #27918462
    В этом и состоит искусство руководителя - крутиться между сущностями и выбирать оптимальный вариант.

ABRogov
11.02.2025 07:54
#27906834
диски, конечно, — расходники, но при этом недешёвые.

Спорное утверждение, сейчас любая память дешева как никогда. Просто рынок движем мамкиными скупердяями для которы хостинг за 2.99 гораздо более предпочтителен, чем за 5 или 10, хотя по сути разницы нет совсем. И это понятно, большинство задач не чувствительны к потери данных.
1. Tomasina
  11.02.2025 07:54
  #27915924
  хотя по сути разницы нет совсем
  
  Ну если нет разницы, зачем платить 5 или 10, если можно заплатить 2,99?
  1. ABRogov
    11.02.2025 07:54
    #27917864
    Если нет разницы, зачем вы выделяете один из вариантов?

Lazhu
11.02.2025 07:54
#27906868
Забыли упомянуть, что R10 производительнее R5 в 2 раза и R6 в 3, в общем случае.
1. falcon4fun
  11.02.2025 07:54
  #27909974
  Только не везде она нужна. Полка с нормальными контроллерами вполне так неплохо кладет данные на 6-ой рейд.
  
  Ну и опять же кейсы. Бэкап сервер например. 14 дисков по 10 тб. Сильно уверены, что вам на инкрементные бэкапы нужны скорости уровня пушка-гонка в несколько в 5 ГБ/с? Так то такое кол-во шпинделей вполне себе нормально 500-600 МБ/с на запись выдают при условии какого-нибудь PERCа с 8 гб кэша.
  
  Большой красной кнопки с golden решением не существует.

Mnemonic0
11.02.2025 07:54
#27907104
Мы решаем так: Raid6, туда где можно помедленее и позволителен простой, Raid10 - везде, Raid10+HS туда где должно работать максмально шустро.

Остальное на уровне приложений: кластера, реплики, бэкапы

Selavi2018
11.02.2025 07:54
#27907218
Ваша статья про рейд массивы из NVME дисков датируется 2021 годом. На дворе 2025 . Насколько я знаю рейд контроллер Dell H965i вполне себе позволяет их создавать и просадка в производительности по сравнению с одним диском очень небольшая
1. Night_Snake
  11.02.2025 07:54
  #27909202
  Смотря сколько дисков вам нужно собрать в RAID. Судя по спекам он выдаёт не более 16 GT/s, что соответствует PCIe Gen4 x1. Тогда как нормальный энтерпрайзный NVMe подключается по U.2 на скорости до 32GT/s (на диск). И это топовый контроллер.

Black_Spirit
11.02.2025 07:54
#27907228
У нас всего 3 СХД по 12 дисков в raid 6. За 10 лет был случай одновременного выхода из строя дисков одной партии. В один день. И было 2 случая выхода из строя второго диска при ребилде. Два из трёх СХД отзеркалены и географически разделены. Третий СХД это холодный бекап. Предполагается, что холодный бекап сохранится, если все остальное подвергнется воздействию шифровальщика. Думаю, такой подход достаточно надёжен, чтобы спать спокойно
1. xSVPx
  11.02.2025 07:54
  #27909414
  Никакой подход не позволяет спокойно спать. К сожалению :(.
  
  Ну т.е. либо некий пофигизм, либо "фиг заснёшь". Всегда можно придумать сценарий отказа :(
1. Frankenstine
  11.02.2025 07:54
  #27911906
  Предполагается, что холодный бекап сохранится, если все остальное подвергнется воздействию шифровальщика.
  
  А если шифровальщик никак не проявляет себя в течении скажем месяца? Думаю, за это время ваш холодный бэкап уже отравится.
  1. mayorovp
    11.02.2025 07:54
    #27911932
    Это вообще как?
    
    Frankenstine
    11.02.2025 07:54
    #27912034
    Ну вот так - шифровальщик шифрует данные, но расшифровывает налету при запросе из пользовательских программ, так что заражение не заметно. Бекап, если создаётся не на уровне данных программным образом, а например копированием данных "уровнем выше" (копирование файла виртуального диска vps у провайдера)- копирует зашифрованные данные. Восстановление из этого бэкапа приведёт к восстановлению зашифрованного диска, расшифровку которого умеет шифровальщик, но если вы восстановили бэкап - вероятно потому, что шифровальщик уже вымогает с вас денежку и откажется расшифровывать налету после восстановления из бэкапа.
    
    mayorovp
    11.02.2025 07:54
    #27912092
    Так ведь состояние шифровальщика тоже будет восстановлено из бэкапа, если бэкап был сделан "уровнем выше".
    
    alhimik45
    11.02.2025 07:54
    #27912154
    Шифровальщик мог держать ключ в памяти и получать его с сервера. Состояние сервера злоумышленика не восстановишь..
    
    ildarz
    11.02.2025 07:54
    #27912116
    Холодный бэкап - это, в обсуждаемом контексте, тот, что лежит вне доступа после снятия. Разумная стратегия бэкапа обычно подразумевает хранение неизменяемых копий данных глубиной от месяца до нескольких лет, в зависимости от типа данных и потребностей.
    
    xSVPx
    11.02.2025 07:54
    #27917932
    Возьмете более старый бэкап, тут уж ничего не поделать.
  1. Black_Spirit
    11.02.2025 07:54
    #27911980
    При актуализации бекапа сначала запускаем Robocopy в режиме сравнения с записью в лог. Если будут массовые аномалии в виде измененных файлов или метаданных, мы это сразу заметим и запись в бекап только после выяснения причин массового изменения файлов.
    
    Frankenstine
    11.02.2025 07:54
    #27912976
    Это если вы делаете пофайловый инкрементальный бэкап на программном уровне в самой системе по какому-то сетевому протоколу на не локальное устройство, доступ к которому не может быть перехвачен шифровальщиком, прикидывающимся драйвером. Если бэкап создаётся "выше уровнем" - системой снапшотов диска на уровне провайдера виртуализированного оборудования например, то такие бэкапы будут содержать уже зашифрованные данные. Кстати шифровальщик может оказаться "хитрым" и шифровать файлы постепенно, по мере доступа к ним со стороны программ. Тогда изменения файлов будут совпадать с временем их использования. Я к тому, что проверка бэкапов на валидность должна производиться периодически, чтобы corruption было обнаружено до того, как бэкап таки понадобится прямо здесь и сейчас.
    
    Black_Spirit
    11.02.2025 07:54
    #27913008
    Да, вы верно заметили, я описывал наши действия применительно к файловому резервированию. И организация доступа к СХД с бекапами не подразумевает постоянное включение в сеть и хранение паролей где-либо кроме мозга. Поскольку на СХД есть версионирование, то переполнить его частиичным заспамиванием шифрованными файлами и не вызвать рано или поздно подозрений, я считаю крайне маловероятным.
    
    А ВМ резервируются по другому контуру. Там и содержимое ВМ отдельно, и состояние ВМ отдельно.

rm76
11.02.2025 07:54
#27907256
В RAID 10 -- резервирование 2N

- ага. но только у везучих.
1. vdudouyt
  11.02.2025 07:54
  #27907776
  Истину глаголите, самолично неоднократно видел развалившиеся как RAID 5, так и RAID 10 (те самые, вероятность падения которых вроде как теоретически составляет 2^-100500). Кроме того, если после закупки 2x места экономика у вас все еще сходится, не будет ли более целесообразно отдать его под бэкап?

aluminic
11.02.2025 07:54
#27907268
Почему-то никто не вспомнил про сигейты и муху це-це
1. Magnum72
  11.02.2025 07:54
  #27907554
  Это дела давно минувших дней, меня больше волнует почему никто не вспоминает о проблеме с HP дисками когда они умирали когда у них счетчик отработанных дней переполнялся. https://habr.com/ru/companies/ruvds/articles/681158/
1. Magnum72
  11.02.2025 07:54
  #27907568
  Еще лет 25 назад была проблема с DTLA серией от IBM
  1. Lazhu
    11.02.2025 07:54
    #27907694
    вспомните еще фуджики mpg серии

Arxitektor
11.02.2025 07:54
#27907496
В RAID 10 -- резервирование 2N

- ага. но только у везучих

Я же правильно понимаю если брать минимум из 4 дисков.
1. R10 и R6 Выживают при отказе любого из дисков.
2. Если при ребилде отказывает диск то в случае R6 это может быть любой диск. А в случае R10 может не повезти и будет потеря данных ?
1. Akina
  11.02.2025 07:54
  #27907714
  Было 4 диска, осталось 2. Но в случае RAID10 это могут быть два диска с одной и той же половинкой, и вторую не восстановить. В случае же RAID6 данные восстанавливаются по любым двум из начальных 4.
  
  Так что с формальной точки зрения вы правы. А с практической - в случае 10 всё и так понятно, а в случае 6 ещё неизвестно, как поведёт себя контроллер. Сможет ли он опознать дуплет и отребилдить оба несинхронизированных диска, пусть формально и обязан.
  1. AnrDaemon
    11.02.2025 07:54
    #27908558
    Бредите. Правда. Что значит "сможет-не сможет" ? Это "ну нишмагла я…" что ли?
    
    Akina
    11.02.2025 07:54
    #27908838
    На практике с дуплетами (не два сразу, а именно один, а во время ребилда второй) не сталкивался. Отчёта о таком инциденте - не видел и не читал.
    
    А вот как раз с ситуациями из разряда "должна я, но не шмогла я" - сталкивался. Пример из жизни: вынули из корзины 3 диска, случайно вставили не в том порядке - и контроллер отказался пересобрать массив. Хорошо, окончилось нефатально - с четвёртого раза порядок угадали.
    
    alhimik45
    11.02.2025 07:54
    #27909560
    Блин, сколько уже лет в подобных темах читаю истории про корявые контроллеры. Там же алгоритмы не рокет саенс, за столько лет сколько RAID существуют так и не научились нормально делать?
    
    AnrDaemon
    11.02.2025 07:54
    #27909838
    В аппаратном контроллере, предполагаю, очень упрощённые алгоритмы. Печально.
    
    falcon4fun
    11.02.2025 07:54
    #27909862
    R740xd. Глючный бекплейт рандомно отрыгивал часть дисков. Каждый раз случайное количество. Все разы массив себя поднимал после power draina.
    
    Фактически, как мне кажется, зависит от глючности FW. Порой ченджлоги встречаются вида "определенное количество команд таймаутов, отрыгивает диск из массива". Но опять же. В некоторых стораджах можно зафорсить диск обратно при определенных ивентах. С огромной 72 шрифтом припиской "только если очень уверены что диск жив".

Sadok
11.02.2025 07:54
#27907836
RAID - это не бэкап. NAT - не фаервол. Сколько можно твердить? Хотя... Без буратин же никуда.

305mm
11.02.2025 07:54
#27907998
Сюрприз!

Выход из строя двух дисков может убить и десятый рейд. Просто вероятность меньше. Грубо говоря, вероятность смерти рейда при выходе второго диска в десятке из 4 дисков 1/3, из 6 - 1/5. И т.д. 14 - 1/13.

Шестерка же от двух дисков не гибнет.

Может лучше пустить лишние диски на бэкапы, чем почти удваивать количество дисков?
1. KonstantinTokar
  11.02.2025 07:54
  #27909084
  Там ведь ещё и скорость растёт, и диски становятся сравнительно починяемыми, и ребилд есть шанс завершить до смерти админа.

atd
11.02.2025 07:54
#27908192
и во время ребилда в массиве умер второй диск

Пффф. Добро пожаловать в реальный мир, это старо собственно, как и сам RAID5, во время ребилда ещё может и сам контроллер сказать «я устал я ухожу». Вообще, успешный ребилд RAID5 можно получить только в лабораторных условиях.
1. vvzvlad
  11.02.2025 07:54
  #27909556
  Вообще, успешный ребилд RAID5 можно получить только в лабораторных условиях.
  
  Что, простите?

CrazyElf
11.02.2025 07:54
#27908222
Ээээ, судя по посту и комментариям у вас там даже hot spare не было?! 30 лет назад, когда я работал на ИВЦ Прив. ЖД у нас там были RAID5 с hot spare и всё было отлично, только вот админы настолько расслабились, что сначала умер диск в рейде, рейд автоматически подхватил hot spare и заребилдил, потом через какое-то время умер ещё один диск... А когда админ наконец-то чухнулся и заменил один из умерших дисков, ребилд шёл очень долго и в его процессе умер таки ещё один диск. Но это потому, что и админ прощёлкал один умерший диск и поставки дисков IBM шли очень долго, их нужно было заказывать заранее и у нас в какой-то момент просто не было дисков на замену.

А ещё у нас был случай (и, кажется, не один), когда в рейде 1 умирал контроллер, похоронив с собой оба диска.
1. falcon4fun
  11.02.2025 07:54
  #27909848
  Ну если контроллер использует DDF метод (не проприетарный, где данные о рейде пишутся в DDF), то можно тыркнуть в любой другой схожий и оно подхватит.
  
  По этой причине очень весело незатертые диски пихать в живой сторадж какой, а потом внезапно получать второй массив, где жив один диск. Вынимать этот диск, а массив то не удаляется. Где-то решается ребутом контроллера, потому что удалить ghost рейд-потеряшку, когда он ссылается на занятые диски в прод сторадже - стальные яйца, как минимум :) На днях столкнулся, но сторадж оказался потупее: вынул диск, призрачный массив пропал.
  
  Мораль сей басни такова: трите диски перед тыканием во всякие дырки, дабы не сесть жопой на кактус.

Heilgecht
11.02.2025 07:54
#27908466
Мы используем системы хранения данных Dell и IBM, обе из которых предлагают технологию ADAPT Distributed RAID. Это намного лучше, чем Raid 6 или Raid 10.
1. Ilya_JOATMON
  11.02.2025 07:54
  #27909674
  Почитал про него. Такой размазанный не по всем дискам 6й рейд. Но сделать такой в сравнении с обычным 6 рейдом можно только от 12 дисков. И ADAPT рейд сам по себе быстрее и ребилдится тоже быстрее. Логика контроллера сильно сложнее, и мне непонятно где и как хранится карта страйпов в таком рейде.
  
  https://community.spiceworks.com/t/how-does-adapt-distributed-raid-work/701201/2
  1. blind_oracle
    11.02.2025 07:54
    #27911166
    Можно почитать про ZFS dRAID, он похож и код открыт.

TheOldGrouch
11.02.2025 07:54
#27908504
хех, у нас однажды развалился RAID10. Два диска сразу. Нам категорически повезло, что они сдохли накрест, так что после дня гугления и экспериментов "на кошках" мы нашли, где записана информация о принадлежности дисков, и смогли собрать половинку рейда, после чего за следующие два дня пересобрали его целиком на новых дисках уже. Ночные бэкапы были, конечно, и эти три дня контора работала на "времянке", но хоть не убили сразу.

xoid555
11.02.2025 07:54
#27908550
засетапил RAID500
Сгорел датацентр

ilyamodder
11.02.2025 07:54
#27908574
Для меня удивительно, что вы вообще используете RAID5, когда примерно во всех местах, где он описывается, предостерегают от его использования именно по причине высокой вероятности умирания еще одного диска при ребилде.

karavan_750
11.02.2025 07:54
#27908686
Недавно у нас развалился RAID 5.

Много лет назад, когда я начинал вникать в системное администрирование, случился этап ознакомления с рэйдами и их теоретической базой. Где-то на подкорке записалось "фатальнее raid5, только raid0" (из практически эксплуатируемых). Через несколько лет опыт пополнился закрепом этой информации -- двое суток восстановления клиенту развалившегося raid5 с "матрешкой" -- VMFS, внутри ntfs, на которой БД с данными различных баз 1С. От ребилда отказался, так как весь набор дисков был из одной партии и был высокий риск потерять данные в полном объеме.

По примерным прикидкам, клиент за эти двое суток простоя (+ оплата моего труда) потерял раз в 20 больше, чем сэкономил на эксплуатации raid5.

На протяжении всего времени занятий системным администрированием меня не отпускает предположение, что raid5 с критически важными данными используют люди верящие в чудеса и деда мороза.

p.s.: Выше комментарий в тему оставили, пока я набирал свой.

bazanovv
11.02.2025 07:54
#27908890
Дополню, в СХД для резкого сокращения времени перестроения массива, с многих часов и даже суток до пары часов или меньше, и, бонусом, некоторого снижения вероятности возникновения в этот момент ещё одного отказа, применяется технология распределённого резерва, distributed hot spare. При этом вместо отдельного выделенного диска, в скорость и время полной записи которого упирается ребилд, на каждом из дисков массива выделяется резервная область, так, чтобы суммарный объём этого резева со всех дисков был равен одному, для RAID5, или двум, для RAID6, дискам. Это позволяет распределить запись по всем N дискам массива, ускорив её почти в N раз по сравнению с одним диском hot spare (или заменённым). Почти - потому что будут потери времени на позиционирование, диску надо и считать с себя одни блоки, и записать на себя другие, в резервное место. Жаль, что эта технология никак не попадёт в обычные RAID, вероятно из-за патентных ограничений?

Ну и, да, даже обычный hot spare даже при условии присутствия дежурного персонала 24/7 покрывает часть рисков вида "не заметили вовремя / проблемы с поставками / проблемы с совместимостью / etc", но, да, стоит денег и места в сервере или СХД. Мы на делали hot spare только когда в сервере всего 4 слота под диски, и быстродействие требовало RAID 10, в остальных случаях всегда старались сделать. В случае большого количества дисков (10+) даже два hot spare, и потом это очень пригодилось, когда что-то случилось с быстрыми поставками дисков.
1. Ilya_JOATMON
  11.02.2025 07:54
  #27909748
  Выше уже писали, это ADAPT рейд. Проблемы две тут 1. Он от 12 дисков начинается. 2. Карта страйпов его динамическая, в отличии от статической на обычных рейдах, и если она по какой причине накроется - это накрывается весь рейд без возможности восстановления. Так как невозможно угадать какой блок принадлежит какому страйпу.
  1. falcon4fun
    11.02.2025 07:54
    #27909828
    Угу. Подтверждаю речь про MSA-DP+ или ADAPT. Проблема одном. Потери дисков в сравнении с классическим raid6
    
    Одна мааааленькая проблема его. Дохрена потерь.
    
    Возьмем 12 дисков по 6 тб. (12-2)*6тб и минус 20% = получаем юзабельные 48 тб. Из 72 raw.
    
    Теперь представьте полку на 24 диска и попытку сделать актив-актив с 2 диск группами. Имеем потери - 4 диска вместо 2х в сравнении с рейд 6. По факту -8 дисков из 24. Нет, конечно если у вас 1-2-3 безмозглых полки дополнительно (экстеншенов), то вы в шоколаде. В ином случае - ну вы поняли. Проще тогда уж гибрид собрать, прикинув размер ссд под горячие данные.

andrey_belkin
11.02.2025 07:54
#27908914
Это правда: ни одна схема резервирования никогда не гарантирует 100 %.

Я свои основные данные храню на нескольких компах плюс нескольких серверах плюс нескольких HDD и часть из них лежит вне дома.

aMster1
11.02.2025 07:54
#27909020
Может глупый вопрос, но тем не менее - а нельзя перед ребилдом запустить бекап данных? Или нагрузка на диски одинакова?
1. ciuafm
  11.02.2025 07:54
  #27909374
  Как ни смешно это звучит, если у вас развалился рейд5 и вы боитесь потерять данные, вам действительно нужно сделать полный бэкап всех дисков. Только не на живой системе, а загрузиться с пустой ОС и по очереди скопировать все диски на новые. Объясню:
  
  Нагрузка на диск при линейном чтении минимальна - есть шанс не угробить данные
  
  Нагрузка на RAID контроллер при линейном чтении минимальна и мы не допустим перегрева из-за постоянного пересчёта контрольных сумм, кэширования, етц
  
  Если вы не смогли в тепличных условиях считать все данные с диска, значит вам ничего не светило при ребилде.
  
  П.С. это только про диски с моторчиком, у ССД все по другому...
1. xSVPx
  11.02.2025 07:54
  #27909436
  Надо иметь куда. В целом нагрузка одинаковая и там и сям надо все данные прочитать.
  
  Другое дело, что если во время чтения всех данных диск выйдет из строя, то это значит что он в общем-то уже вышел. Просто вы об этом еще не знаете. Данных уже не извлечь.
  1. falcon4fun
    11.02.2025 07:54
    #27909780
    По факту, для этого и нужен патрол чек в фоне.
    
    И кстати бэкап клево, но при условии, что кто-то перед этим хотя бы оставил включенный консистенси чек / проверку чексуммы / <как там ее производители не называют>. А то есть веселый шанс получить набор битых файлов, т.к. они все равно не соберутся красиво в нужные :D
1. ntsaplin Автор
  11.02.2025 07:54
  #27912562
  При запуске бэкапа система нагружается, что только увеличивает риск проблем при ребилде.

Night_Snake
11.02.2025 07:54
#27909254
Меня прям удивляет экономия на спичках^W дисках. Если брать нормальные, ent-grade диски, они умирают крайне редко. Даже под VDS (мы тоже хостер, и таки тоже имеем опыт).

Но RAID5?! Это же максимум домашний NAS, когда данные в принципе жалко, но на четыре диска и RAID10 жалко деняк.

Да даже тут на хабре писали (очень давно!), почему RAID5 нельзя использовать в проде (хоть с hot spare, хоть без...) С тех пор всё стало сильно лучше - диски подешевели (даже флеш), и RAID10 уже не стоит, как крыло от боинга (а если в сервере 8+ дисков, то и "убиваться" они будут медленнее, чем 2-4 бОльшего объёма.
1. xSVPx
  11.02.2025 07:54
  #27909454
  Так для 8 штук при рейд10 можно вытянуть черный билетик, а при рейд6 вроде как нельзя. (при отказе пары). Другое дело, что в рейд10 может из строя выйти 4 штуки без последствий (если повезет) а в рейд 6 только две. А если у вас 4хРейд1, то после смерти 4х дисков, данные начнут потихоньку испаряться, а не все сразу (т.е. если из строя вышли все зеркала 4шт, а потом еще один диск, то три рабочих у вас останется).
  1. Night_Snake
    11.02.2025 07:54
    #27909572
    4xRAID1 дороговато с т.з. пенальти на запись (хотя если у вас поверх этого какая-то фс или другой способ рандомной записи на каждый чанк, то в целом пойдёт).
    
    Насчёт чёрных билетиков - на восьми дисках как раз RAID10 вылет любых двух переживёт (у вас будет один degraded raid1 и один "здоровый" в RAID0). но при этом при ребилде у вас будет пересчитываться не весь объём целиком (как в RAID6), а лишь половина.
    
    Но не обязательно собирать именно 10. Вы можете собрать 4 отдельных R1 массива в R0 (силами ОС, или если контроллер позволит), либо два R0 в R1 (вот тогда может не повезти, да)
    
    xSVPx
    11.02.2025 07:54
    #27909832
    Если два зеркальных диска умрут, то как raid10 переживет ? Не переживет ведь ?
    
    Night_Snake
    11.02.2025 07:54
    #27910744
    т.к. RAID10 - это RAID0 и двух R1, то на 8 дисках вылететь могут любые два (по одному из каждого R1 или два в одном R1)
    
    xSVPx
    11.02.2025 07:54
    #27911348
    В смысле "могут"? Мыж берем худший вариант.... Что будет, когда вылетят два неудачных диска.
    
    Тут еще есть большая неприятность с р0 связанная с тем, что при смерти этих двух дисков весь массив данных будет потерян. И с этой точки зрения, кажется, что в р0 их вообще не надо собирать...
    
    Night_Snake
    11.02.2025 07:54
    #27911784
    при выпадении любых двух дисков R10 выживет, но в режиме degraded (как и R6). При этом шанс "добить" массив при ребилде R6 выше, т.к. пересчитывать придётся больше данных.
    
    Сборка в R0 (двух R1, что и даёт искомый R10) нужна для нивелирования пенальти R1 на запись
    
    xSVPx
    11.02.2025 07:54
    #27912058
    Совершенно не понимаю как она выживет. Есть р10 массив.
    
    А - данные четные
    
    Б - данные нечетные
    
    В - копия А
    
    Г - копия Б.
    
    Если выпадут А и В, откуда брать половину данных ?
    
    В Р0 же данные хранятся сразу на двух дисках, то что мы имеем один из них нам никак не поможет?
    
    xSVPx
    11.02.2025 07:54
    #27911352
    дубль
1. falcon4fun
  11.02.2025 07:54
  #27909768
  Да там писать не надо. RAID 5 успешно умер после 2000 года, когда диски стали >1ТБ. Ребилд массива в 1.5 дня - это даже не смешно. А когда диски стареют - это еще более, чем не смешно. Особенно смешно, когда это сторадж с 16+ дисками.
  1. xSVPx
    11.02.2025 07:54
    #27909948
    А как так получается ? По идее ведь должен просто прочитать все диски и сбилдиться? Откуда столько времени набегает ?
    
    falcon4fun
    11.02.2025 07:54
    #27910018
    Хз. 2 последних ребилда дохлого диска заняли больше суток с учетом 100% (или high) приорити. В обоих случаях 5 рейд. Первый синолоджи ds18 чтото там на 8 дисков. 6 дисков по 6 тб сата 7.2к ребилдил больше суток точно. + На всякий пожарный посчитать crc всего массива (нашло пару битых файлов и не смогло восстановить. Дебилушка он. И это все с учетом расписания проверки массива. Выше кидали скрин вероятностей CRC. Я вот вытянул билетик, выходит) - еще около суток.
    
    2ой случай - прошлые выходные. массив. Полка из 16 дисков по 4тб. 7200 сата диски. 1.5 суток ребилда того же 5ого рейда.
    
    Ооочень сильно зависит от реализации со стороны производителя еще.
    
    Оффтоп: На последнем я чисто поржать запустил миграцию в 6ой рейд. Жду: сдохнет или нет (вообще не опечалюсь, если оно сдохнет вместе со всеми данными. За 4 дня пока целых 5% при общей скорости массива в 220~ МБ/с (сколько из них чтения, а сколько записи - хз). При ребилде общая скорость была в районе 400-450 МБ/с
    
    На синолоджи выше этот замечательный процесс занял 28 дней :D у них там какая то уберикривая реализация (впрочем прод энтерпрайза и синолоджи - это антонимы). Выше 6-8 МБ/с на диск не видел при миграции.
    
    З.ы. сам себе отвечу. Чем больше шпинделей для 5-6 рейда, тем труднее и дольше считать парити.
    
    xSVPx
    11.02.2025 07:54
    #27911288
    Да как такое может быть:)? Он же на запись не 1мб/с? Ну т.е. штатно когда вы на него что-то пишете совершенно ведь тоже самое что при ребилде должно происходить... исключая элемент чтения с дисков. Т.е. медленно это может быть казалось бы только в случае, когда какому-то из дисков уже очень хреново и он скажем по таймауту ошибки возвращает, а рейд его все переспрашивает и переспрашивает...
    
    У меня скромные хранилища и в основном 10, думаю на 1 переехать при случае, скорость особо не нужна.
    
    И основным аргументом при выборе было то, что 5й я боялся при любых проблемах тупо не пересобрать...
    
    Lazhu
    11.02.2025 07:54
    #27912260
    Да как такое может быть:)?
    
    контроллер без кэша
    
    xSVPx
    11.02.2025 07:54
    #27913598
    Да и фиг бы с ним, если читать потоково, то кеш особо не нужен.
    
    Вредительство какое-то....
    
    Lazhu
    11.02.2025 07:54
    #27914156
    Про parity забыли? И если на контроллере нет батарейки, и соответственно выключен write cache, ребилдить он будет до морковкина заговенья

Dante4
11.02.2025 07:54
#27909526
Подождите, вы ещё откроете для себя RAID 50 и RAID60 и хабр увидит статью "Почему мы перешли на RAID 60"
1. falcon4fun
  11.02.2025 07:54
  #27910050
  На пальцах обьясните кто-нибудь, в чем профит 60 рейда? С учётом скорости, потери емкости и т.п.
  1. Dante4
    11.02.2025 07:54
    #27910152
    Скорость компенсируется именно 0-м рейдом сверху.
    
    CherryPah
    11.02.2025 07:54
    #27910238
    Скорость 0 зависит же от количества устройств из которых он состоит.
    
    На 8 дисках raid10 будет состоять из 4xraid1 со скоростью в 4 попугая, а raid60 из 2xraid6 со скоростью в 2 попугая. При этом полезная емкость будет в обоих вариантах одинакова. Или я не так считаю? (да я помню про рейдовое пенальти, но с другой стороны подсчет контрольки тоже жрет ресурс)
    
    Когда-то давно делал нагрузочное на одном и том же железе с одними и теми же дисками собирая различные конфигурации рейдов (как раз была идея уйти с 10 куда-нить где емкость меньше теряется), точных цифр не помню, но 60 точно не устроил по скорости записи, несмотря на явный выигрыш в объеме.
    
    hogstaberg
    11.02.2025 07:54
    #27912042
    Софтовый линуксовый raid6 даже в случае механики замечательно разгоняется на запись в 4-7 раз при помощи одной крутилки и выноса bitmap куда-нибудь наружу (например на системные диски). Благо битмап потерять вообще не критично. А если из ssd строить, то там и на порядки можно выжать.
    
    И перед зеркалами всех разнлвидностей у raid6 есть одно важное преимущество: erasure coding в нём - неотъемлемая часть и битовые ошибки исправляются автоматически штатной регулярной проводимой scrub проверкой.
  1. mayorovp
    11.02.2025 07:54
    #27911204
    Характеристики не падают при масштабировании.
  1. quartz64
    11.02.2025 07:54
    #27911264
    Уменьшаем fault domain. Большая группа RAID-6 (например, 32 диска) будет ребилдиться очень долго (т.к. обычно это происходит под нагрузкой — в зависимости от объема HDD и нагрузки это может занять недели), а это потеря производительности и рост вероятности отказа второго HDD. RAID-60 в виде 2x 16 HDD уже лучше, хоть и ценой дополнительной потери объёма. В большинстве случаев лучше не делать больше 8-12 HDD в подгруппе, но иногда можно так сильно и не дробить, многое зависит от объема HDD, критичности данных и т.п.

falcon4fun
11.02.2025 07:54
#27909762
Пользователи заказывают услугу бекапа менее чем в 3 % случаев

Ну так определиться стоит, что вы продаете. Дорого и мало или дофига и много с овербуком стремящимся к 1:7-1:8.

У всех болИе-ЛИ-менее нормальных хостеров услуга бэкапа включена в договор по дефолту. Жрать не просит, успешно интегрируется в цену, легко продается более частый план обьяснением, что между недельным RP и суточным RP разница в 6 дней, 23 часа и 59 минут потери данных. Закрытие месяца делать второй раз весело.

hogstaberg
11.02.2025 07:54
#27910106
С нетерпением жду следующей статьи под заголовком "Почему мы перешли на RAID1e с far3 layout" или "Почему мы перешли на RAID-Z3" =)

Почему-то все, кто использует классические разновидности зеркальных массивов, упорно забывают, что в реальном мире при использовании многих распространенных ФС, не имеющих на борту контрольных сумм, бывает невероятно прикольно обнаружить, что у вас две копии одного блока немножечко не одинаковые. И потом гадать какая из двух побитая, а какая эталонная.
1. dimsoft
  11.02.2025 07:54
  #27910714
  Почему то думают только об аппаратных RAID, хотя например ZFS решает очень много проблем RAID. C ним нет варианта, когда 1 сектор на диске умер и RAID контроллер лапки понял. Система с ZFS укажет даже какой конкретный файл не удалось восстановить.
  1. Night_Snake
    11.02.2025 07:54
    #27910772
    Настроить RAID-контроллер того же делла сможет джун по мануалу, и это будет работать с любой ОС.
    
    Правильно приготовить и потом админть ZFS - это уже для квалифицированных специалистов, а если в качестве ОС не линукс, например? У коллег из ruVDS, емнип, бОльшая часть гипервизоров на винде, если не вся
    
    hogstaberg
    11.02.2025 07:54
    #27911950
    Правильно приготовить и потом админть ZFS - это уже для квалифицированных специалистов
    
    Come on, во-первых не столь уж оно и rocket science для 99% кейсов, там даже крутить вряд ли что-то понадобится. Да, под условный постгрес нужно уметь не устроить себе безумный write amplification, но, опять же, не так уж много у кого и базы настолько нагруженные есть, чтобы реально было прям необходимо заморачиваться превентивно.
    
    Во-вторых все когда-то впервые ZFS видели. Ничего, вроде справились. Значит и другие смогут.
    
    Никогда не понимал этого тейка про "Слишком сложно, тут непременно нужен уберспециалист чтобы умел ман почитать и крутилки покрутить".

AlexanderS
11.02.2025 07:54
#27910812
Почему бы для особо надежного хранения просто не использовать CoW без всяких вот этих аппаратных заморочек? ZFS избавляет от контроллеров, на лету парирует BER, становятся неактуальными проблемы с поломкой ФС при неожиданном обесточивании.

Itkir
11.02.2025 07:54
#27911062
Очень сомнительно что RAID10 даст большую надёжность чем RAID6. А RAID5 в проде это для очень экономичных экстремалов.
1. blind_oracle
  11.02.2025 07:54
  #27911194
  RAID10 в принципе менее надёжен чем RAID6 т.к. второй допускает смерть любых двух дисков, а первый только из разных пар.
  
  Но вот с иопсами уже всё хуже.
  1. Itkir
    11.02.2025 07:54
    #27911660
    На шпинделях с иопсапи у 6 конечно беда. Но при использовании SSD уже не все так плохо.
  1. CherryPah
    11.02.2025 07:54
    #27919666
    т.к. второй допускает смерть любых двух дисков, а первый только из разных пар.
    
    это черрипикинг
    
    Справедливый для массива из 4х дисков, где в обмен на меньшую производительность, невыигрыш в объеме и отрицательной удаче мы получаем большую надежность.
    
    Давайте рассмотрим массив, из 12 дисков, в котором вылетит 3 харда (ну раз уж мы с такой легкостью допускаем вылет двух, да и удача все еще отрицательная).
    
    blind_oracle
    11.02.2025 07:54
    #27919766
    Может быть я не совсем понимаю теорию вероятностей, но, как мне кажется, шанс одновременного выпадения соседа в одной зеркальной группе не зависит от количества групп.
    
    Ну а шанс выпадения второго диска при ребилде очень высок, особенно с большими дисками нынешними.

azgnetov
11.02.2025 07:54
#27911856
У вас подмена понятий. Не 10ка такая расчудесная, а дополнительные диски избыточности. В 6ке их 2, но разница в том, что их там всегда 2, а в 10ке как повезет. У меня прям щас развалился работающий 12 лет raidz2 и я спокойно его восстанавливаю, попивая чай.

linux2000
11.02.2025 07:54
#27914844
Почему стоимость VPS: 1cpu, 1Gb и 20 Gb SSD стоит 329 рублей. А добавление +10 Gb SSD сразу поднимает цену до 953 руб? Нету ли ошибки в калькуляторе у вас по дискам?
1. ntsaplin Автор
  11.02.2025 07:54
  #27914978
  Ошибки нет, 1-2-20 является готовым тарифом, а на них предлагаются существенные скидки. С другими готовыми тарифами и ценами на них можно ознакомиться здесь.

TWiSTER918
11.02.2025 07:54
#27915430
У меня raid5 (8дисков) 7 лет ещё ни разу не умер (сервер qnap 875)

serko54
11.02.2025 07:54
#27915442
во как, народ парится с рейдами когда SDS (от же CEPH) широкими шагами топают по Планете...

и да, лайк тем, кто упомянул ZFS

Zhmak
11.02.2025 07:54
#27915758
Всё пытался понять, как там вообще оказался 5 рейд?

Ладно там дома, или в нищей конторе из трех дисков собрать. Но когда дисков много? Неужели лишний диск или небольшой выигрыш в производительности стоит этих свеч?

Tomasina
11.02.2025 07:54
#27915884
подойти к серверу, вынуть убившийся диск, поставить новый, подождать ребилда и спокойно работать дальше.

Во время ребилда массив доступен для эксплуатации (чтение/запись внешними пользователями)?
1. CherryPah
  11.02.2025 07:54
  #27919578
  Да, естественно, рейд ~~is not a backup~~ он же как раз про доступность. Производительность просядет, но в зависимости от профиля нагрузки - может никто и не заметит. А вот избыточность данных потеряется

Dmitri83
11.02.2025 07:54
#27916486
Статья оставила ощущение излишней рекламности. Видно красивые лозунги, ок. Но вместе с ними видно и провалы в логике, а так же обрывочные фрагменты обоснований. Добавим к этому неверное жаргонное использование терминов nvme, ssd, диск. И возникает ощущение, что статью писал журналист или рекламщик.

В общем не очень понравилось.

Почему мы перешли на RAID 10 +97

▍ Как было раньше

▍ Экономическое обоснование

▍ Редеплой сервера

▍ Но ведь… бекап?

▍ Это NVMe-RAID?

▍ Почему у вас хранение внутри сервера, а не в кластере в отдельной хранилке?

▍ Случаи, когда RAID 5 и 6 выходили из строя

▍ Гарантирует ли RAID 10 безопасность данных?

▍ Итак, основная причина, почему RAID 10

Комментарии (227)

ntsaplin Автор

ntsaplin Автор

ntsaplin Автор

ntsaplin Автор

ntsaplin Автор