Для лиги лени: нытье какое-то и унылые цифры про software-defined storage, что там как.

Немного теории — Software-defined storage, что это

Лет 20 назад, в 2004 году, когда я еще ходил в школу, и читал комиксы про всамделишные приключения сексуального вампира, системы хранения данных жили отдельно (за дорого и очень дорого), сервера отдельно. Только-только вышел  SQL Server 2000 Service Pack 2 (SP2), кластеризация на уровне сервиса была у SQL  (кто хочет, найдет статью Clustering Windows 2000 and SQL Server 2000, Brian Knight, first published: 2002-07-12) , и вроде, в Oracle RAC.

Почему было такое деление? Потому что расчет четности и двигание блоков данных туда-сюда – операция, с одной стороны математически не самая простая, с другой – рутинная, использовать под них относительно медленный процессор общего назначения, хоть x86, хоть уже умершие  к тому времени Motorola 68060 и еще живые UltraSPARC II, не очень рационально.

К середине 2010х ситуация постепенно изменилась. Производительность x86 выросла, цена за операцию упала. Со стороны классических СХД еще в 2015 в тех же 3Par стоял отдельный модуль для расчета чего-то-там, в Huawei Oceanstor v2 можно было покупать отдельный модуль LPU4ACCV3 Smart ACC module, но основная нагрузка уже считалась на x86 -  HPE 3PAR StoreServ 7000 уже был на  Intel Xeon. К 2019 Huawei перешел на Arm, точнее на Kunpeng 920.

Примерно в то же время, а точнее в Microsoft Windows Server 2012 появилась поддержка динамических рейдов в виде Storage Spaces, плюс появился SMB Direct и SMB Multichannel, к R2 Добавились local reconstruction codes, в 2016 Server появилась новая функция – S2D, storage space direct, но это уже старая история, а там и ReFS подоспел, с своей защитой данных от почти чего угодно, кроме своей дедупликации и своего же патча на новый год (January 2022 Patch Tuesday KB5009624 for Windows Server 2012 R2, KB5009557 for Windows Server 2019, and KB5009555 for Windows Server 2022.)

Все бы было хорошо и там, и тут, НО.

Но. S2D поддерживается только в редакции Datacenter, а это не просто дорого, а очень дорого. На то, чтобы закрыть этими лицензиями небольшой кластер серверов на 20 – уйдет столько денег, что проще купить классическую СХД.

Но. Если у вас в кластере работает хотя бы 1 (одна) виртуальная машина с Windows Server, вы все равно обязаны лицензировать все ядра всех узлов кластера лицензиями Windows Server. Тут уже надо считать, что выгоднее – попробовать закрыть все узлы лицензиями STD, с их лимитом в 2 виртуальные машины на лицензию, или лицензировать Datacenter.

Но. При этом все равно можно НЕ иметь нормальной дедупликации и компрессии (DECO) на Datacenter, НО иметь вечные проблемы со скоростью, если ваша система настроена криворукими интеграторами или таким же своим же персоналом, набранным за 5 копеек, и который тестирует скорость СХД путем копирования файла. Или путем запуска Crystal Disk mark с настройками по умолчанию.

Попутно получая проблемы с резервным копированием, если вы DECO включили, а руководство по резервному копированию с DECO Windows Server не прочитали.

Все очень просто: если экономим на кадрах, то покупаем классический выделенный СХД, в нем в разы меньше настроек и ручек, которые может крутить пользователь в GUI. Масштабируем емкость покупкой новых полок. Скорость так просто не масштабируется, как у вас стоит 2 или 4 или 8 контроллеров, так они и стоят (до 16 контроллеров, если вам очень надо).

Это не уменьшает проблем с обслуживанием, на классической СХД тоже очень желательно проводить обновление и прошивки СХД, и прошивки дисков. На некоторых СХД раньше (10-15 лет назад) обновление прошивки вполне могло привести к потере разметки и потере данных (ds4800). Но там порой и замена дисков вела к факапам, как на ds3500. Но и наоборот, в IBM была версия прошивки, которая работала 1.5, чтоли, года. Но и не прошиваться нельзя – как недавно вышло с дисками HPE и не только, которые работали ровно 40.000 часов (Dell & HPE Issue Updates to Fix 40K Hour Runtime Flaw, update to SSD Firmware Version HPD8 will result in drive failure and data loss at 32,768 hours of operation, FN70545 - SSD Will Fail at 40,000 Power-On Hours и так далее).

С как-бы всеядными MSA (старых версий) можно было сделать самому себе больно иначе – купить саму СХД, а диски туда поставить подешевле, даже SATA с их надежностью (Latent Sector Error (LSE) rate) в «1/10(-16)», и получить проблемы при ребилде даже в Raid 6. Прошиваться страшно, не прошиваться тоже страшно, зато использовать левые диски не страшно.

Можно собрать комбо: дешевые кадры, дешевые сервера, дешевые диски – и иметь проблемы с доступностью, скоростью, отказоустойчивостью, полной потерей данных, и прочим.

Выбор цены решения – это выбор бизнеса, а ваш выбор как работника – работать с кроиловом, и потом нести ответственность при попадалове, которое вы же и выбрали, работая с кроиловом, за тот же мелкий прайс.

Продолжение на Пикабу и в моем телеграм канале.

Комментарии (6)


  1. DM_man
    02.09.2024 07:11

    "как недавно вышло с дисками HPE " - ну не так уж и недавно и не 40 тысяч часов а что то 32 тысячи с небольшим , хотя как вчера было.

    "К 2019 Huawei перешел на Arm " - жаль что это игнорируют некоторые производители, те что до сих пор на х86 выпускают и продают, не поднимаясь выше middle сегмента по производительности.

    "работать с кроиловом, и потом нести ответственность при попадалове" - согласен, вся эта распределенная "кухня" не добавляет надежности и производительности в отличии от стандартных схем (сервер-сеть-система хранения данных) , но каждый кузнец своей судьбы.

    "С как-бы всеядными MSA" - рискованно тоже, но как вариант заполучить корзину от vnx и подключив к её к серверу(чем производительнее тем лучше) через интерфейс развернуть trueNAS - получится одно контроллерный всеядный (по дискам) массив. При этом не забывать о своевременном резервном копировании.


  1. yoz
    02.09.2024 07:11
    +1

    СХД это инструмент. Просто выбирайте инструмент под задачу. Для многих задач среднего бизнеса динозавра MSA P2000 на обычных SATA дисках в RAID10 хватает с головой. При этом они имеют вполне адекватное резервирование внутри себя и неплохую скорость наружу по SAS\FC. Жаль они потихоньку пропадают с б\у рынка, возраст. Железки отличные.


  1. Krey
    02.09.2024 07:11
    +1

    >>Продолжение на...

    А че так можно было?!


  1. Thomas_Hanniball
    02.09.2024 07:11
    +1

    А есть кто-нибудь, кто в продуктиве крутит storage space direct (S2D)? Я о таких ни разу не слышал, хотя технология мне нравится.

    Поделитесь опытом, насколько стабильно оно работает и какие подводные камни встретились на пути.


    1. ITsheff
      02.09.2024 07:11
      +1

      Есть такие, даже не знаю, как описать свой опыт... Есть и положительные моменты, есть увы и грусти полный вагон.

      Все как сказал автор, экономим на кадрах (делаем все сами по мануалам с МС) и строим все на SuperMicro.
      Получаем 49 Тб полезного места (при двойном зеркалировании).
      В двухнодовом кластере обязателен диск-свидетель.
      Из явных плюсов небольшие затраты на старте — можно добавлять диски по мере роста.
      Относительно легко все настроить (0-day opertaion), но вот что будет на следующий день, то тут надо вникать в проблемы.

      Из того с чем мы столкнулись:

      1. Если используете роли SoFS или FileServer, то обязательно карты с поддержкой RDMA, без этого система будет сильно нагружена по ЦПУ.

      2. Сами сетевые карты желательно все одной модели и одной прошивки (ну вы это и так знаете).

      3. При обслуживании нод, нужно включать специальный режим. Но после выключения этого режима, производительность будет ниже, пока не выполнится синхрон. Поэтому работы лучше планировать с запасом времени.

      4. Столкнулись с такой проблемой, что периодически происходит BSOD одной ноды, когда доустанавливает диски. После этого роли уезжают на другие машины и иногда падают в аварийное состояние. Еще много чего было но это мелочи)

      В целом систему используем с 2022 года. Можно получить хорошие показатели производительности, если выполнить все требования МС.
      Пока учились настраивать были факапы. Кластер кстати на 2019-ом.


      1. Thomas_Hanniball
        02.09.2024 07:11

        Супер, спасибо что поделились опытом. Отблагодарил вас плюсиком в карму.