Попытка к бегству от Broadcom

Для лиги лени (как изобличенный пикабушник не могу обойтись без этого): заменять Broadcom vSAN нечем.
Кратко для хабра: Изначально была попытка перебрать, что и как предлагают на рынке. Не вышло.

Почему появилась эта статья
Очередные знакомые плачут, что Broadcom vSAN теперь не купить в некоторых варианта совсем, как лицензировать стало не понятно, как страшно жить.

Что такое vSAN, краткое содержание
vSAN – это попытка, от некогда существовавшей VMware, сделать SDS - software defined storage.
Примечание для зануд: правильнее называть это RAIN -  Redundant Array of Independent Nodes.
Идея простая – есть сервера.

Hidden text

Некоторые зануды скажут, что правильно писать серверы, но в русском языке для терминов с «р» на конце используется множественная форма «ра» - крейсера, доктора, профессора, директора (но при этом в сетях – директоры и коммутаторы) , трактора, и, внезапно, – дома, а не домы

В серверах есть (не рассматривая blade, хотя там тоже были варианты HP D2200sb Storage Blade на 12 дисков) отсеки под жесткие диски, давайте сделаем, чтобы копии данных были на двух разных серверах. Или на трех. Двойное - тройное зеркало и прочие варианты (поначалу, c 2016 есть erasure coding R5-R6 ).
Идея изначально работала примерно на грани между «плохо» и «очень плохо» в 5.5, чуть-чуть лучше в 6 (настолько лучше, что VMware на лету убирало оборудование из списка совместимости со словами «вам показалось, вовсе его и не было» , и перестала взрываться сама по себе где-то на рубеже 6.7 и 7.0.
Проблемы с vSAN потерялись за тем, как ESXi 7.0 Update 2 и ESXi 6.7 убивало флешки (Connection to the /bootbank partition intermittently breaks when you use USB or SD devices - corrupt the VMFS-L LOCKER partition) или просто все лочило (Some ESXi configuration files become read-only) , и тем как  vSphere 7 Update 3 взрывалась настолько хорошо, что в ноябре 2021 пришлось отозвать сразу 4 патча (vSphere ESXi 7.0 Update 3    (build 18644231), vSphere ESXi 7.0 Update 3a  (build 18825058), vSphere ESXi 7.0 Update 3b  (build 18905247), vSphere vCenter 7.0 Update 3b (build 18901211)

На последних патчах система (7.0.3 – 8.0) работает более-менее стабильно, если не:
не
нанимать на работу с ней альтернативно одаренных сотрудников,
не покупать поддержку от интригаторов (не путать с интеграторами), с их эскалацией в чаты в телеграмм

если ставить систему на проверенную конфигурацию (проверенную Broadcom, с внесением сервера и прочего оборудования в список поддерживаемого)
если своевременно ставить патчи

Хотя, все равно иногда взрывается. Но реже.
При этом, Broadcom сделал систему подбора конфигурации, как обычно, тоже криво, и vSAN OSA \ vSAN ESA Compatibility Guide живут отдельно от VMware (by Broadcom) Compatibility Guide. Хоть не закрыто из РФ, можно читать, только не читает почти никто.

Есть аналоги, по количеству подводных камней и сложных моментов – ничуть не лучше. Из тех, что на слуху – Nutanix и, конечно, «любимый» многими MS S2D. Чуть менее на слуху - Cisco HyperFlex .
По статистике VMware и Nutanix удерживают большую часть рынка HCI, так что остальное - еще хуже.

У Nutanix есть продукт - Nutanix CE - Community Edition, вроде можно не покупать, но не покупать нельзя, цитата:

As stated in the license agreement, Community Edition is intended for internal business operations and non-production use only.
Getting Started with Community Edition

Из тех, что еще менее на слуху, существовали два продукта Huawei – FusionStorage и OceanStor100D, ставшие (еще в конце 2020) Huawei Oceanstor Pacific

В РФ Huawei Oceanstor Pacific не так чтобы просто «взять и купить».


Лицензирование vSAN
с его вариантами Standard \ Advanced \ Enterprise \ Enterprise Plus тоже было не очень наглядным, но при этом в продаже был комплект remote office/branch office (ROBO). Существовало даже решение для экономных - two-node architecture. К этому добавлялось лицензирование VMware HCI Kit Essentials , но требования к лицензии для наличия vSphere vMotion почему-то не были описаны в VMware vSAN & VMware vSAN+  Licensing, pricing and packaging Last Update: January 2023

Самое болезненное
Согласно VMware End Of Availability of Perpetual Licensing and SaaS Services - больше не будет таких пролуктов, как:
VMware vSAN ROBO,
VMware vSAN+,
VMware HCI Kit
– даже если бы Broadcom присутствовал на российском рынке, то купить его было бы нельзя.

Куда бежать и что в итоге?
Что касается железа в малых партиях, то РФ как-то привезут и 4 HPE или 4 Supermicro, и к ним 4 MS Server datacenter в коробке.
Наверное, могут привезти и 4 ноды для Nutanix, вместе с ПО Nutanix, только как оно будет обновляться?
С MS Hyper-V + S2D, если смотреть сверху, существенных проблем нет.  Да, он капризный в плане сочетания именно такой прошивки сетевых карт и контроллера, именно это версии драйверов «всего», к нему нет RVTools (есть похожий по функциям скрипт Get-HyperVInventory ), но MS Hyper-V + S2D работает. Если, конечно, MS не выпускает кумулятив, который ломает ReFS. Или кумулятив, который ломает принтеры. Или кумулятив, который еще что-то ломает.
Есть обученные кадры, есть открытая документация, есть нормально функционирующая группа в телеграмме, где, конечно, обязательно возьмут селедку документацию и ейной мордой начнут  меня вас в харю тыкать,  но это можно пережить.
MS Hyper-V + S2D живет в инсталляциях любой степени огороженности, хоть на флешке вносите туда обновления, и на флешке выносите дебаг и расширенные журналы событий.
К MS Hyper-V + S2D подходят примерно все системы мониторинга, с ним работает весь нормальный бекап. Еще бы не [запрещенная в РФ ориентация] из [не запрещенная в РФ организация] с их стремлением сделать жизнь в ИТ еще хуже и запретами на VPN.
Разве что vGate под MS Hyper-V  больше нет (был), и это хорошо, что нет.

С Nutanix .. все не так хорошо. Продукт и до того был .. ну, таким. С одной стороны, за одну их библию и ее перевод надо сказать огромное спасибо, с другой, все же не так много их инсталляций в РФ. Специалистов – не могу сказать, чтобы много.
Минусы Nutanix  - мало специалистов, сложно поддерживать, нет средств 17-21-31-177, 57580.1-2017 (если вы не знаете что это, то это хорошо).

Что предлагает Opensource

Первым делом многие скажут Ceph, но сарказм в статье The СПО Strikes Back явно оказался недостаточно понятым, поэтому напишу проще:
1. Вы не можете использовать ноды хранения под сколько-то нагруженную виртуализацию, если не хотите комбинированных проблем. Теоретически можно, практически – не уверен.
2. Потери в скорости и емкости у Ceph  совершенно не годятся для малого бизнеса (у которых 4-10 серверов), если не вкладываться в NVMe SSD и 100GbE фабрику, и Ceph не годится для Robo сценария.
3. Обновление кластера Ceph  – это не та процедура, которая вас порадует. Если вы не пробовали обновиться через версию – обязательно попробуйте. Сразу на проде, он же у вас нормально бекапится?


На досуге можете почитать CSI и S3 в Kubernetes. Каждому свое: Ceph, Minio, TopоLVM и Погружаемся в S3 на Ceph. Как мы удаляли 460 млн мелких объектов

Это не вспоминая CVE-2021-29657 и CVE-2024-1086

Следующим вариантом кто-то назовет облако
Кто же назовет, какое облако стоит внимания? МТС, ведь над всем МТС безоблачное небо ? - прошло 3 месяца, что там легло в МТС, почему легло, когда подняли – никаких отчетов так и нет.
Кто-то скажет VK Cloud? Может, тогда этот кто – то скажет и про фриз - viostor Reset, VM is frozen ?
Или, может, вспомнит про легший VK Cloud на GZ1 и MS1?
Или, может, расскажет про тарифную политику IOPS/Gb ?
Или, может, Яндекс никогда ничего не удалял, и, конечно, больше такого не будет?
И в Яндексе уже появились хотя бы двух поточные хранилища – когда можно  заливать два потока данных сразу, не имея на одном скорость в ноль?

Что там с импортозамещением?
спросите вы, есть же .. ? Что же есть на замену vSAN ?
На рынке РФ присутствует примерно 30 продуктов на базе KVM, XEN и bhyve (vStack SDC) – и оркестраторов вокруг них, Openstack, OpenNebula, oVirt, Openshift, Virtuozzo – с русификаций. Сложно сказать, есть ли у хоть одной из попыток русификации – своя реалистичная методика тестирования. Разве что Basis точно известно, что все не просто плохо, а очень плохо с тестированием, зато хорошо с написанием рекламы "мы то всем сейчас".. На сайте писать «оно совместимо» можно, а если окажется, что нет? А если попросить показать демо? А если сразу с наложенными СЗИ? А обновить это все можно?
Понанимали непонятно кого для рекламных статей, а толку?

Если открыть Cnews, то там открывают все новые и новые горизонты, даже скорее идут сквозь горизонт,  цитата:

Компания ICL Astra Services .. Аппаратная часть ПАКа представляет собой пять универсальных физических 2U-серверов, на которых работает нагрузка (решаются задачи клиента) один 10-гигабитный коммутатор для доступа к системе и виртуальным машинам, коммутатор с пропускной способностью 1 Гбит для управления и мониторинга комплекса, источник бесперебойного питания, межсетевой экран для контроля и фильтрации трафика с целью защиты данных и нагрузок, а также одну полку JBOD (массив накопителей) для хранения данных.
Три сервера из пяти формируют производительное вычислительное ядро кластера, составляющего ПАК. Остальные вместе с полкой JBOD составляют программно-определяемую систему хранения данных.
Cnews

Серьезно? Неизвестно как разделяемая дисковая полка у вас теперь SDS ? И один 10G коммутатор? Функционал хотя бы Windows Storage Server 2003 (еще до R2) где-то описан? Что там вместо кластерной файловой системы с блокировками, например ?

Поскольку тестирование всего программного импортозамещения проходит под NDA, то можно и нужно заметить, что ни одна из систем зачастую не может пройти тестирование даже на базовый функционал. Виртуальные машины запускаются, KVM и XEN работают, а дальше? Нет даже простейшего - возможности подать в виртуальную машину тегированный трафик в одном интерфейсе, то есть то, что делает Broacom через vlan 4095
или MS через
Set-VMNetworkAdapterVlan -VMName "SEC01" -VMNetworkAdapterName "Network Adapter" ` -Trunk -AllowedVlanIdList "1-1199"

Если же брать российские сервера, построенные (все) вокруг ASPEED AST2500 \ AST2600, то они при активной работе открывают новые границы сознания и ощущения. Как вот в этом кино.  

Итог
На момент написания статьи – я не вижу на рынке РФ готовых решений даже для сегмента малого бизнеса – то есть:
- из 4 серверов,
- с системой массового управления серверами, которое могло бы «из коробки» выполнять обновление BIOS, IPMI, контроллеров HBA и сетевых карт, жестких дисков, провести первичное  тестирование железа.
Ладно решения, я могу пережить отсутствие SUM, Dell Repository Manager или даже Intel® Data Center Manager (DCM), но хотя бы аналог Service Pack for ProLiant (SPP) можно было сделать?
- Для сервера с 2*10 или 2*25 G картами, я даже согласен на «без RDMA», лишь бы был аналог Broadcom active-active или SET (Switch Embedded Teaming).
- С готовыми шаблонами для Zabbix
- С открытой документацией и сообществом
- С открытым демо-стендом, и возможностью скачать демо для просмотра, и готовым учебным курсом. Желательно онлайн.

Потому что для работы череды страданий, боли и унижения с тем, что сейчас поставляется на рынок РФ, требование сертификации RHCA избыточно, зато сданные экзамены на RHCSA (EX200) + RHCE (EX294) - в самый раз. Что чуть-чуть, малость, избыточно. И дорого.

Комментарии (11)


  1. DikSoft
    11.06.2024 11:03
    +2

    Вариант от MS, пожалуй, наиболее выгодный в этой ситуации. Изучен, стабилен, спецы ещё не все уехали. Нормальные драйвера к нормальным железкам подобрать ещё можно. Все необходимые функциональные возможности есть. Решение взрослое и стабильное.

    Ну а Broadcom сейчас и за пределами скрепной территории шок вызывает даже у ярых приверженцев VMWare.

    PS Hyper-V network gateway мёртв, верно, прикольный он был. Даже работал ) Зато сейчас есть Network Controller


  1. NKulikov
    11.06.2024 11:03
    +1

    Самое болезненное Согласно VMware End Of Availability of Perpetual Licensing and SaaS Services - больше не будет таких пролуктов, как:
    VMware vSAN ROBO,
    VMware vSAN+,
    VMware HCI Kit

    Не очень понимаю в чем описанная выше боль:

    HCI Kit - это просто две лицензии (vSphere + vSAN), которые продавались под одним парт-номером. Не более того.

    vSAN+ - это лицензия по подписке с серверов лицензирования в облаке. Вроде тут, да и много где такое, наоборот, не любят. Да и популярность оно не обрело.

    vSAN ROBO - тут, с одной стороны, да, потому что если было много площадок, где мало хостов + мало ВМ на хост, то per-VM выходило заметно дешевле, чем per-CPU. Но теперь vSAN идет per-TiB, что в общем-то компенсирует (мало ВМ - мало TiB, мало платить за vSAN). Отсутствие ROBO, скорее, по vSphere ударило, чем по vSAN.

    Но уж, чтобы сделать этот комментарий более полезным, то боль может быть в других местах:

    1.) Больше нет редакций vSAN Std/Adv. Только старшая, полнофункциональная, которая бывшая Enterprise. И да, на Std сидело достаточно мало людей, ибо см. пункт 4, но вот Advanced был достаточно популярным, если не нужны были растянутые кластера, шифрование, файлеры, HCI Mesh и т.д.

    2.) vSAN теперь per-TiB. Это значит, что если раньше у кого-то было очень много RAW Capacity per Node/CPU, то может стать дороже. Но если у кого-то было мало RAW per CPU, то наоборот. Но ИМХО, мне такой подход больше нравится. Стоимость схд должена определяться хранением, а не количеством хостов, к которым оно подключено (я сознательно оставляю за скобками сценарии с HCI Mesh/vSAN MAX).

    3.) vSAN можно купить только для VVF (и там практически всегда надо платить сразу за TiB), или для VCF (но там уже входит 1 TiB на ядро, что часто перекрывает потребности). Отсюда вылезает момент, что если нужно много емкости, то дешевле купить сразу VCF, чем VVF+vSAN. Хорошо это или плохо - it depends.

    4.) Плоское Per-RAW TiB лицензирование, по сути, убило гибриды. Потому что Usable на All Flash заметно выше при том же RAW, чем на гибридах, за счет Erasure Coding, Compression, Deduplication (это все входило в Advanced). И хотя гибридные vSAN уже давно были крайне нишевой штукой (по моим ощущениям, заметно меньше четверти инсталляций), кейсы под них были. Поэтому остается только vSAN All Flash, да еще и ESA, потому что там EC и Сompression намного лучше работают.


    1. Grand_piano
      11.06.2024 11:03

      Вот знаете, читаешь ваш комментарий и сразу понимаешь - человек в теме и много и глубоко знает продукты. Но сразу же возникает вопрос - а почему при таких глубоких знаниях он не помогает ответить на вопрос автора... Хотя да, это риторический вопрос.


      1. NKulikov
        11.06.2024 11:03
        +2

        Во-первых, потому что я в этой статье не вижу вопроса. Это не приглашение к диалогу, а монолог, который даже заканчивается выводом.

        Во-вторых, ответ на вопрос "чем заменить vSAN" очень сильно зависит от кучи факторов. Например, окружения, требований и т.д. Под какую платформу, требования по импортозамещению, страна, куда это покупается и т.д.

        Ну а если вам интересно мое мнение, то лично я считаю, что наиболее (если не единственная) адекватная замена vSAN для SMB сегмента в РФ - классический внешний сторадж (а там уж на вкус и цвет). Все остальное или требует очень высоких компетенций для проектирования и сопровождения, которых, как правило, нет в SMB организациях, или имеет те же ограничения, как и vSAN (например, не доступно к официальной покупке в РФ).


      1. Grigory_Otrepyev Автор
        11.06.2024 11:03

        а почему при таких глубоких знаниях он не помогает ответить на вопрос автора... Хотя да, это риторический вопрос.

        потому что у автора незаданный вопрос про другое.


    1. Grigory_Otrepyev Автор
      11.06.2024 11:03

      HCI Kit - это просто две лицензии (vSphere + vSAN), которые продавались под одним парт-номером. Не более того.

      Потому что теперь надо искать две позиции.

      и что там, говорите, с постоянными лицензиями, которые купил и используешь ?

      Отсюда вылезает момент, что если нужно много емкости, то дешевле купить сразу VCF, чем VVF+vSAN. Хорошо это или плохо - it depends.

      Модель лицензирования перетрясли, это просто неприятно. Как и цены.


      1. NKulikov
        11.06.2024 11:03

        Потому что теперь надо искать две позиции.

        Так и раньше было далеко не одна позиция. Как минимум, лицензия + поддержка/подписка. А теперь одна VVF, а вторая vSAN. Или вообще одна - VCF. Оптимизация. :) А если серьезно, то какая, по большому счету, разница? Все равно спеку всегда делал или партнер, или вендор, поэтому заказчику пофигу.

        и что там, говорите, с постоянными лицензиями, которые купил и используешь ?

        Да все просто - их больше нельзя купить. Только подписка на 1/3/5 года.

        Модель лицензирования перетрясли, это просто неприятно. Как и цены.

        Модель лицензирования сделали проще (с 8000 парт-номеров до нескольких десятков (ну может сотни, если все считать)). Как и просили пунктом выше. А цены.. It depends. Знаю тех, кто остался очень доволен. А знаю тех, кто остался ОЧЕНЬ нет.


  1. Thomas_Hanniball
    11.06.2024 11:03

    "С открытым демо-стендом, и возможностью скачать демо для просмотра, и готовым учебным курсом. Желательно онлайн."

    Как будто у HPE, DELL, Nutanix и прочих вендоров это всё есть и можно в любой момент этим воспользоваться. :)

    vmware hands on lab - это чисто фишка VMware (ныне Broadcom). Даже у самого Broadcom такого нет, т.е. нельзя зайти к ним на сайт и покрутить виртуальный коммутатор, выполнить демо задачи и прочее.


  1. Gasaraki
    11.06.2024 11:03
    +1

    За 7 лет эксплуатации VMware vSAN All Flash особых проблем не было (в том числе с ES code 6 +dedup). Переживало всё - умирание дисков, смерть контроллеров, смерть серверов, несколько обесточиваний всего кластера. И железо далеко не всё входило в HCL. В качестве альтернативы - если только S2D, но у МС есть ограничение на размер дедуплицирования дисков. Еще один плюс решений vSAN и S2D - даже если вас кинут с продлением и поддержкой лицензий - у вас будет возможность заменить железо в случае проблем.


    1. grumbler70
      11.06.2024 11:03

      За 7 лет эксплуатации ..

      +1. Тоже самое могу подтвердить для S2D.

      HCI на Hyper-V со Storage Spaces Direct (S2D) в филиале работает уже 8-й год. Беспроблемный совершенно. Страшилки в статье несколько преувеличены. Из плюсов S2D могу назвать возможность запустить стабильный результат на очень большом списке железа. + возможность собрать стенд-прототип на коленке в самом Hyper-V. Иногда бывает полезно.


  1. dedmedved
    11.06.2024 11:03

    Астра Брест 3.3.1 отлично работает на 3 серверах в гипер конвергентной конфигурации.