Я занимаюсь технической поддержкой и сопровождением в компании «Онланта». Сегодня в блоге ЛАНИТ я расскажу о решении реального кейса по замене ОЗУ (оперативной памяти) в СХД Huawei.    

Согласно рекомендациям и техническим руководствам вендоров, когда в контроллере возникают неисправности, рекомендуется выполнять его замену, оставляя без изменений установленные внутри компоненты. Такой подход помогает минимизировать время простоя оборудования, а также снизить риски некорректной диагностики.

Однако на практике при детальной диагностике зачастую можно выявить конкретный неисправный компонент — например, модуль оперативной памяти (ОЗУ) — и заменить только его. Это позволяет значительно сократить затраты по сравнению с заменой всего контроллера, стоимость которого может быть в разы выше стоимости отдельных комплектующих.

Преимущества замены ОЗУ

Снижение стоимости ремонта. Модуль ОЗУ стоит значительно дешевле, чем замена контроллера.

Доступность компонентов. Современные модули ОЗУ — стандартизированные компоненты, которые легко приобрести и заменить даже в условиях ограниченного доступа к оригинальным запчастям от вендора.

Сокращение времени простоя. Диагностика и замена одного модуля памяти занимает меньше времени, чем оформление заказа, доставка и установка нового контроллера.

Таким образом, хотя вендоры рекомендуют заменить контроллер для обеспечения надежности, при диагностике замена только неисправного модуля ОЗУ — экономически и технически оправданная альтернатива. Именно она позволяет снизить затраты без рисков для стабильности работы системы.

Затронутые линейки оборудования

СХД Dorado, все модели OceanStor.

Ошибки, симптоматика

Проблема с ОЗУ может быть причиной как постоянных перезагрузок контроллера, так и разовой перезагрузки. На примере ниже контроллер постоянно перезагружался для восстановления.

При этом в event-логе не фиксировались сообщения о проблеме с ОЗУ, появлялись лишь сообщения о ремонте контроллера.

При детальном анализе логов с проблемного контроллера можно обнаружить большое количество ошибок по ОЗУ подобного вида.

Проблема с постоянной перезагрузкой контроллера была решена заменой проблемной памяти.

В некоторых случаях в event-логе может появиться сообщение об ошибках (без перезагрузки контроллера) на какой-либо планке памяти подобного вида:

58828809    2025-08-07 14:05:21    0xF00ED000E    Fault    Warning    Unrecovered    None    A correctable error occurred on memory (controller enclosure CTE1, controller A, controller BOM 03059103, controller SN 210305910310M3000174, slot DIMM130).

Особенности, замечания

В контроллерах для одинаковой модели характеристики ОЗУ могут различаться как частотами, так и ранками. Важно проверять характеристики на затронутом контроллере. 

Для детальной диагностики потребуются полные логи (нажать

  > Export Data > в области System Log > выбрать All logs).

Замена модуля памяти: инструкция

1. Подключиться к сервис порту патчкордом: он отмечен значком 

 Dorado 5000/6000 V6
 Dorado 5000/6000 V6

2. Добавить массив в установленный SmartKit, нажать на Devices -> Add.

3. После успешного добавления массива в SmartKit перейти в раздел Parts Replacement, выбрать устройство, затем — замену затронутого контроллера. В примере ниже неисправных компонентов нет, снята галочка с пункта Show faulty parts only, поэтому отображаются все контроллеры.

4. Выбрать нужный компонент для замены и согласиться со всеми пунктами, пока у вас не будет активна кнопка Replaced. Нажимать ее следует только после проведения замены.

5. Когда кнопка стала активна, нужно немного извлечь контроллер для его отключения.

6. Затем необходимо извлечь кабели (подписать расположение), а также установленные модули, нажав на кнопку (1) и потянув на себя.


7. Полностью извлечь контроллер, открыв защелки на рычагах с обеих сторон контроллера и тянуть рычаги на себя, чтобы извлечь контроллер.

8. Снять крышку и выполнить замену проблемного модуля памяти, предварительно сверив нумерацию.

Расположение модулей памяти:

9. Установить контроллер, открыв рычаги, вставить контроллер как можно дальше.

10. Установить модули, подключить кабели.

11. Нажать на рычаги и вставлять контроллер, пока он полностью не войдет в слот (I/O модули должны быть установлены, на примере отсутствуют).

12. После установки нажать Replaced. Далее необходимо будет подождать, пока контроллер включится и пройдет проверку. Если все было сделано правильно, то в Device Manager появится исправный контроллер.

Таким образом, при точной диагностике и следовании указанным выше этапам заменить проблемную планку памяти не составит труда, а стоимость и время закупки будут значительно сокращены.

Комментарии (7)


  1. aluminic
    09.12.2025 14:41

    5. Когда кнопка стала активна, нужно немного извлечь контроллер для его отключения.

    Ммм... что?


    1. KorP Автор
      09.12.2025 14:41

      После запуска процедуры замены и прохождения всех проверок, контроллер остаётся включенным. Для его выключения нужно его физически извлекать.


      1. aluminic
        09.12.2025 14:41

        Что такое "немного извлечь"? Шутка юмора что ли?
        По инструкции сначала надо отсоединить кабели от интерфейсных модулей, потом извлечь модули, потом отсоединить кабели от контроллера, а потом уже извлечь контроллер.


        1. KorP Автор
          09.12.2025 14:41

          Под "немного извлечь" подразумевается до того момента пока пины не выйдут из разъёма и на контроллере не будет индикации. После этого все компоненты будут отключены и можно извлекать кабели\модули.


          1. aluminic
            09.12.2025 14:41

            Это не по инструкции, откуда вы это взяли?


  1. vvzvlad
    09.12.2025 14:41

    Однако на практике при детальной диагностике зачастую можно выявить конкретный неисправный компонент — например, модуль оперативной памяти (ОЗУ) — и заменить только его. Это позволяет значительно сократить затраты по сравнению с заменой всего контроллера, стоимость которого может быть в разы выше стоимости отдельных комплектующих.

    А мы точно на хабре? Не на сайте руководств для менеджеров, которые не понимают ничего в серверах? Зачем вы перевели документацию? Почему, мистер андерсен, для кого?


    1. PartisanBLR
      09.12.2025 14:41

      Зачем вы перевели документацию? Почему, мистер андерсен, для кого?

      Когда у старых сервисных инженеров, возивших в ̶к̶а̶р̶м̶а̶н̶а̶х̶ ̶чемоданах дорогие железяки на другой конец огромной страны, уже закончились "байки" (или желание), а PR-отдел требует еще и еще статей для корпоративного блога на Хабре...