Я занимаюсь технической поддержкой и сопровождением в компании «Онланта». Сегодня в блоге ЛАНИТ я расскажу о решении реального кейса по замене ОЗУ (оперативной памяти) в СХД Huawei.
Согласно рекомендациям и техническим руководствам вендоров, когда в контроллере возникают неисправности, рекомендуется выполнять его замену, оставляя без изменений установленные внутри компоненты. Такой подход помогает минимизировать время простоя оборудования, а также снизить риски некорректной диагностики.
Однако на практике при детальной диагностике зачастую можно выявить конкретный неисправный компонент — например, модуль оперативной памяти (ОЗУ) — и заменить только его. Это позволяет значительно сократить затраты по сравнению с заменой всего контроллера, стоимость которого может быть в разы выше стоимости отдельных комплектующих.

Преимущества замены ОЗУ
Снижение стоимости ремонта. Модуль ОЗУ стоит значительно дешевле, чем замена контроллера.
Доступность компонентов. Современные модули ОЗУ — стандартизированные компоненты, которые легко приобрести и заменить даже в условиях ограниченного доступа к оригинальным запчастям от вендора.
Сокращение времени простоя. Диагностика и замена одного модуля памяти занимает меньше времени, чем оформление заказа, доставка и установка нового контроллера.
Таким образом, хотя вендоры рекомендуют заменить контроллер для обеспечения надежности, при диагностике замена только неисправного модуля ОЗУ — экономически и технически оправданная альтернатива. Именно она позволяет снизить затраты без рисков для стабильности работы системы.
Затронутые линейки оборудования
СХД Dorado, все модели OceanStor.
Ошибки, симптоматика
Проблема с ОЗУ может быть причиной как постоянных перезагрузок контроллера, так и разовой перезагрузки. На примере ниже контроллер постоянно перезагружался для восстановления.

При этом в event-логе не фиксировались сообщения о проблеме с ОЗУ, появлялись лишь сообщения о ремонте контроллера.

При детальном анализе логов с проблемного контроллера можно обнаружить большое количество ошибок по ОЗУ подобного вида.

Проблема с постоянной перезагрузкой контроллера была решена заменой проблемной памяти.
В некоторых случаях в event-логе может появиться сообщение об ошибках (без перезагрузки контроллера) на какой-либо планке памяти подобного вида:
58828809 2025-08-07 14:05:21 0xF00ED000E Fault Warning Unrecovered None A correctable error occurred on memory (controller enclosure CTE1, controller A, controller BOM 03059103, controller SN 210305910310M3000174, slot DIMM130).
Особенности, замечания
В контроллерах для одинаковой модели характеристики ОЗУ могут различаться как частотами, так и ранками. Важно проверять характеристики на затронутом контроллере.
Для детальной диагностики потребуются полные логи (нажать

> Export Data > в области System Log > выбрать All logs).

Замена модуля памяти: инструкция
1. Подключиться к сервис порту патчкордом: он отмечен значком


2. Добавить массив в установленный SmartKit, нажать на Devices -> Add.

3. После успешного добавления массива в SmartKit перейти в раздел Parts Replacement, выбрать устройство, затем — замену затронутого контроллера. В примере ниже неисправных компонентов нет, снята галочка с пункта Show faulty parts only, поэтому отображаются все контроллеры.

4. Выбрать нужный компонент для замены и согласиться со всеми пунктами, пока у вас не будет активна кнопка Replaced. Нажимать ее следует только после проведения замены.
5. Когда кнопка стала активна, нужно немного извлечь контроллер для его отключения.
6. Затем необходимо извлечь кабели (подписать расположение), а также установленные модули, нажав на кнопку (1) и потянув на себя.

7. Полностью извлечь контроллер, открыв защелки на рычагах с обеих сторон контроллера и тянуть рычаги на себя, чтобы извлечь контроллер.

8. Снять крышку и выполнить замену проблемного модуля памяти, предварительно сверив нумерацию.


Расположение модулей памяти:

9. Установить контроллер, открыв рычаги, вставить контроллер как можно дальше.

10. Установить модули, подключить кабели.

11. Нажать на рычаги и вставлять контроллер, пока он полностью не войдет в слот (I/O модули должны быть установлены, на примере отсутствуют).

12. После установки нажать Replaced. Далее необходимо будет подождать, пока контроллер включится и пройдет проверку. Если все было сделано правильно, то в Device Manager появится исправный контроллер.
Таким образом, при точной диагностике и следовании указанным выше этапам заменить проблемную планку памяти не составит труда, а стоимость и время закупки будут значительно сокращены.