Работа инженера технической поддержки интересна тем, что каждый раз когда обращаются с проблемой, ты заранее не можешь определить, сколько времени займёт решение проблемы. Будешь ли ты ночевать дома или на объекте, всё зависит от конкретной ситуации.
Итак, предмет сегодняшнего исследования сервер Huawei 2288H V5 с весьма специфичной проблемой. Начали сыпаться в BMC ошибки по оперативной памяти. Система успешно загружается, даже работает.
Первое, что интересно посмотреть, это логи сервера. Инструкцию как скачать и читать логи нашел на форуме - Обзор файлов дампа сервера Huawei. После долгих минут изучения, нашёл наконец более подробную информацию по ошибкам памяти: 6 планок генерируют "Memory configuration error".
По коду ошибки 0x0704 ничего поиск не дал результатов. Зато видны номера слотов (Sensor name), куда установлены DIMM. Решаю посмотреть схему установки планок памяти на плате на портале конфигурации сервера. Ввожу модель сервера, тип DIMM, количество CPU и DIMM. Появляется картинка с нумерацией слотов.
Определяем места расположения планок по номерам из лога. Получается странная ситуация, все планки расположены рядом. Тут уже начинаю думать, скорее всего с материнской платой что-то произошло, ну не могут сразу 6 планок памяти генерировать ошибки. Хотя, это может брак одной партии, но такие кейсы читал только про HDD/SSD.
В официальной документации по серверу 2288H V5 есть логическая схема. Установленный процессор линейки Intel Xeon Scalable напрямую "общается" с планками памяти, благодаря встроенному контроллеру памяти.
Держа в голове мысли, когда сервер работает в 365/24/7 при постоянной нагрузке CPU, возможен сбой оного. Решаюсь на проверку CPU2, методом замены местами с CPU1. Откручиваю радиатор, убираю весьма свежую термопасту, снимаю кронштейн держателя процессора, аккуратно достаю процессор...
...и честно сказать, испытываю диссонанс.
Как такое может быть?
Около часа выправлял эти ножки. Честно скажу, с таким сталкиваюсь впервые. Никто из персонала не смог объяснить появление данного рода неполадок. Кто открывал и совершал манипуляции с процессором останется тайной для меня навсегда.
Совершив очередную "магию", вышел на улицу, на лице появилась улыбка, солнце еще не село, практически целый день впереди. Буду спать дома сегодня:)
Комментарии (7)
apro
13.10.2022 13:53+1Кто открывал и совершал манипуляции с процессором останется тайной для меня навсегда.
Так ошибки в логах должны появиться сразу после включения с такими погнутыми ножками, то есть время "вредительства" известно, дальше по камерам легко установить кто это делал?
prishol Автор
13.10.2022 14:48+1Думаю, именно по такому сценарию проходило внутреннее расследование потом.
BadDancer
13.10.2022 13:58+2Никто из персонала не смог объяснить появление данного рода неполадок. Кто открывал и совершал манипуляции с процессором останется тайной для меня навсегда.
Либо штатный админ, если он есть, либо сын маминой подруги. Во всех остальных случаях — сказали бы — вот как имярек полазил — так и началось.
Virich_A
13.10.2022 14:52+1Как вспомню те ночи, когда выезжал на объекты для ремонта и приходилось оставаться с ночевой на складах и даже в серверных. Самое лучшее отсыпаться дома, только дома.
13werwolf13
14.10.2022 07:13настолько банально что вызвало зевоту.
моё любимое это две выгнутые так что закорочены ножки на сокете вызвавшие интересный эффект: система видела все 32GB памяти, но использовала строго 16GB и не больше.
Slon48
Неоднократно приходилось наблюдать, как гнутые контакты в сокете вызывают проблемы с памятью, а так же жирные следы пальцев сборщиков или термопасты на контактных площадках процессора. Так что вполне себе распространённое явление.
froll-fomich
Когда я давное работал в гарантийном отделе, ну плюс ремонт своими силами, то часто приносили блоки, пользовательские, как раз только начали поставки плат с новыми сокетами от Intel, и при сборке, монтажники соревнуясь в скорости, срывали пластиковые крышки с сокетов, оставляли там кусочки оных, ну а дальше, хлоп топ, и блок едет в магазин. Не серверный случай конечно, но спешить никогда не надо.