Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.
Оперативная память
Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.
Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.
Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:
- Соблюдайте канальность памяти.
- Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
- Ставьте одинаковый объём памяти на каждый процессор.
А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:
- Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
- Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
- Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
- Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.
Многие сисадмины сталкиваются с тем, что при проверке оперативной памяти с помощью MemTest86 получают сообщения об ошибках даже в заведомо рабочих модулях, либо на одних и тех же дорожках. Особенно часто это встречается у серверов поколения M4. Это вовсе не вина машин или памяти: MemTest86 не рекомендуется использовать для проверки серверной памяти. Если же память начнёт сбоить, то сервер сообщит об этом через диагностическую панель. Проверять память на серверах IBM лучше стандартными средствами самодиагностики.
Накопители
Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:
Модель IBM | Оригинал |
---|---|
IBM 49Y2003 | Seagate ST9600204SS |
IBM 90Y8872 | Seagate ST9600205SS |
IBM 90Y8908 | Seagate ST9600105SS |
IBM 81Y9650 | Seagate ST900MM0006 |
Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).
При включении сервера и прохождении POST-проверки возможно появление ошибки:
A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.
Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.
С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:
ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)
Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:
- Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
- Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
- o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
- o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
- o Просто очень интенсивное использование дисков.
Для решения этой проблемы рекомендуется снизить активность подкачки с диска: используйте RAID-контроллер с кэшированием и увеличьте объём оперативной памяти.
Обновление прошивок и ПО
Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.
При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:
- Загрузитесь с загрузочной флешки или диска.
- Запустите BoMC от имени Администратора.
- Выберите, что вы хотите сделать: обновить и/или провести диагностику.
- Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
- Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
- По окончании записи загрузитесь с этого носителя, и далее по инструкции.
Эта процедура помогает и в ряде проблемных ситуаций. Например, если вы не дождались завершения обновления Integrated Management Module и нажали кнопку «отмена», то при следующих загрузках сервер может не суметь загрузить IMM и использует настройки по умолчанию. Можно сначала попытаться восстановить с помощью джампера “UEFI & IMM recovery jumper” на материнской плате, благодаря которому загружается прошитый образ IMM.
Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.
Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS'а происходит сбой питания.
После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS'а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS'а. Как говорится, шаг назад — два вперёд.
Другие проблемы
Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.
В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:
- Проверьте плотность подключения разъёмов питания.
- Отключите все вентиляторы и снимите корзину.
- Проверьте каждый вентилятор на других серверах.
- Соберите корзину снова, поменяв вентиляторы местами. Либо совсем их замените.
Встречался в нашей практике и такой интересный сбой: при загрузке сервера штатно инициализируется IMM, затем начинается инициализация UEFI, и… всё. Дальше сервер не грузится без объяснения причин. Не помогали никакие манипуляции: отключение от сети, полное обесточивание, отключение разных компонентов. Загрузка бэкапа UEFI с помощью джампера на материнской плате тоже не помогла. Опытным путём выяснилось, что если подождать около 20 минут, то всё же можно дождаться загрузки сервера. Так он и работает с тех пор — каждый раз грузится по 20 минут. Выяснить причину сбоя не удалось.
Преимущества серверов IBM
Серверы IBM заслуженно пользуются большой популярностью:
- Это простые и очень надёжные машины.
- Отличная расширяемость даже на начальных моделях и богатый комплект поставки.
- Серверы IBM обычно дешевле конкурентов и не уступают в производительности. Например, поколения M3 и M4 дешевле, чем аналоги у HP (Gen7 и Gen8) и Dell (11G и 12G).
- Самые недорогие расходники. Легко найти в России.
- Удобная диагностическая панель на многих моделях.
Главное, в чём серверы IBM уступают конкурентам — у них очень долгий «холодный» старт.
Комментарии (15)
roman84
16.06.2016 16:38А случайно не встречали такого?
Имеется шасси IBM BladeCenter S, в определенный момент при сбое питания он выключился, а при запуске подает питание на все модули, но старт не происходит. Сетевая карта в AMM постоянно перезапускается (судя по всему шасси постоянно в ресете) через полторы — две минуты куллеры выходят на максимум и все, так и стоит до выключения питания.
После нескольких попыток запустить, бывает включается, и работает до следующего сбоя питания.ArthurLeighAllen
16.06.2016 17:11На IBM такого не встречали, на HP и Dell — было. Решалось заменой материнки.
По Вашей проблеме можно здесь полезную информацию найти.roman84
16.06.2016 17:38Спасибо за помощь.
Читал, но решения не обнаружил.
У меня подозрения на коммутационную плату самого шасси
Darka
16.06.2016 18:08Выглядит как баг AMM
roman84
16.06.2016 19:19По идее шасси и без него запускается, только с лезвиями, но без него такой-же сбой
nobletracer
16.06.2016 21:54BladeCenter S НЕ запускает лезвия без AMM. Не путать с остальными корзинами. В них лезвия можно с кнопки запустить.
roman84
17.06.2016 11:37Ну незнаю, вроде я без АММ отдельно лезвия запускал.
Шасси без модулей АММ, лезвий и Media Tray не запускается, при наличии любого из них происходит запуск самого шасси.nobletracer
17.06.2016 20:28В S так не работает. Можно запустить лишь выставив переключатель force boot на плате.
alex1299
16.06.2016 16:51Купил я как-то родные диски для x3400 M3. Завестись-то они завелись, а вот родная программа обновления захотела обновить этим дискам фирмваре и не смогла. Саппорт мне ответа дать не смог и я забил, только каждое новое обновление пробовал — вдруг заработает, но воз и ныне там.
acmnu
16.06.2016 19:19+1> Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется.
От производства X серии, но не P. И к тому же Lenovo сервера это и есть все та же Series X.
KorP
по признанию разработчиков, сама MemTest86 просто не предназначена для проверки серверной памяти
А можно попросить пруф на это утверждение?
ArthurLeighAllen
Упоминание об этом есть на оф.форуме IBM, как раз касаемо M4-поколения https://www.ibm.com/developerworks/community/forums/html/topic?id=77777777-0000-0000-0000-000014895085
KorP
Только это сообщение не за авторством разработчика, а за консультантом IBM, типа он проверил memtest на паре своих серверов и сделал такой вывод, т.к. ошибка была не всех. Это не аргумент для столь громогласных заявлений.
ArthurLeighAllen
Спасибо, поправили текст, чтобы не вводить в заблуждение. Но при написании текста как раз ссылались на слова разработчика. Пруфа, к сожалению, не могу дать — нарыли на каком-то заокеанском форуме.
KorP
IMHO если бы это было действительно так — пруфов бы было на много больше чем один, и не только в контексте IBM, согласны?
Опять-таки:
Проверять память на серверах IBM лучше стандартными средствами самодиагностики.
Стоит уточнять — что по рекомендации инженеров IBM, ведь никто не отменял того, что средства самодиагностики не столь дотошны (особенно учитывая что речь шла конкретно о М4 линейке) нежели memtest и таким образом инженерам IBM «удобно» скрывать косяки железа?