Сразу спойлерну история закончилась хорошо. В итоге было найдено решение возникшей проблемы, спасибо пользователю «Dustin», который дал развёрнутый ответ. Не знаю инженер ли ты или просто добрый админ, но решение сработало. АТ-ДУ-ШИ душевно в душу бро брат братан братишка)
Анамнез
В начале декабря прошлого года(с Новым Годом кстати, ага) оказался я на объекте, сетевая инфраструктура которого была построена на технологическЫх решениях компании Huawei. В моём подчинении оказалось сразу два друга-аппарата oceanstor dorado 6000 V3 и ещё пара стоек с Хуавеевскими Taishan’ями (2280 v2 которые).
На проходке получил временный пропуск и ключи от серверной. По пути в серверную зашёл к технарям, познакомились, распили по стопке чая; СТОшник Алексей Павлович любезно рассказал мне историю апрегрейда оборудования на этом объекте за последние пару лет. Расписался за ОТ, ТБ, ПБ, придумал и запомнил секретное слово, выиграл сектор приз на барабане, сдал биометрию, получил нормальный, пластиковый пропуск. Пропуск пока беленький простенький, зато теперь могу везде тут ходить, а вам вот фотокарточка пейзажа, что из окон кабинета Алексейпалыча, радует глаз.
Перерыв на покурить
Ступни в бахилы одел, достаю девайсы, подключаюсь к портам, вбиваю ip 127.0.0.1:8080 ШУТКА(шутка, тихо тихо, просто шучу), захожу в вебморду, чекаю сервера, наблюдаю здравый парад светящихся UID. Потом selfcheck, затем чекнул логи, далее работу Eservice, добавил себя в адресаты для отбивок, вроде всё ок. Время уже за полдень, перерыв есть можно и иницировать процесс поглащения биомассы с последующим насыщением моего организма полезными веществами, то есть – покушать. Перед обедом, перекур.
А тут хорошо тихо... слишком тихо
Обычно после перекура перед обедом, далее, я иду собственно на этот самый обед. Но вселенная решила иначе. Произошло то, что в современной меминдустрии начинается как somebody call the ambulance - и когда я допрочитал полученную отбивку - BUT NOT FOR ME.
Четыре часа, я тут тока 4 часа а уже прилетают какието траблы! Сигарета – бычок, бычок – урна.
Иду обатно в серверную. Ступни + бахилы = захожу в серверную, глаза + стойка =
Ладно, ничего страшного, бывает, ок, хорошо, понял, принял, добро, собираем ЛОГИ.
Потом попробывал выдернуть штепсель из сети и воткнуть снова, чтобы вся система перезугрузилась. («очень смешная шутка», разумеется я так не делал, пожалуйста ставьте нравится этому посту если считаете, что автору следует посетить курсы юмора и импровизации) В общем решил проверить, что всё везде правильно подключено, почекал провода, конекты, индикаторы подключения...
Буква П – Паника
Далее то что я называю, 30 лет учился, чтобы делать это за 30 минут; то есть захожу в браузер хром и вбиваю проблему в гугл))))
Обычно решение можно найти уже на первой странице результатов. Но мною была проверена и вторая страница – снова нет. Изменил поисковой запрос – нет. Ещё попытка снова без результатов. Решения в гугле нет, так сказать «из рукава» волшебный туз не вытащить, чувствую подкатывает паника. Окей используем подсказку «звонок другу», звоним товарищу-эксперту, сисадмину из одного крупного при крупного банка.
Кароче возвращаюсь в гугл.
Я конечно всегда думал, что был не самым умным ребёнком в семье, но мой следущий шаг действительно заставляет в этом усомниться. Э жы есть жэ всякие службы поддержки, форумы сапорта, надо им написать. Нашёл Хуавеевский форум, госпади спасибо! Ваще у других вендоров тоже есть аналогичный сапорт, но Хуавеевский прям удивил. Это форум, форум КАРЛ(!), форум в 2023 году! Прям такой знаете из 2000х, прям тупо форум технический. Зацените про чё пишут на главной:
Я как понял, на этом форуме можно задавать вопросы.. Ну решения у меня серавно тогда небыло, поэтому чем чёрт не шутит, создал тему на этом форуме, описал проблему, изображение приложил даже, всё как надо, по красоте.
И МНЕ ОТВЕТИЛИ
«Используйте инструмент для диагностики неисправных компонентов в SmartKit -> Health check -> Inspection»
Окей, делаем Health check
Значит что имеем:
НЕ определяются диски:
Все на полке DAE020
а на DAE000
DAE000.18
DAE000.19
DAE000.20
DAE000.21
DAE000.22
DAE000.23
DAE000.24
Логи проверил – доступность контроллеров
show enclosure
ID Logic Type Health Status Running Status Type Temperature(Celsius)
------ ------------------- ------------- -------------- ---------------------------------- --------------------
CTE0 Engine Normal Online 3U 2 Controllers Enclosure 31
DAE000 Expansion Enclosure Normal Online 2U 25 Slot 2.5 SSD Disks Enclosure 29
DAE020 Expansion Enclosure Normal Online 2U 25 Slot 2.5 SSD Disks Enclosure 27
Кабели SAS проверил всё подключено исправно
Совместимость дисков – получил инфу от коллег что всё ок ибо BOM коды дисков 02352ANH
Сделал HEALTCHECK, машина молвит:
Not passed
Engine ID: 0, controller: 0B system disk check has the following exception:The permissions of the /OSM/coffer_log directory are not rw.Directory: /startup_disk/conf is not mounted.
По этому поводу notabene
/startup_disk/conf is not mounted. не монтируется
/OSM/coffer_log directory are not rw скорее всего из-за того, что раздел в режиме чтения или недоступен.
НЕ РЕКЛАМА
В итоге SmartKit не смог определить конфигурацию системного диска и работал только в режиме read only. Закончилось заменой контроллера. Такая вот незамысловатая история, ФУХ. Вот ссылка на этот форум. https://forum.huawei.com/enterprise/ru/index.html Даже ссылку прикладываю, просто захотелось сделать доброе дело.
Сам разумеется добавил этот портал в закладки, будем посмотреть!
Всё конец!
Комментарии (4)
Frolman
27.01.2023 15:25+3нормальный у Huawei форум, частенько чекаю у них траблы, единственный минус прошивки софта только через манагеров.
AlexM2001
А какая причина отказа контроллера?
prishol
ну v3, v2 как бы сказать не очень новые модели. Предполагаю по естественному износу откинулся
Virich_A Автор
Дааааа, судя по всему так оно и было. Я создал обращение в сервис, приехал инженер и заменил контроллер.