В одной маленькой софтверной компании хранение данных было организовано следующим образом: сервер, в котором обыкновенные SATA накопители средствами linux (mdamd) организованы в несколько массивов RAID 1, каждый из которых являлся хранилищем для одного из направлений разработки. Данный вариант при минимальных затратах относительно надежен, если за ним подобающим образом присматривать. Но системный администратор решил, что нет нужды регулярно проверять состояние массивов, и занимался иными делами. В июне 2017, получив жалобы о невозможности прочитать данные от пользователей одного из массивов, обнаружил, что собственно массива уже давно нет, и что на один из накопителей запись прекратилась в августе 2015, а второй с актуальными данными при попытке монтирования подвешивает ОС. Резервная копия за пределы сервера последний раз была сделана в ноябре 2016 года.


рис. 1

Осознав, к чему привела халатность в повседневной работе, администратор попытался признать свою вину лишь в нерегулярности копирования за пределы сервера и скрыть недосмотр за массивами, сославшись на одновременный отказ двух накопителей.

Учитывая сложившиеся обстоятельства, один из руководителей компании весьма нелестно высказался о работе системного администратора и поручил последнему восстановить данные в кратчайшие сроки в весьма эмоциональной форме.

С этого момента началась цепочка событий, которая не лучшим образом отразилась на целостности пользовательских данных.

12 июня утром, сразу же после открытия, на пороге офиса нашей компании появляется человек, который сообщает, что ему срочно необходимо получить услугу бесплатной диагностики накопителя WD5000AAKX-221CA1, который подвешивает систему и не позволяет скопировать файлы. Накопитель без следов вскрытия.

Проводим стандартные диагностические мероприятия: визуальный осмотр, проверка цепей питания на печатной плате, сопротивления обмоток двигателя. Не обнаружив ничего крамольного, подключаем к порту PC3000 и подаем питание. Слышен нормальный звук раскрутки вала, прохождения калибровочного теста. По регистрам накопитель демонстрирует готовность к обмену данными. На запрос паспорта получаем от жесткого диска корректный ответ со всеми данными. Проверяем читабельность модулей микропрограммы и оцениваем их контрольные суммы. При анализе relo-list обнаруживаем, что он не пустой, что свидетельствует о том, что микропрограмма накопителя обнаружила некоторые проблемы на поверхности. Просматривая атрибуты SMART, замечаем, что 197 атрибут (текущее количество нестабильных секторов) весьма далек от нулевого значения, что подтверждает наличие проблем. Модифицируем в ОЗУ накопителя настройки: отключаем процедуры переназначения и добавления дефектов в relo-list, очищаем сам relo-list, запрещаем обновление журналов SMART. После такой модификации накопитель не будет выполнять процедуры оффлайн сканирования и обновлять журналы SMART. На этом этапе производим оценку качества чтения каждой из головок в зонах разной плотности записи. Тест подтверждает пригодность оригинального БМГ для вычитывания данных. Читаем 0 сектор.


рис. 2

Обнаруживаем, что в нем содержатся записи для трех разделов.

По смещению 0x00000800 (2048) секторов располагается первый раздел Linux RAID (0xFD), размер раздела 0x00064000 (409 600) секторов.

По смещению 0x00064800 (411 648) секторов располагается второй раздел Linux RAID (0xFD), размер раздела 0x39DC8000 (970 752 000) секторов.

По смещению 0x39E2C800 (971 163 648) секторов располагается третий раздел linux swap (0x82), размер раздела 0x00400000 (4 194 304) секторов.

Анализ содержимого суперблоков первых двух разделов показывает, что они состояли в массивах RAID 1 и в каждом массиве содержит по одному разделу c Ext4. Выполнив попытку чтения метаданных файловой системы на большом разделе, обнаруживаем, что имеются затруднения в чтении.

На этом первичные диагностические мероприятия завершены, и их результат сообщается клиенту, также сообщается ценовая ниша услуги от 250 до 350 белорусских рублей и срок выполнения около 2-3 рабочих дней (исключительно в дневное время, так как накопитель требует постоянного наблюдения). Если необходимо выполнять работы во внеурочное время для сокращения сроков, то это возможно, но это прямо отразится на стоимости. План работ: модификация микрокода накопителя, локализация дефектных зон, чтение стабильных зон, анализ метаданных файловых систем на копии, вычитывание недостающих метаданных из проблемных зон, повторный анализ и построение цепочек нужных файлов для вычитывания из проблемных зон, при необходимости мероприятия по анализу регулярных выражений в областях, не занятых файлами, и возможные реконструкции поврежденной файловой системы.

Потенциальный клиент выразил свое неудовольствие по поводу ожидаемой стоимости услуг и сроков выполнения работ, а также слишком быстрой диагностики, аргументируя, что за менее, чем 15 минут невозможно сделать подобные выводы. Кроме этого, отметил, что данные принадлежат компании, а работы по восстановлению за его счет, поэтому он пока попробует сам. С этими словами клиент покинул офис.

14 июня в начале рабочего дня, данный клиент вновь пришел к нам и сообщил о том, что пытался многократно скопировать образ из накопителя используя dd. Поначалу винчестер периодически зависал, но после выключения и повторного включения снова виделся в системе и позволял продолжать копирование, но теперь накопитель пропал из системы, и выключение-включение более не помогает, а потом при очередной попытке включения из гермоблока стало доноситься какое-то жужжание.

Были проведены повторные стандартные диагностические мероприятия. На этапе пробного включения мы не услышали звука раскрутки вала, но услышали цикличные жужжащие звуки, которые данные накопители издают при безуспешных попытках старта двигателя. Учитывая, что заклинивание вала у данных накопителей случается весьма редко и как правило случается из-за серьезных деформаций корпуса, которых нет на этом накопителе, было выдвинуто предположение о залипании головок вне парковочной рампы.

Клиенту был озвучен дополнительный комплекс мероприятий, необходимый для восстановления данных, и то, что теперь сроки выполнения и стоимость возрастают из-за усугубления ситуации, на что он парировал, что залипание головок – это не великая проблема и что на youtube видел множество роликов, в которых показано, как поступать в подобных ситуациях, и это дело нескольких минут. Выслушать информацию, чем опасны подобные «методы», клиент отказался и покинул офис.

15 июня в середине рабочего дня снова появляется данный клиент (он же системный администратор), но уже не один, а в сопровождении своего прямого руководителя. Сходу была озвучена претензия, что после наших диагностик накопителю стало намного хуже, что он теперь стучит и не определяется в BIOS. На этом моменте останавливаем монолог системного администратора и говорим, что мы готовы принять письменную претензию и дать на нее ответ в установленный законом срок, но прежде, чем переходить к ведению диалога в подобном русле, давайте проведем визуальный осмотр накопителя при Вас и также сравним отличается ли его внешний вид от того, что был, а также при необходимости просмотрим видеозапись вчерашнего дня и установим было ли что-либо в наших действиях, что могло серьезным образом усугубить ситуацию. Системный администратор хотел было начать перечить, но в диалог вмешался его руководитель, который велел системному администратору выложить жесткий диск на стойку.

Сразу же обнаруживаем, что этикетка с крышки накопителя частично отклеивалась, также показываем, что момент затяжки винтов крышки разный, что явно показывает, что с накопителя снимали крышку. И предоставляем видеозапись вчерашнего дня, где на стойке видно, что наклейка на крышке накопителя не повреждена в тот момент, когда его забирал системный администратор, и отчетливо слышны его рассуждения про ролики на youtube.

Под напором фактов системный администратор перестал обвинять нас и признался в том, что разобрал накопитель и попытался вывести головки, но накопитель не заработал, а застучал. В попытке снять с себя груз ответственности сообщил руководству, что вскрытие производила наша компания, и что именно после этого накопитель стал стучать. После этого системный администратор и его руководитель вышли из офиса для беседы.

В офис вернулся уже лишь один руководитель, который попросил третий раз провести диагностические мероприятия с учетом вскрывшихся дополнительных осложнений, а также произвести диагностику второго диска из массива.

По результатам анализа второго накопителя установлено, что имеют место небольшие дефектообразования (именно из-за них накопитель был исключен из массива), и согласно метаданным файловой системы пользовательских данных после августа 2015 года нет. Таким образом вскрылся факт, что отказ дисков не был одновременным.

В условиях ламинарного бокса было произведено вскрытие накопителя. Повреждения БМГ были заметны визуально и даже не требовали снятия для осмотра под микроскопом. Но фотофиксация была сделана.


рис. 3

В данном БМГ обе подвески были деформированы подобным образом. Такие деформации обычно являются следствием неумелого вывода головок с поверхности на парковочную рампу. Попытки старта этого накопителя приводили к появлению дополнительных царапин на поверхности пластин. К счастью, попыток старта было немного, и окончательного убийства данных не состоялось, но характер царапин таков, что возможно перерождение в запилы.

Таким образом, вместо заурядной задачи с вычитыванием накопителя с дефектами, из-за особого усердия системного администратора имеем задачу, где необходимо выполнить пересадку БМГ и перспективы весьма туманны, так как имеются радиальные царапины в начале диска. Служебная зона данного накопителя находится в самом начале пластины т.е. в зоне с царапинами.


рис. 4

Обратим внимание, как изувечен край пластины оборванными слайдерами (зона повреждений примерно 0,1-0,3мм, из-за увеличения кусок окружности вырождается почти в прямую). Благо, что в этом месте при сходе с рампы у исправного БМГ слайдеры находятся еще достаточно высоко, поэтому эти самые сильные повреждения пластины угрозы не представляют.

Данная информация доводится до Заказчика, также информируем о том, что стоимость существенно выросла по причине возникновения необходимости пересадки БМГ от аналогичного донора (Tahoe LT), дополнительных работ по пересадке, а также велика вероятность, что вряд ли хватит одного донора при вычитывании проблемных зон, так как деградационные процессы будут прогрессировать. Заказчик без колебаний соглашается.

Приступая к работе, производим подбор нескольких комплектов БМГ от накопителей-доноров с учетом близости адаптивных параметров, чтобы получить максимально устойчивое чтение. Обеспыливаем гермоблок пациента и производим процедуры перестановки БМГ от накопителя донора с помощью специализированного инструмента.


рис. 5

Собрав накопитель, выполняем пробный старт. Слышен звук раскрутки вала, прохождение калибровочного теста. Какие-либо подозрительные звуки отсутствуют, по этой причине не прерываем процедуру инициализации и ожидаем порядка 40 секунд до появления готовности к обмену данными.


рис. 6

Запрашиваем паспорт накопителя и получаем пустышку, что свидетельствует о том, что накопитель не смог загрузить из служебной зоны все модули, которые необходимы для старта. Анализируем версию кода в ПЗУ накопителя и подбираем подходящий оверлей из нашей базы данных микропрограмм скопированных из накопителей. После загрузки его в память накопителя получили возможность полноценно читать и анализировать содержимое служебной зоны. По результатам проверки целостности служебной зоны нечитабельными оказались 0x11 (основной оверлей), 0x31 – транслятор, 0x32 – relo-list, 0x33 – P-list, 0x34 – G-list, 0x43 – адаптивные параметры, а также модули, ответственные за работу SMART.

Производим посекторную вычитку наиболее критичных модулей. P-list прочитался с небольшим количеством дефектов, расположение которых достаточно далеко от начала модуля. Аналогичная картина с модулем адаптивных параметров. Модули транслятора, G-list, relo-list оказались нечитабельными на 100%. Подобные повреждения модулей случаются при работе накопителя с не совсем исправными головками при попытке переписать модуль микропрограммой накопителя.

Для восстановления модуля транслятора записываем все необходимое, полученное из служебной зоны пациента, в накопитель-донор, в том числе и реконструированные 0x33 и 0x43. Выполнив пересчет транслятора с учетом P-list получим оригинальный 0x31 модуль за счет работы самой микропрограммы накопителя. Информация о скрытых дефектах в модуле 0x34 безвозвратно потеряна, поэтому создадим модуль пустышку без записей. Аналогичное действие выполним и с модулем 0x32.

Проверим возможность записи на пациенте, для этого пропишем неиспользуемые треки и попытаемся их считать. Тест записи прошел успешно, поэтому на пациент записываем восстановленные модули по 0 копии, а также корректируем информацию о регионах, чтобы активной была только копия по нулевой головке. Также вносим изменения в модуль настроек, чтобы при успешном старте не запускались процедуры оффлайн-сканирования и не работали процедуры SMART.

Производим рестарт накопителя, и в течение 10 секунд получаем информацию о готовности к обмену данных. По запросу паспорта получаем корректный ответ. Попытка чтения в пользовательской зоне выдает нам уже знакомую на первой диагностике таблицу разделов, что свидетельствует о том, что накопитель смог самостоятельно все загрузить с поверхности и инициализировать систему трансляции.

Создаем задачу посекторной копии на другой накопитель в Data Extractor и выполняем процедуру построения карты мини зон. Учитываем, что при обследовании обнаруживались царапины в начале пластины, основное чтение в UDMA режиме начнем с конечных зон.


рис. 7

Есть проблемы с чтением в границах swap раздела, но их мы игнорируем, так как раздел представляет весьма малую ценность. В границах основного второго радела чтение идет без нареканий до 57 89х ххх сектора, затем начинают появляться первые нестабильности.

Изменим чтение с UDMA режима на PIO для лучшего контроля процесса чтения и произведем вычитку метаданных файловой системы (Ext4) второго раздела. Завершив этут операцию на 99,99% перейдем к чтению мини зон с коротким таймаутом и прыжком 10 000 секторов в случае нестабильности. Данная мера позволила нам дочитать более 85% от непрочитанного объема.

Далее переходим к анализу расположения файлов на втором разделе и строим очередь из цепочек, согласно приоритету данных в техническом задании Заказчика. Учитывая, что в исцарапанной части пластины присутствуют некоторые важные для Заказчика файлы, приступаем к многопроходному чтению в области основных дефектных зон.

При вычитке дефектных зон происходят деградации как слайдеров, так и поверхностей пластин поэтому важно исключить из чтения самые опасные участки, чтобы успеть прочитать максимум пользовательских данных с минимумом комплектов донорских головок.

В процессе проведения работ Заказчику пересылались отчеты о поврежденных файлах после каждой деградации донорского БМГ и согласовывалось использование каждого дополнительного донора. При использовании третьего динамика чтения была малозаметной, по этой причине было принято решение о прекращении дальнейших попыток получить оставшиеся данные из дефектных зон. Удалось получить более 95% всех файлов (и более 99,5% согласно основному техническому заданию). Данный результат удовлетворил Заказчика.

В заключение подведем итоги. Налицо халатное отношение системного администратора к своим обязанностям. Также бросается в глаза неуместная эмоциональность руководства, которая вредит рабочему процессу. Ведь именно из-за прессинга со стороны руководства системный администратор пытался минимизировать свои расходы и совершил множество необдуманных поступков, усугубивших состояние накопителя, чем поставил под угрозу окончательного уничтожения пользовательские данные, которые для компании представляли ценность во много раз больше, чем стоимость услуги восстановления данных. Хочется обратить внимание руководящего состава, что в подобных ситуациях срываться на эмоции – непозволительная роскошь. Куда более разумным решением будет анализ проблемы и оценка собственных возможностей для ее устранения и, если необходимо, поиска исполнителей. И лишь после решения основной проблемы разбираться в степени вины системного администратора и говорить о каких-либо взысканиях за нанесенный своим бездействием ущерб. Также руководству стоит разделить бремя вины со своим подчиненным, так как именно недоработка должностных инструкций или полное их отсутствие создало условия для развития подобной ситуации.

Следующая публикация: Экономия на спичках или восстановление данных из скрежещущего HDD Seagate ST3000NC002-1DY166
Предыдущая публикация: Неглубокое погружение или восстановление данных с жесткого диска после затопления офиса
Поделиться с друзьями
-->

Комментарии (133)


  1. Shaz
    24.06.2017 00:10
    +10

    Может конечно и руководство виновато, но я понятия не имею как оправдать админа у которого 2 года назад сдох рейд, и он никаких действий не предпринял. Ну кроме как начать вешать лапшу на уши начальству (кстати может по этому начальник такой нервный у него был?).


    1. dartraiden
      24.06.2017 00:13
      +2

      У меня даже для домашних ПК и ноутов настроен мониторинг с отсылкой на почту уведомлений об изменении важных показателей S.M.A.R.T. (и это помогло своевременно обменять проблемное устройство по гарантии, когда начало неуклонно расти число переназначенных секторов). А тут человек, которому за это платят деньги, не почесался организовать простейший контроль…


      1. Arekusei
        24.06.2017 04:05

        А можете подробнее описать процесс мониторинга?


        1. dartraiden
          24.06.2017 04:14
          +5

          Я на Windows, так что через CrystalDiskInfo: Сервис > Особенности уведомлений > Уведомление по эл. почте

          Настройки почты на примере Gmail:

          To: логин@gmail.com
          From: логин@gmail.com
          Host: smtp.gmail.com
          Port: 587
          ID: логин
          Password: пароль (если включена 2-этапная авторизация, сюда нужно вводить пароль приложения, созданный здесь)
          SMTP/SSL: Yes

          Там же в меню «Сервис» включить автозапуск и запуск агента.


          1. rdc
            24.06.2017 17:19

            для уведомлений, отправляемых одному человеку, не нужны никакие пароли.
            достаточно указать его адрес, и MX его почты на 25 порту.
            для «своих» клиентов любой почтовый сервис, включая Gmail, принимает почту без авторизации.


            1. artyums
              24.06.2017 21:00

              Очень велик шанс попасть под спам-фильтр, если отправлять письма без авторизации. Одно время долго не могли понять в чем же дело, почему, казалось бы безобидные, письма уходят в спам — оказалось именно из-за этого (и кажется дело было именно с GMail).


          1. zte189
            26.06.2017 14:07

            Спасибо за подсказку, настроил у себя.


      1. click0
        24.06.2017 18:49

        Это не всегда помогает. Сегодня безпроблемный S.M.A.R.T, а завтра хард уже не читается.


    1. hddmasters
      24.06.2017 00:20
      +8

      В такой ситуации, когда вскрылось систематическое невыполнение обязанностей системным администратором руководство может его уволить и нанять другого, но нет гарантии, что не будет повторения подобной картины. Важно чтобы руководитель осознавал, какие именно управленческие ошибки допустил в организации рабочих процессов.


    1. edogs
      24.06.2017 17:03
      +1

      Может конечно и руководство виновато, но я понятия не имею как оправдать админа у которого 2 года назад сдох рейд, и он никаких действий не предпринял.
      Собственно вопрос сводится к тому — было ли у этого системного администратора это в обязанностях и извещал ли он ситуации руководство.

      При этом попытка скрыть проблему и решать ее самостоятельно так-то не обязательно свидетельствует о прямой вине администратора, real politik понимаешь.

      Достаточно типичный кейз.
      Сисадмин на зарплате 50к из которых 15к белые (или 35к премиями выдается).
      Рейд ставил предыдущий админ и этому админу сказали не лезть туда… или же рейд полетел — сисадмин написал служебную записку, которую положили в купленный вместо нового хдд шредер.
      Когда полетели все данные окончательно — начальство включило дурачка мол «ничего не знаю, данные слетели ты виноват» (с какой поры кстати сисадмин за свой счет должен восстанавливать данные?! это лишний раз показывает что что-то там в начальстве не так), и предъявило что следующая зарплата будет 15к, а не 50к если не починит за свой счет.
      Сисадмину в принципе ничего другого и не оставалось, как выкручиваться по ситуации.


      1. hddmasters
        24.06.2017 17:14

        Сисадмину в принципе ничего другого и не оставалось, как выкручиваться по ситуации.

        это как раз таки понять можно
        15 июня в середине рабочего дня снова появляется данный клиент (он же системный администратор), но уже не один, а в сопровождении своего прямого руководителя. Сходу была озвучена претензия, что после наших диагностик накопителю стало намного хуже, что он теперь стучит и не определяется в BIOS.

        Как оправдать такое поведение администратора, когда он точно знает, что это после его действий усугубилась ситуация, но он достаточно нагло и цинично обвиняет в этом нас?


        1. edogs
          24.06.2017 17:28

          Не очень поняли — это прямой вопрос или косвенное возражение?

          Если возражение, то не принимается, т.к. мы отвечали по поводу "понятия не имею как оправдать админа у которого 2 года назад сдох рейд, и он никаких действий не предпринял", поэтому эту фразу и сцитировали.

          Если вопрос, то тут конечно админ не прав чуть более чем полностью, вопросов в этом плане нет. Хотя мы, честно говоря, несколько удивлены что Вы никак не наказали админа за подобные обвинения, утвердив его во мнении о том, что такое можно проделывать безнаказанно. Сообщение владельцу фирмы истинной ситуации наказанием тут считаться не может, т.к. владелец фирмы наказал его за обман себя, а не за обвинение Вас.


          1. hddmasters
            24.06.2017 17:50

            Если вопрос, то тут конечно админ не прав чуть более чем полностью, вопросов в этом плане нет. Хотя мы, честно говоря, несколько удивлены что Вы никак не наказали админа за подобные обвинения, утвердив его во мнении о том, что такое можно проделывать безнаказанно.

            Почему безнаказанно? Попытка обвинения провалилась, себя он дискредитировал в глазах непосредственного начальника. Подобная попытка оклеветать законом не наказуема, если сходу инициировать процесс с нашей стороны в силу слабой доказательной базы наличия факта клеветы, кроме озвученной претензии в нашем офисе.
            Сообщение владельцу фирмы истинной ситуации наказанием тут считаться не может, т.к. владелец фирмы наказал его за обман себя, а не за обвинение Вас.

            Пускаться в мелкие «разборки» потенциально убыточное направление. Мы не стремились, что-либо сообщать кому-то. На территории нашего офиса предоставили подтверждение своей невиновности в произошедшем, чтобы потом не пришлось этого делать в суде и тратить на это массу своего времени, ради наказания лица оклеветавшего нас перед своим руководством.

            Не очень поняли — это прямой вопрос или косвенное возражение?
            это дополнение к образу администратора, который совершил, мягко говоря, некорректный поступок в попытках снять с себя груз ответственности.


      1. Shaz
        25.06.2017 03:18

        Ну если бы не тот факт, что и бекапы были просрочены на год, и если бы не пренебрежительное отношение к сервису то это все можно было предположить. Но сдается мне, что это просто тот тип админов у которых только на словах всегда все хорошо.


    1. Dioxin
      26.06.2017 10:32

      Всегда виноват руководитель — работа у него такая.
      А оправдывать сисадмина не надо — человек явно не своим делом занимается.


  1. Fox_exe
    24.06.2017 00:25

    Интересно, сисадмина просто уволили, или всёж определили в рабы, работающие за еду на пару месяцев (Дабы компенсировать стоимость восстановления данных и упущенную прибыль из-за простоя)?


    1. hddmasters
      24.06.2017 00:33
      +5

      На данный вопрос ответа нет. Но в качестве курьера приносящего подписанные со стороны Заказчика акты выполненных работ выступал все тот же системный администратор.


    1. anloop
      24.06.2017 13:30
      +3

      Есть мнение, что админ и так работал «за еду». Ибо других факторов, оправдывающих такое раздолбайство, я не знаю.


      1. Dioxin
        26.06.2017 10:37
        +1

        Даже это не оправдание, я даже бесплатно так не работаю.
        Не нравится оплата — иди в другое место.


        1. anloop
          26.06.2017 15:43

          Работать за еду и бесплатно — это совершенно разные вещи.
          Бесплатно, как правило, я делаю что-то либо своим, либо просто хорошим людям. И тут я сделаю хорошо.
          А вот если мне платят зарплату, которой только на еду и хватает (и по каким-либо причинам нету возможности сейчас сменить работу) — некоторые люди и не такую свинью подкладывали работодателю. Предыдущий админ подложил свинью, не настроив уведомления о состоянии массива, следующий — не проверил работу предыдущего. Как вариант.


  1. ru_vlad
    24.06.2017 00:30
    +2

    Одно можно сказать, сисадмин даун и полный неуч. Имяи репутация дороже любых денег.
    Да, можно ошибиться, признай это и компенсируй. Тем более первоначальная цены была не большая.
    Еще раз спасибо вам за статью, поучительно и увлекательно.


    1. Nikobraz
      24.06.2017 00:58
      +1

      А если руководство сказало: «Восстанавливай за свои», — а?


      1. hddmasters
        24.06.2017 01:11

        Хочется обратить внимание руководящего состава, что в подобных ситуациях срываться на эмоции – непозволительная роскошь. Куда более разумным решением будет анализ проблемы и оценка собственных возможностей для ее устранения и, если необходимо, поиска исполнителей. И лишь после решения основной проблемы разбираться в степени вины системного администратора и говорить о каких-либо взысканиях за нанесенный своим бездействием ущерб.

        Как бы сказано, когда лучше обсуждать с работником вид и размер его наказания за прямое невыполнение обязанностей. Некоторые вопросы могут быть решены через суд.


        1. Nikobraz
          24.06.2017 01:18
          -1

          Ваша позиция прозрачна и ясна. Не Вам вопрос задавался.

          Прежде чем обвинять, кого-то в некомпетентности, можно было произвести оценку рисков. Что в случае необратимой потери данных потерял бы админ(максимум работу), и его работодатель(репутационные и финансовые потери были бы гораздо выше). Работодатель не учел этот момент и что админ в такой ситуации будет работать на спасение своей задницы, пусть и безуспешно, а не на интересы компании.


      1. ru_vlad
        24.06.2017 10:01
        +3

        И что из этого? 250 белорусских рублей это примерно 8000 российских
        Человеку платили за то чтобы сеть и данные были в рабочем состоянии он это не выполнил, пускай вернет хоть часть. Сисадмин должен еще сказать спасибо, он получил профессиональный урок.


        1. artyums
          24.06.2017 21:45

          Вот именно. Так, вообще, если эта работа была закреплена в его должностных обязанностях/инструкции, то работодатель теоретически все эти потери вполне может взыскать через суд.


          1. ru_vlad
            24.06.2017 22:28

            Часто вы слышали чтобы были суды по данному поводу в снг?
            Работадателю дешевле и проще дать пинка такому "спецу" и предупредить друзей чтобы с ним не имели дел.


            1. hddmasters
              24.06.2017 22:31

              Работадателю дешевле и проще дать пинка такому «спецу» и предупредить друзей чтобы с ним не имели дел.

              В крупных городах и в компаниях с «белой» зарплатой — это несерьезная угроза.
              И хватает судебных процессов между работниками и работодателями.


              1. ru_vlad
                24.06.2017 23:32

                Мир IT тесен, даже в крупных городах послужной список специалиста узнать не составит труда.
                Если компания достаточно адекватная вряд-ли она будет держать в штате одного специалиста с низкой квалификацией. Судебные тяжбы побольше по зарплате и прочем чем по убыткам сделанные работником, слишком муторно доказать что именно им и специально было сделано.


                1. speller
                  26.06.2017 10:33

                  Вроде в российском законодательстве закреплено отсутствие личной материальной ответственности работника за ущерб, совершенный на рабочем месте. Наказание в рамках трудового договора, срезание премий — это пожалуйста. Взыскивать с сотрудника убытки, если он сам не подписал на бумаге таковую свою ответственность — нельзя. На сколько я знаю.


                  1. Shaz
                    26.06.2017 10:44

                    Так-то оно так, только стоит учесть, что абсолютно не важно каким образом этот админ оплатит восстановление данных — заплатит сам 8к, или его премию срежут на 8к, в любом случае это будет за его счет. Только вариант с наказанием в рамках договора скорее всего будет иметь для него еще такую не очень приятную вещь как запись об этом в трудовой, что потенциально намного более не приятно чем просто потеря 8к рублей.


                    1. Stas911
                      26.06.2017 23:09
                      -2

                      Кому в 21 веке нужна трудовая? Может еще справку от помещика принести?


                  1. ru_vlad
                    26.06.2017 17:30

                    Да это так за исключением если работодатель сможет доказать что работник преднамеренно нанес ущерб, тогда тут включается другая статья и по ней возможно исковые требования.


                  1. stAndrew
                    27.06.2017 13:56

                    По ТК РФ материальная ответственность ограничена в пределах месячного заработка сотрудника. Для материально ответственных — полное возмещение ущерба. Как-то так.


  1. Taciturn
    24.06.2017 00:31

    производим процедуры перестановки БМГ от накопителя донора с помощью специализированного инструмента

    Можно фото? Вообще не представляю как такое выглядит, но очень интересно.


    1. hddmasters
      24.06.2017 00:42
      +4

      Приспособления незамысловатые, но требуется высокая точность изготовления.
      примеры разных производителей можете посмотреть по ссылкам
      http://er-tools.com/files/data-recovery-tools-catalog.pdf
      http://hddsurgery.com/head-replacement-tools
      http://www.hdrconline.com/buy_readwrite.php


      1. Taciturn
        24.06.2017 00:44

        И всю эту кучу вариантов вы держите у себя?


        1. hddmasters
          24.06.2017 00:50
          +1

          У нас разные варианты съемников и даже были попытки придумать свои. В целях защиты от пыли все запаковано по пакетикам и вскрывается только в ламинарном боксе с последующим возвратом в пакет в нем же.


  1. Nikobraz
    24.06.2017 00:56
    +5

    А не существует какого-то универсального стенда-донора? Чтобы прикрутить к нему любой блин, и без геморроя с с подбором доноров и прошивок, пусть и очень медленно, но надежно, считать данные. Кто-нибудь да должен был что-то подобное придумать. Технически должно быть не намного сложнее разработки жесткого диска.

    А вообще ситуация смешная: Потребовались данные о которых 2 года никто не чесался. Да и то, что отсутствие массива не заметили. Отсутствие каких-либо бэкапов. Админ мог работать новый, который мог вообще не знать о наличии этих массивов, на ком бы срывалось руководство?

    У меня на работе недавно случился подобный инцидент. При мне случился не зависящий от меня технический сбой, я почти все разрулил за выходные, был некритичный простой внутренних сервисов, а виновным в итоге сделали меня и лишили премии. А мог бы вместо того, чтобы работать себе в ущерб в праздники сделать моську кирпичом, прийти после и бодро разгребать клиническую смерть ВСЕЙ! инфраструктуры в течение недели.

    image


    1. hddmasters
      24.06.2017 01:14
      +4

      У меня на работе недавно случился подобный инцидент. При мне случился не зависящий от меня технический сбой, я почти все разрулил за выходные, был некритичный простой внутренних сервисов, а виновным в итоге сделали меня и лишили премии. А мог бы вместо того, чтобы работать себе в ущерб в праздники сделать моську кирпичом, прийти после и бодро разгребать клиническую смерть ВСЕЙ! инфраструктуры в течение недели.

      Пишите служебную записку на имя прямого руководителя, опишите почему отсутствует Ваша вина и что именно послужило причиной возникновения проблемы. Если действительно Вашей вины нет, то решение о депремировании может быть отменено.


      1. Nikobraz
        24.06.2017 01:24
        +1

        Не все так просто. Обвиняет именно прямой руководитель, который и принимает решение о премировании, которое в свою очередь составляет существенную часть зарплаты. Можно поднять вопрос о его компетентности, но тут лучше многозначительно промолчать. Вот у него прибомбит, если он это прочтет.


        1. k0ldbl00d
          24.06.2017 12:41
          +5

          Прыгайте через голову. Иногда только так и можно.


        1. dmitry_ch
          25.06.2017 16:17

          Возможно, пора начинать искать новое место? Неадеквартное прямое рук-во — лучший способ гарантировать себе геморой в будущем. И что вы тогда себе скажете — «ведь знал же, что так и будет, чего раньше не ушел»?


          1. Nikobraz
            25.06.2017 20:26

            Терпилой меня не назвать. И тому, что я еще не написал заявление есть свои причины. Да и работа реально нравится, за исключением одного момента.


            1. Am0ralist
              26.06.2017 17:38

              Ага, только в итоге может оказаться, что ситуация повториться, а по итогам некоторые другие фирмы будут считать, что у вас низкая квалификация и вы вообще халтурщик, потому что именно так до них донесет мысль этот человек и у него будут даже подтверждения в виде того, что как-то раз вас уже лишали премии, а тут опять…


        1. impetus
          25.06.2017 20:55

          Как минимум сейчас по горячим следам опишите подробно своё видение проблемы и ситуации. Распечатайтете с проверяемой датой и пусть лежит. Пригодится.


          1. Nikobraz
            25.06.2017 21:30

            Все было сделано сразу же, руководство в курсе ситуации.


  1. hddmasters
    24.06.2017 01:06
    +2

    А не существует какого-то универсального стенда-донора? Чтобы прикрутить к нему любой блин, и без геморроя с с подбором доноров и прошивок, пусть и очень медленно, но надежно, считать данные. Кто-нибудь да должен был что-то подобное придумать. Технически должно быть не намного сложнее разработки жесткого диска.

    для этого придется купить всех производителей жестких дисков со всем патентами. И прочитав малую толику оных понять, что универсального метода не будет.
    А вообще ситуация смешная: Потребовались данные о которых 2 года никто не чесался. Да и то, что отсутствие массива не заметили. Отсутствие каких-либо бэкапов. Админ мог работать новый, который мог вообще не знать о наличии этих массивов, на ком бы срывалось руководство?

    Вы неверно интерпретировали мои слова. Говоря о том, что массива нет подразумевалось, что один диск был исключен из зеркала, а отказ второго произошел в июне 2017. В публикации сказано, что этот администратор выполнил последнее резервное копирование за пределы сервера в ноябре 2016. Также изначально администратор признал факт своего халатного отношения в вопросе резервного копирования за пределы сервера.


  1. zhovner
    24.06.2017 02:44

    Я так понимаю магнитные головки деградируют из-за царапин на поверхности пластин, то есть они просто царапается об них? А нельзя как-либо отшлифовать или иначе обезвредить царапины?

    Как происходит обеспыливание? Лет 10 назад я видео моды HDD у которых верхнюю крышку заменяли на прозрачный плексиглас. И делали это вроде бы обычные энтузиасты без специальных средств.


    1. MrShoor
      24.06.2017 04:13

      А нельзя как-либо отшлифовать или иначе обезвредить царапины?
      От шлифовки еще больше данных убьется.


    1. AlanDrakes
      24.06.2017 07:20
      +5

      Поверхность пластин вращается с достаточно большой скоростью (7200rpm = 120 оборотов в секунду). Если пересчитать в линейную скорость по отношению к головке, то можно получить:
      На крайних дорожках линейная скорость будет около С = 2 PI r; r = (95мм / 2 = 47.5мм) С = 47,5 * 2 * 3,14 = 298,3мм, округлим до 300 мм и домножим на обороты (120) = 36000мм/с.
      А теперь вдумайтесь. Головка парит над поверхностью диска, которая проносится под ней со скоростью 36 метров в секунду (на внутренних секторах, естественно, меньше, порядка 10-15м/с).
      Естественно, на такой скорости любая шераховатость будет делать сколы на поверхности головки, а так же, разлетаться в мелкую пыль и следовать в воздухе рядом с головкой, чтобы на следующем витке оказаться в пылеуловителе (белый мешочек) или врезаться в головку снова.
      Далее. Отшлифовать поверхность так же нельзя. Магнитный слой тонок. И если на нём появляются сколы, то начинается процесс разрушения, особенно усиливаемый постоянными попытками чтения (за счёт как раз пролетающей головки и изменений давления рядом с повреждённым участком).
      Представьте заусенец на пальце и попытку отшлифовать его. Примерно похоже должна ощущать себя поверхность диска.
      Кстати, шлифовать тоже нельзя. Можно попытаться, но ферромагнитный материал будет только сильнее крошиться — это факт.

      Просьба сильно не пинать, пытался описать всё понятными словами и аналогиями.


      1. shane54
        24.06.2017 12:30
        +2

        А теперь вдумайтесь. Головка парит над поверхностью диска, которая проносится под ней со скоростью 36 метров в секунду ...


        И чтобы усилить понимание, насколько же это быстро — 36 м/сек — это 130 км/час!!!
        А ведь есть диски на 10к RPM и на 15к RPM — что дает, соответственно (не вдавался в проверки Ваших расчетов, просто экстраполяцией):

        • 7 200rpm — 36 м/сек — 130 км/час
        • 10 000rpm — 50 м/сек — 180 км/час
        • 15 000rpm — 75 м/сек — 270 км/час


        270 км/час!!! И на такой скорости 5 блинов крутятся, и 10 головок их читают и пишут. И все это работает. Надежно и годами. Круто!


        1. khim
          24.06.2017 14:37

          А ведь есть диски на 10к RPM и на 15к RPM — что дает, соответственно (не вдавался в проверки Ваших расчетов, просто экстраполяцией)
          Подвела вас экстраполяция, однако. Достаточно просто взгляруть на внутренности (на даже на рекламном буклете, чтобы понять, что скорость, с которой двигается головка над диском что на пресловутом Bigfoot'е, что на 3.5" HDD, что на 2.5" блока HDD на 15 000 rpm — примерно одинаковые…

          Меняется диаметр диска и скорость вращения, а не максимальная скорость…


          1. unclejocker
            24.06.2017 21:02

            Я думаю имелась в виду скорость движения поверхности диска под головкой, а не головки в поперечном направлении. При равном диаметре — больше оборотов, больше скорость.


            1. khim
              24.06.2017 21:12

              При равном диаметре — больше оборотов, больше скорость.
              Об чём и речь. При равном диаметре диска, а не при равном размере корпуса.

              Вот пара фоток (рекламных, но они, в общем, близки к настоящим):
              imageimage

              Догадаетесь с одного раза — у какого из них 7200 RPM, а у какого 15 000 RPM?


              1. hddmasters
                24.06.2017 22:29

                Догадаетесь с одного раза — у какого из них 7200 RPM, а у какого 15 000 RPM?

                Если бы не сегодняшние возможности поисковиков интересно было бы сыграть в игру — угадайте производителя и семейство по картинке без крышки.


        1. SegreyBorovkov
          24.06.2017 21:02

          Вы еще вспомните какая высота полета головки над поверхностью диска — около 10 нм, что многократно меньше длины волны видимого света. И при этом диски работают годами, в том числе — в ноутбуках.


    1. hddmasters
      24.06.2017 08:54
      +4

      Я так понимаю магнитные головки деградируют из-за царапин на поверхности пластин, то есть они просто царапается об них? А нельзя как-либо отшлифовать или иначе обезвредить царапины?

      в этом направлении относительно успешно работает одна иностранная компания, которая судя по заявлениям восстанавливает полимерное покрытие, но стоимость ее услуг выше 10 000 евро и восстановленный накопитель не возвращается. Подробнее рассказать о технологии восстановления не получится.

      Как происходит обеспыливание?

      продувка воздухом не содержащим пыли и иных частиц, в некоторых случаях мойка пластин (но чаще это приходится делать с целью удаления жировых следов).

      Лет 10 назад я видео моды HDD у которых верхнюю крышку заменяли на прозрачный плексиглас. И делали это вроде бы обычные энтузиасты без специальных средств.

      энтузиасты публиковали лишь положительный опыт.


      1. Psychosynthesis
        24.06.2017 14:34

        о стоимость ее услуг выше 10 000 евро и восстановленный накопитель не возвращается

        Стоп. Не понял, а зачем его восстанавливать тогда?


        1. hddmasters
          24.06.2017 14:38

          Стоп. Не понял, а зачем его восстанавливать тогда?

          чтобы была возможность произвести частичное вычитывание с поврежденной поверхности без мгновенной деградации слайдеров и дальнейшего разрушения поверхности пластины.


      1. ShadowMaster
        25.06.2017 22:19

        WD Raptor X серийно производился с прозрачной крышкой лет 10 назад.


        1. hddmasters
          25.06.2017 22:32

          Есть еще живое напоминание об этих винтах в донорской базе.
          Western Digital WD1500AHFD-00RAR0 Семейство — Odyssey.


  1. electronus
    24.06.2017 06:27

    Что ж он такого сделал что головы залипли? И вообще, интересно: почему они залипают? По идее должны уноситься энергией останавливающегося шпинделя.


    1. hddmasters
      24.06.2017 08:38
      +1

      Что ж он такого сделал что головы залипли?

      полагаю это можно узнать только у самого администратора.
      И вообще, интересно: почему они залипают? По идее должны уноситься энергией останавливающегося шпинделя.

      Иногда даже небольшим внешнем воздействии можно спровоцировать залипание БМГ


  1. Bonio
    24.06.2017 07:19
    +1

    При вычитке дефектных зон происходят деградации как слайдеров, так и поверхностей пластин

    А почему так? С ними в этот момент физически что то происходит?

    А излишнюю эмоциональность руководства, я считаю, можно запросто поставить в один ряд с халатностью системного администратора в данном случае. Ибо по себе знаю, что под прессингом и постоянным ором начальства производительность труда падает, и рациональность принимаемых под этим прессингом решений тоже падает.


    1. hddmasters
      24.06.2017 08:46

      А почему так? С ними в этот момент физически что то происходит?

      физический контакт краев задиров на пластине (высота которых зачастую выше высоты полета слайдера) со слайдером на высокой скорости. Именно поэтому любители «лечить» диски ремапами зачастую доводят из до запилов.


      1. Taciturn
        24.06.2017 09:15

        Так ведь многие компании не желают менять диски по гарантии пока ремапов мало. Так что полноценная смерть может быть даже благом.


        1. hddmasters
          24.06.2017 09:28
          +1

          Так ведь многие компании не желают менять диски по гарантии пока ремапов мало. Так что полноценная смерть может быть даже благом

          Если бы добивали накопители только с целью возврата по гарантии, но увы хватает деятелей, которые выполняют ремап в надежде далее использовать ПО автоматического восстановления данных (зачастую этим грешат мелкие универсальные сервисы по ремонту и обслуживанию ПК и ноутбуков) или линейно пытаются получить посекторную копию, а в итоге усугубляют проблему и рискуют оставить пользователей без данных.


  1. V_Maksim
    24.06.2017 09:31

    Большое спасибо за статью. Очень интересен процесс, удовлетворил своё любопытство.
    Не соглашусь с мнением, что виноват руководитель, если он не директор по ИТ. Ну конечно кроме эмоций. Эмоции никогда не приводили ни к чему хорошему.
    Откуда рядовой руководитель знает про такие вещи, даже если он связан с разработкой ПО? Он и нанимает соответствующих людей, которые должны знать ньюансы.


    1. rdc
      24.06.2017 17:37

      Виноват именно руководитель.
      Правильный руководитель не стимулировал бы админа добивать хард, а сразу бы обратился к спецам.
      Проводя аналогию — уборщица задела кабель и сломала коннектор — будем заставлять её переобжимать, или всё-таки поручим это тому, чья это работа?


      1. V_Maksim
        24.06.2017 18:18

        Так я и пишу, что "кроме эмоций". Выводя сотрудника из себя эмоциональном наездом ничего не добьёшся.
        Я имел в виду, что не он должен был организовывать контроль. Он должен был организовывать людей, которые наладили бы необходимый контроль.


    1. Am0ralist
      26.06.2017 17:54

      Я лично работая типасисадмином подал служебку, в которой указал, что надо купить пару дисков для того, что бы делать на них бекапы. На что начальник посмотрел на эту сумасшедшую сумму в 10-20к (точно не помню, но тогда зп у меня была около 15к, а сам начальник разъезжал на рейнж ровере) и сказал — давай не сейчас, а сильно позже.
      Сильно позже, то бишь через полгода — я работал уже давно в другом месте, а у них улетел диск с данными за пару лет, ибо хранить их было тупо негде (из разряда, что даже на ноуты смог выбить новые жесткие только после того, как система гарант перестала туда умещаться, то есть превысила 30 гигов).
      Что дальше — я, честно, без понятия, ибо их в тот момент уже аутсорсила какая-то контора и это было исключительно их дело.

      Поэтому да, зачастую в подобных ситуациях виноват именно руководитель. Который не считал риски нанимая дешевого админа, не считал риски урезая бюджеты на покупку, не слушал профессиональные советы или еще как пробовал из этой шкуры семь шапок сшить.


  1. hddmasters
    24.06.2017 09:35
    +2

    Не соглашусь с мнением, что виноват руководитель, если он не директор по ИТ. Ну конечно кроме эмоций. Эмоции никогда не приводили ни к чему хорошему.

    Назначая ответственных за что-либо несете ответственность за назначение.
    Откуда рядовой руководитель знает про такие вещи, даже если он связан с разработкой ПО? Он и нанимает соответствующих людей, которые должны знать ньюансы.

    То что были созданы условия, при которых администратор мог длительное время не выполнять свои прямые обязанности говорит о серьезном просчете руководства. Пока руководитель этого не поймет, то истории будут повторяться.


    1. V_Maksim
      24.06.2017 18:35

      Не соглашусь.
      Есть такое понятие, как делегирование ответственности. Хороший пример — главбухи. Главный бухгалтер согласно приказу и должностной инструкции несёт ответственность. И если придёт проверка, а там проблемы, то вина будет за ним, а не за руководителем.
      Ваш подход возможен в небольших компаниях, где работает небольшое количество человек. А в компаниях из 500 человек? А из 1000? Как руководитель может знать всё, организовывать всё, следить за всеми? Да он не все процессы то знает. Но у него есть штат заместителей, которые несут ответственность за свои участки. И тогда руководитель должен только назначить правильных людей. Вот тут вина руководителя в описываемом случае, вполне могла быть. А о проблемах руководитель узнает только когда придёт проверка, или случится такая ситуация.
      Почему так случилось, можно только гадать, может сотрудник такой, может денег мало платили, может…


      1. hddmasters
        24.06.2017 18:41

        Ваш подход возможен в небольших компаниях, где работает небольшое количество человек. А в компаниях из 500 человек? А из 1000? Как руководитель может знать всё, организовывать всё, следить за всеми? Да он не все процессы то знает.

        А разве где-то была речь, что именно генеральный директор крупной корпорации должен следить за работниками? Есть иерархия руководителей разного звена и какой-то из руководителей делит ответственность в итоге с рядовым администратором, а не только один лишь администратор, который под чьим-то руководством не выполнял свои обязанности.


        1. V_Maksim
          24.06.2017 18:47

          Мне кажется мы об одном и том же. Я и пишу, что "если это не директор по ИТ"


          1. Am0ralist
            26.06.2017 18:00

            А в конторе, в котором все руководство лишь генеральный директор?
            Тогда что?
            Вообще-то руководителем часто называют именно вышестоящего над какой-либо группой или кем-то. То есть либо начальник IT-отдела, либо директор IT (или зам.директора по IT), либо непосредственно генеральный директор компании, если ниже него нет никого.


            1. V_Maksim
              26.06.2017 21:01

              Есть такая вещь, как делегирование полномочий, ответственности, обязанностей и т.д.
              Гендир не может знать всего, поэтому он делегирует кому либо, директору по ИТ (если есть) или сисадмину, где пишет его ответственность: например «Отказоустойчивые функционирование ИТ ландшафта...» А делегирование оформляет приказом или должностной инструкцией.
              При этом формулировку обычно согласовывает со знающими людьми, юристами, ИТ ишниками и т.д.

              Но это теория, а в конкретном случае, кто такое руководитель, не известно, автор статьи не упомянул, поэтому спорить про конкретный случай — бессмысленно. А в жизни разные ситуации бывают, что я и попытался описать в своем комментарии.


  1. eov
    24.06.2017 09:49

    А сколько примерно «ходят» wd green? У меня, судя по s.m.a.r.t, наездил уже 50400 часов при 117 запусках. Может их пора списывать и ставить новые?


    1. hddmasters
      24.06.2017 09:54

      Все зависит от условий эксплуатации. Нет вибрации, все в порядке с температурой, нет высокой нагрузки — может еще работать и работать. И желательно учитывать, что WD GREEN — это множество разных семейств, которые сильно отличаются друг от друга (справедливо и для накопителей с другими цветами этикеток)


  1. LazyMechanic
    24.06.2017 10:33
    +1

    Я ничего не понимаю в этой теме, но черт, это круче любого детектива. Обожаю подобные истории на хабре. Переживал за администратора как за себя.


    1. V_Maksim
      24.06.2017 18:41

      А я за хард :) и за руководителя.
      Ибо за этим стоит много народа, и для компании это могло бы быть крахом, а значит безработице для кучи человек.
      Да и жалко трудов своих лишатся таким дурацким образом.


      1. etho0
        25.06.2017 08:44

        Я никак не могу понять почему все данные в одном масиве? Вроде же данные баз данных, исходного кода и т.д. по много раз копируються в течении недели. По крайней мере в местах там где я работал, копий важных данных было 100 штук по разным местам, даже если сильно хотеть, то все равно что-то потерять очень трудно)


  1. shane54
    24.06.2017 12:38

    Читаю все Ваши статьи, очень интересно, спасибо большое. Все хотел понять — обратил внимание, на всех фотографиях дисков Вы всегда замазываете серийный номер (и/или его bar-code) — а зачем? Я понимаю, когда замазывают на скринах сайтов персональные данные — e-mail, ФИО, адрес, какие-то финансовые данные (номер счета/кошелька). Но какой риск несет уход в массы серийного номера HDD? Кому от этого может стать хуже / какую информацию можно разыскать/связать/найти кроме данных конкретного диска на сайте производителя — вроде даты создания, версии прошивки, еще может каких-то сугубо привязанных к этому конкретному диску данных — вроде даты окончания гарантии, каких-то данных по конкретной серии — вроде известных проблем, отзывов серии (мало ли) — и т.д.


    1. hddmasters
      24.06.2017 12:48
      +1

      обратил внимание, на всех фотографиях дисков Вы всегда замазываете серийный номер (и/или его bar-code) — а зачем?
      в договоре с клиентом может содержаться серийный номер накопителя и публикация изображения накопителя может расцениваться клиентом как разглашение личных данных.

      Хоть и вероятность этого события крайне ничтожная, но я предпочитаю замазать номер, чем потом тратить время на судебные прения. Так как замазывание номера не влияет на информативность публикации, то и впредь предпочту замазывать номера.


  1. ALexhha
    24.06.2017 13:23
    +2

    а отказ второго произошел в июне 2017. В публикации сказано, что этот администратор выполнил последнее резервное копирование за пределы сервера в ноябре 2016. Также изначально администратор признал факт своего халатного отношения в вопросе резервного копирования за пределы сервера

    ну просто классика

    системные администраторы делятся:
    — на тех, кто еще не делает резервное копирование
    — на тех, кто уже делает резервное копирование
    — и на тех, кто уже делает резервное копирование и проверяет резервные копии

    Но это надо умудриться не знать почти год, что в рейде выпал один из дисков. И да, если непосредственный начальник никогда не проверял или хотя бы не спрашивал, о бекапах и восстановлении, то это говорит только о его уровне. У меня на одном из мест работы начальник периодически требовал восстановление информации за определенный период. Так сказать держал в форме :)

    2 hddmasters
    я правильно понимаю, что рейд был программным, т.е. mdadm? Если так, то что было бы в случае использования аппаратного или т.н. недо рейдов, дешевые рейд контроллеры, которые идут на материнских платах. В таком случае восстановление усложнилось бы и было бы возможным вообще?


    1. hddmasters
      24.06.2017 13:36

      я правильно понимаю, что рейд был программным, т.е. mdadm?

      Да, в данном случае RAID 1 создавался средствами mdadm.
      Если так, то что было бы в случае использования аппаратного или т.н. недо рейдов, дешевые рейд контроллеры, которые идут на материнских платах. В таком случае восстановление усложнилось бы и было бы возможным вообще?

      лично я для себя не вижу какой-либо сложности.


  1. KulakovAD
    24.06.2017 13:26

    А есть ли у Вас какая-нибудь статистика по надежности производителей(или конкретных моделей)?
    Т.е. модели которые лучше не брать или наоборот.


    1. romovs
      24.06.2017 17:52

      Хорошая статистика есть у Backblaze
      https://www.backblaze.com/b2/hard-drive-test-data.html


      1. hddmasters
        24.06.2017 17:56

        К сожалению не совсем полезна для домашнего пользователя.
        1. условия эксплуатации отличаются от тех, что в домашних и офисных ПК
        2. Выборка затрагивает сравнительно небольшое число семейств.
        3. О надежности некоторых изделий выводы делаются на основании скромной выборки.


  1. hddmasters
    24.06.2017 13:29

    При глубоком анализе вышедших из строя накопителей в подавляющем случае находим свидетельства «помощи» извне. Хотя снаружи накопители визуально без повреждений и в случае возвратов по гарантии были бы заменены производителем.

    На сегодняшний день выразить каких-то очень ярких аутсайдеров не получится. Примерно одинаковое качество изделий у разных производителей.


  1. Psychosynthesis
    24.06.2017 14:39

    Статья — супер! Очень интересно читать, спасибо. Разве что хочется больше технических подробностей.

    Конкретнее:

    Читаем 0 сектор.

    Обнаруживаем, что в нем содержатся записи для трех разделов.

    Какой программой можно из этой мешанины байт увидеть записи из трёх разделов? Или это намётанный глаз специалиста, который идеально знает стандарт разметки?

    А вот тут:
    Выполнив пересчет транслятора с учетом P-list получим оригинальный 0x31 модуль за счет работы самой микропрограммы накопителя.

    Вообще магия какая-то, на мой взгляд =)


    1. hddmasters
      24.06.2017 14:46
      +2

      Какой программой можно из этой мешанины байт увидеть записи из трёх разделов? Или это намётанный глаз специалиста, который идеально знает стандарт разметки?


      мне достаточно взглянуть в шестнадцатиричный редактор, чтобы это увидеть. Устройство таблицы разделов достаточно простое.


  1. aik
    24.06.2017 15:57

    Как слышал от одного специалиста по восстановлению данных: «самые простые случаи — это когда диск в системе не определяется, тогда хозяин диска обычно ничего не может испортить».
    Само собой, не речь шла не про случаи вида «запустил undelete — восстановил удалённое». :)


    1. hddmasters
      24.06.2017 16:12

      Как слышал от одного специалиста по восстановлению данных: «самые простые случаи — это когда диск в системе не определяется, тогда хозяин диска обычно ничего не может испортить».

      Справедливо лишь частично. Например в случае описанном в данной публикации многократные попытки старта привели бы к окончательному зацарапыванию поверхностей пластины и шансов на восстановление не стало бы.

      Само собой, не речь шла не про случаи вида «запустил undelete — восстановил удалённое». :)
      А потом присмотрелсь, а вместо части данных мусор. В качестве примера одна из публикаций про восстановление фрагментированных dbf файлов. Работы по пересадке БМГ с дальнейшим вычитыванием покажутся цветочками на фоне работ по восстановлению фрагметированных файлов без опоры на файловую систему.


  1. ALexhha
    24.06.2017 19:17
    +1

    мне достаточно взглянуть в шестнадцатиричный редактор, чтобы это увидеть.

    сразу вспоминается Матрица — "Информации, получаемой из Матрицы, гораздо больше, чем ты можешь расшифровать. Ты привыкнешь к этому. Я уже даже не вижу код. Я вижу блондинку, брюнетку, рыжую."


  1. ExplosiveZ
    24.06.2017 19:52

    А бывало ли так, что размер диска уменьшен программно?


    1. hddmasters
      24.06.2017 20:46

      А бывало ли так, что размер диска уменьшен программно?

      да иногда бывает.

      например возьмем WD семейство Trails. 1 пластина 1 или 2 головки.
      Старшая модель 1Тб, 2 головки. 750Gb -2 головки, 500Гб 1 или 2 головки, 320Гб 1 или 2 головки. Так вот если брать в расчет двухголовые модели 750Гб, 500Гб и 320Гб то среди них можно отыскать немало экземпляров, которые можно после некоторых циклов селфскана превратить в 1ТБ. Разумеется далеко не все.


  1. Lord_Ahriman
    24.06.2017 20:47

    Прошу прощения, что немного не по теме. Так вот, есть у меня три USB-HDD Seagate Expansion, два по 1 ТБ и один на на 2 ТБ, и у всех трех есть один и тот же нюанс — там, где кабель входит в диск, периодически пропадает контакт, в итоге, диск отваливается, и нужно шевелить кабель, чтобы он снова заработал. Так вот велики ли шансы мне стать клиентом ваших коллег в такой ситуации и что можно сделать, чтобы тот чертов кабель не болтался в 3.0 разъеме? А также, если диск помрет, что не нужно делать будет? Периодически проверяю диски SeaTools и Crystal Disk info, пока все ок.
    Офф: Вот сейчас Seagate все ругают, а я их люблю, и пользуюсь их HDD еще со времен первой Барракуды в первом компьютере.


    1. hddmasters
      24.06.2017 20:50

      Прошу прощения, что немного не по теме. Так вот, есть у меня три USB-HDD Seagate Expansion, два по 1 ТБ и один на на 2 ТБ, и у всех трех есть один и тот же нюанс — там, где кабель входит в диск, периодически пропадает контакт, в итоге, диск отваливается, и нужно шевелить кабель, чтобы он снова заработал.Так вот велики ли шансы мне стать клиентом ваших коллег в такой ситуации и что можно сделать, чтобы тот чертов кабель не болтался в 3.0 разъеме?

      если от БП идут стандартные 4 пиновые разъемы и на них надеты переходники для питания накопителей SATA, то попробуйте сменить переходники или целиком БП.


      1. hddmasters
        25.06.2017 00:43

        Был немного невнимателен. В случае накопителей подключаемых по USB начинаем проверки с подключеним к другому ПК, а также проверяемя работоспособность накопителей вне бокса. Если проблемы только в USB_SATA мостах или разъемах, то лучше подумать о новых боксах.


    1. Guyverjoke
      25.06.2017 00:43

      Насколько я понял — внутри используется обычный контроллер SATA-USB. Так что можно либо купить новый контроллер на Ebay или простой корпус USB 3.0 и переставить диск в него


  1. dmxrand
    24.06.2017 20:50

    Была аналогичная ситуация. Дело усугублялось тем, что накопитель стоял на машине с каким то классом безопасности и резервных копий не делали. Обратились ко мне. Я сразу с клиентом поехал в спецконтору где нам озвучили сумму 15000р и срок до недели. После беседы с руководством было решено не сдавать накопитель ибо там секретка. Руководство сказало, что у них есть «связи» где надо и эти «связи» умеют восстанавливать данные после пожара даже. Прошло 3 недели накопитель вернули. Там были следы вскрытия — данные восстановить не удалось. Поехали в контору, те после диагностики оценили вероятность восстановления данных не более 10%


    1. hddmasters
      24.06.2017 20:56

      При повышенной секретности всегда можно договорить о выполнении работ на территории заказчика. Предоставите помещение с необходимыми условиями, где можно будет развернуть лабораторию. Цена в такой случае будет учитывать и разворачивание лаборатории на территории заказчика и всю бюрократическую проволочку. И надо понять, что в данном случае пребывание специалиста на территории заказчика оплачивается а любом случае (при положительном исходе больше, при отрицательном меньше, а при выполнении работ на территории исполнителя оплачивается только положительный исход)


      1. dmxrand
        24.06.2017 21:00

        Я про разгильдяйство :-)


  1. bomber-net
    24.06.2017 20:56

    У меня есть три вопроса:
    !.. Имеется WD7500AAKS.
    По SMART здоров, при чтении через викторию все читается, доступ к каждому по 5 мс, но попадаются пачки секторов (примерно 400-600 штук подряд) со временем доступа до полсекунды и больше, примерно 1/15, 1/20, которые разбросаны по всему диску.
    Был бы на гарантии, можно было бы довести его до инфаркта и в сервис, но ему лет 7-8, да и магазин давно приказал жить.
    Можно ли заставить диск отметить эти участки как неиспользуемые, или же логически назначить их в конец диска?
    2. Про тот же SMART: на опыте, из порядка около 100 прошедших через мои руки дисков, однажды случилось так, что диск начал плохо читаться, при том по смарту здоров, а при обращении через викторию быстро деградировала поверхность. Важных данных не было, был за пределами гарантии, потому был быстро разобран на магниты. Так вот вопрос: как так смарт «скрыл» состояние диска?
    3. В таблице смарт есть параметр UDMA CRC Errors/
    На трех из моих дисков там ненулевое значение по вине кабеля. Диски не виноваты, но визуально это доставляет мне дискомфорт. Как можно обнулить это значение?


    1. hddmasters
      24.06.2017 20:59

      Можно ли заставить диск отметить эти участки как неиспользуемые, или же логически назначить их в конец диска?

      именно так как вы описываете — нет.
      Так вот вопрос: как так смарт «скрыл» состояние диска?

      В некоторых случаях разрушение пластин и слайдеров развивается весьма стремительно. Банально не дойдет до обновления показаний SMART.
      В таблице смарт есть параметр UDMA CRC Errors/
      На трех из моих дисков там ненулевое значение по вине кабеля. Диски не виноваты, но визуально это доставляет мне дискомфорт. Как можно обнулить это значение?

      Рядовому пользователю эти возможности недоступны.


      1. bomber-net
        25.06.2017 01:03

        Можно ли заставить диск отметить эти участки как неиспользуемые, или же логически назначить их в конец диска?
        именно так как вы описываете — нет.

        Как в этом случает по-Вашему грамотнее поступить?


        1. hddmasters
          25.06.2017 01:09

          Как в этом случает по-Вашему грамотнее поступить?

          если бы ремонт накопителей был бы целесообразным — выполнил бы процедуры селфскана. Если проблем с БМГ нет, то накопитель бы еще пожил бы некоторое время.

          В Вашем случае рекомендовал бы:
          1. скопировать всю информацию на другой накопитель.
          2. удалить все разделы.
          3. провести запись всего логического пространства (от 0 и до последнего сектора)
          4. провести чтение с ремапом (если ремапы были повторить с пункта 3), если дефектов и затруднений в чтении нет, то перейти к дальнейшему тестированию.
          5. записать накопитель некими данными на 100%. отложить на недельку и повторить тест чтения, если затруднений не будет — допустить к эксплуатации. Если проблемы есть, то локализовать их и создать разделы на диске так, чтобы проблемная зона с окрестностями в несколько гигабайт не попадала в границы используемых разделов.

          тогда проблемные накопители некоторое время еще можно поэксплуатировать


        1. bomber-net
          25.06.2017 01:10

          Так как диск большей частью в отличном состоянии, хочется его использовать, пусть и в меньшем размере.
          Вопрос вдогонку: так как медленные области идут примерно через одинаковые промежутки, правильно ли сделал вывод, что проблема в поверхности одной из пластин, либо в одной из головок?


  1. hddmasters
    25.06.2017 01:15

    так как медленные области идут примерно через одинаковые промежутки, правильно ли сделал вывод, что проблема в поверхности одной из пластин, либо в одной из головок?

    если замедления циклично повторяются на протяжении всего логического диапазона, то проблема в одной из головок. Если лишь небольшой участок (относительно к размеру диска), то могут иметь место как проблемы на поверхности, так и проблемы с какой-то из головок.


    1. bomber-net
      25.06.2017 01:25

      Извиняюсь, что на ночь глядя сыплю вопросами.
      Что можете порекомендовать из софта для мониторинга состояния дисков (если будет уметь не только SMART читать, но и тестировать поверхность при простое, было бы замечательно) под линукс (Debian) и Windows 7?
      Под линуксом отправка отчета на e-mail не требуется, а вот для Windows было бы неплохо.
      Есть некоторые идеи, как сделать, но не хочется изобретать еще один велосипед, если есть готовые решения.


      1. hddmasters
        25.06.2017 01:44

        Вопросы по ПО для постоянного мониторинга не ко мне. Все такие немного не мое направление.


      1. aik
        25.06.2017 05:50

        Stablebit scaner для этого использую.


      1. hddmasters
        27.06.2017 21:14

        Кроме чтения отчетов различного ПО, которое во многих случаях начинает слать уведомления, только если накопитель согласно своих критериев оценки выставляет Smart status BAD на команду 0xB0 0xDA рекомендовал бы профилактическое наблюдение, хотя бы за основным набором атрибутов.


  1. Stas911
    26.06.2017 23:11

    Очень интересная и поучительная история, спасибо! А на рисунке 3 черная квадратная штука — это собственно головка чтения-записи?


    1. hddmasters
      27.06.2017 00:33

      Черный параллелепипед — это слайдер. Его реальный размер по большей стороне около 1мм.


  1. 15432
    26.06.2017 23:25

    Посмотрел ролики приборов для съёма головок — заметил, что способ парковки головок у дисков различается. Либо это область вне пластин с держателем для БМГ, либо головки паркуются прямо на пластинах, в месте без данных ?! тогда почему в этом случае не происходит залипания?


    1. hddmasters
      27.06.2017 00:36

      Да есть накопители, где БМГ помещается на рампу, есть те, где БМГ помещается в парковочную зону, данная зона отличается «рельефом» и слайдеры там не залипнут.


  1. molchun22rus
    27.06.2017 11:25

    класс
    можно в жж ссылки на новые статьи размещать? и тогда я стану первый ваш читающий подписчик в жж :)


    1. hddmasters
      27.06.2017 11:25

      Не буду обещать, но рассмотрю эту возможность.


  1. Dimbos_s
    27.06.2017 21:08

    Вот потому, я никому из своих знакомых-работодателей не буду рекомендовать покупать WD. За 13 лет админства, сколько я видел убитых WD и не одного Seageta. Где-то в 2010 году, решил дать шанс WD купил в офис и пожалел.


    1. hddmasters
      27.06.2017 21:10

      Можете не придумывать себе лишнее убеждение, что мол накопители Seagate, чем-то лучше накопителей Western Digital. Я бы сказал, что они все примерно одинаково ненадежны, если говорить об офисной и домашней эксплуатации. В случае дата-центров статистика покажет цифры, которые будут явно не в пользу Seagate.


      1. playnet
        03.07.2017 20:29

        Конкретно эту серию (blue) можно советовать врагам, это продукт экономии совершенно на всём. Все остальные серии у них достойные, и даже нелюбимые многими green — просто надо выключить постоянную парковку и они так же будут молотить годами в большинстве своём. А незначительный брак есть у всех.
        Ну и никогда не хранить важное в 1 экземпляре и на 1 диске.


        1. hddmasters
          03.07.2017 20:33

          Конкретно эту серию (blue) можно советовать врагам, это продукт экономии совершенно

          обычный накопитель, который ничем не хуже конкурирующих решений, по крайней мере был таким в свое время.
          и даже нелюбимые многими green — просто надо выключить постоянную парковку и они так же будут молотить годами в большинстве своём

          Нужно ли увеличивать интервал между парковками — это еще весьма спорный вопрос. На время жизни накопителя серьезным образом не повлияет. Обследование многих накопителей в том числе с огромным количеством парковок не выявляет каких-то деформаций рампы или подвесок из-за большого числа парковок. Все неисправности, как правило лежат в другом поле.


    1. Am0ralist
      27.06.2017 22:12

      му-ха-ха, ошибка выжившего как она есть.
      серия баракудки с известным браком прошивки, который кирпичивал ее через какое-то время — прям можно вешать значок о получении данного достижения.
      куча сдохших баракудок, хотя вдшки и, особенно, хитачи тех времен — живее всех живых.
      у вас так себе статистика, видимо.
      ну и известная статистика одной фирмы, где сегейты тоже не блещут процентами. причем там и объемы большие за счет хороших скидок при покупке.


      1. Dimbos_s
        27.06.2017 22:16

        Ну если ты админ, то ты крутишся в сфере IT и до тебя доходит новости о всяких проблемах и путях их решений. Мне ничего не мешало найти среди сигейтов проблемный и поменять прошивку. Это не повод слать segate куда подальше. А косяки есть у всех, и у интела и у майкрософта и тп.


        1. Am0ralist
          27.06.2017 22:39

          Угу, а на обычных пользователей всем «а нас рать». Что они не узнают до того момента, как все их данные превратятся в тыкву.
          Плюс проблемы иногда доходят уже позже. Не всем везет.

          Ну и да, остальные трупы это не объясняет. Хотя это больше к обычным сериям относится, а не тем же сасам.


  1. Dee3
    01.07.2017 10:08

    Хотелось бы спросить, учитывая очень маленький зазор между головкой и блинами, как это все работает в ноутбуках, которые постоянно испытывают физические нагрузки (перемещения и тд)?
    Насколько сложно/ легко убить диск просто шевеля/ двигая/переворачиваясь во время работы?


    1. hddmasters
      01.07.2017 10:29

      Насколько сложно/ легко убить диск просто шевеля/ двигая/переворачиваясь во время работы?
      если постоянно шевелите и двигает ноутбук во время работы, то у Вас повышенные риски отказа жесткого диска именно из-за повышенной вероятности контакта слайдера с поверхностью пластины. Так как на поверхности пластины присутствует полимерный лубрикант, то многие контакты не будут катастрофичными.

      В следующей публикации имеется рисунок, на котором чуть-чуть показано устройство пластины


      1. Dee3
        01.07.2017 10:33

        Спасибо, можно еще вопрос в догонку:
        имеет ли значение как установлен HDD (крышкой вверх\вниз\вперед\назад) с точки зрения вероятности отказов или износа каких либо механизмов?


        1. hddmasters
          01.07.2017 10:56

          В тестах с небольшой выборкой не удалось выявить каких-либо закономерностей отказов из-за разного положения в пространстве.


        1. khim
          01.07.2017 14:54

          имеет ли значение как установлен HDD (крышкой вверх\вниз\вперед\назад) с точки зрения вероятности отказов или износа каких либо механизмов?
          Неважно. Что важно — чтобы пластины не были «под углом». То есть HDD должен быть установлен горизонтально или вертикально (да, так тоже нормально), но не под углом в 30 или 40 градусов как бывает в некоторых «моддерских» корпусах…