Мой сервер прислал мне письмо: пора менять диск в RAID / forpes.ru

Главная
Мой сервер прислал мне письмо: пора менять диск в RAID

Мой сервер прислал мне письмо: пора менять диск в RAID +11

09.12.2025 15:08

Jhon_Mosk 100 18000 Источник

В воскресенье с утра на почту пришло письмо от меня. В нём сообщалось что на Жорике проблема с диском: Device: /dev/sdd [SAT], ATA error count increased from 1 to 3

Подключился, проверил, 3 ошибки в одном и том же секторе. RAID массив с ними справился. Но диск похоже пора менять.

Сначала попробовал записать ноли в проблемный сектор, может диск сможет использовать резервы. Но увы, это не помогло. Ладно, в статистике указано, что диск работает уже почти 6 лет. Пора ему на покой.

Пошёл смотреть что я могу приобрести и очумел. HDD на 1 Тб стоят 10000 рублей!!! В начале года покупал Seagate Barracuda на 1 Тб за 3500 и думал что дороговато. Видимо такие ценники связаны с указом проверять фуры на границе Казахстана, выяснилось что большинство товара ввозится без документов. Прощай дешёвый китайский импорт.

В интернетах пишут про выросшие в три раза ценники на оперативку и жёсткие диски из-за дата центров.

Делать нечего, съездил, купил, Seagate SkyHawk ST1000VX013 за 9799 рублей.

RPM — 5400 об/мин
Кэш — 256 МБ
RAID Edition — официально поддерживает RAID
Оптимизирован для 24/7 работы, MTBF ~1 млн часов
Поддержка TLER (предотвращает преждевременное исключение диска из массива при временных ошибках чтения)

Подключаюсь к Жорику, останавливаю все контейнеры.

Вот так вот выглядит мой RAID 5 массив

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] 
md0 : active raid5 sdc[1] sdd[3] sdb[0]
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
      bitmap: 0/8 pages [0KB], 65536KB chunk

unused devices: <none>

Проверяю что массив ничто не использует: sudo lsof +D /mnt/raid5
Демонтирую массив: sudo umount /mnt/raid5
Проверяю: mount | grep raid5

Помечаю старый диск как неисправный и удаляю его

sudo mdadm --fail /dev/md0 /dev/sdd`
mdadm: set /dev/sdd faulty in /dev/md0
sudo mdadm --remove /dev/md0 /dev/sdd
mdadm: hot removed /dev/sdd from /dev/md0

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] 
md0 : active raid5 sdc[1] sdb[0]
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      bitmap: 0/8 pages [0KB], 65536KB chunk

unused devices: <none>

Выключаю сервер: sudo shutdown -h now

На почту прилетело письмо, не зря я настраивал мониторинг дисков:

This is an automatically generated mail message.  
Fail event detected on md device /dev/md0, component device /dev/sdd  
The /proc/mdstat file currently contains the following:  
  
Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10]  
md0 : active raid5 sdc[1] sdd[3](F) sdb[0]  
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]  
      bitmap: 0/8 pages [0KB], 65536KB chunk  
  
unused devices: <none>

Меняю диск. Важно написать серийник диска сбоку, что бы потом не искать его в случае чего.

Запускаю, проверяю что система видит новый диск

lsblk
NAME                      MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINTS
sda                         8:0    0 931.5G  0 disk  
|-sda1                      8:1    0     1M  0 part  
|-sda2                      8:2    0     2G  0 part  /boot
`-sda3                      8:3    0 929.5G  0 part  
  `-ubuntu--vg-ubuntu--lv 252:0    0   100G  0 lvm   /
sdb                         8:16   0 931.5G  0 disk  
`-md0                       9:0    0   1.8T  0 raid5 /mnt/raid5
sdc                         8:32   0 931.5G  0 disk  
`-md0                       9:0    0   1.8T  0 raid5 /mnt/raid5
sdd                         8:48   0 931.5G  0 disk

Добавляю новый диск в RAID 5 массив

sudo mdadm --add /dev/md0 /dev/sdd
mdadm: added /dev/sdd

Проверяю, началась ли синхронизация

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] 
md0 : active raid5 sdd[3] sdb[0] sdc[1]
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [>....................]  recovery =  0.5% (5075676/976630272) finish=102.0min speed=158614K/sec
      bitmap: 3/8 pages [12KB], 65536KB chunk

unused devices: <none>

Включаю слежку за синхронизацией: watch -n 5 cat /proc/mdstat

Every 5.0s: cat /proc/mdstat                                                                                                                      zhorik: Sun Dec  7 15:40:35 2025

Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10]
md0 : active raid5 sdd[3] sdb[0] sdc[1]
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [=>...................]  recovery =  9.8% (96380052/976630272) finish=88.9min speed=164869K/sec
      bitmap: 3/8 pages [12KB], 65536KB chunk

unused devices: <none>

Важно не выключать и не перезагружать сервер, пока синхронизация не завершится. Процесс может занять много часов, в зависимости от скорости дисков и объёма данных.

Дождался восстановления массива, проверяю

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [raid0] [raid1] [raid10] 
md0 : active raid5 sdd[3] sdb[0] sdc[1]
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
      bitmap: 3/8 pages [12KB], 65536KB chunk

# [UUU] - все три диска активны, синхронизированы, ошибок нет

unused devices: <none>

sudo mdadm --detail /dev/md0
/dev/md0:
           Version : 1.2
     Creation Time : Mon Mar 24 11:17:41 2025
        Raid Level : raid5
        Array Size : 1953260544 (1862.77 GiB 2000.14 GB)
     Used Dev Size : 976630272 (931.39 GiB 1000.07 GB)
      Raid Devices : 3
     Total Devices : 3
       Persistence : Superblock is persistent

     Intent Bitmap : Internal

       Update Time : Sun Dec  7 17:27:32 2025
             State : clean # массив в порядке
    Active Devices : 3 # все три диска активны
   Working Devices : 3
    Failed Devices : 0 # проблемных дисков нет
     Spare Devices : 0

            Layout : left-symmetric
        Chunk Size : 512K

Consistency Policy : bitmap

              Name : zhorik:0  (local to host zhorik)
              UUID : 13a46a0d:51848ca8:9d9c2f7d:c6c54c77
            Events : 13784

    Number   Major   Minor   RaidDevice State
       0       8       16        0      active sync   /dev/sdb
       1       8       32        1      active sync   /dev/sdc
       3       8       48        2      active sync   /dev/sdd

Массив смонтировался обратно автоматически при запуске, поэтому мне нужно только запустить свои контейнеры и всё должно работать.

# посмотрю инфу про новый диск
sudo smartctl -i /dev/sdd
smartctl 7.4 2023-08-01 r5530 [x86_64-linux-6.8.0-88-generic] (local build)
Copyright (C) 2002-23, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ST1000VX013-3CV10C
Serial Number:    WWD4E571
LU WWN Device Id: 5 000c50 0fb8c85aa
Firmware Version: CV10
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database 7.3/5528
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Dec  7 17:35:34 2025 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Комментарии (100)

Anywake
09.12.2025 15:16
#29229160
ИМХО вентилятор там нужен на 120мм спереди.
1. Jhon_Mosk Автор
  09.12.2025 15:16
  #29229336
  Вентилятор спереди ставил, не помню размер, но вряд ли 120 туда влез. Максимум 100.

m0xf
09.12.2025 15:16
#29229202
Лучше создать на дисках разделы, а потом добавлять их в массив. Некоторые ОС (windows) при подключении диска могут испортить главную запись mdadm, создав на диске таблицу разделов.
1. Jhon_Mosk Автор
  09.12.2025 15:16
  #29229352
  Ну у меня убунту сервер. И идея использовать отдельные харды, минимум 3. Может потом дорасту до серверной платы.

Мой сервер прислал мне письмо: пора менять диск в RAID +11

Комментарии (100)

Anywake

Jhon_Mosk Автор

m0xf

Jhon_Mosk Автор