Intereting Posts
разделяя команду на одну строку на две части, чтобы она была более «структурирована» эстетически Как изменить программу «чтения» по умолчанию? RHEL установлен один раз, но отображается трижды в меню загрузчика GRUB Есть ли способ иметь веб-браузер, в то время как KDE или GNOME не установлены? Как переустановить домашний раздел? Убедитесь, что только root может редактировать скрипт перед его выполнением Какой из них работает быстрее – обычные операторы (такие как <,>, =) или используя (-lt, -gt, -eq)? и почему? Почему эта команда открывает man-страницу и не выполняет поиск? Установка разделов Ubuntu Понимание дискового пространства? Как я могу использовать строковые манипуляции для обнаружения и удаления двух разных частей строки? procmail сохранить в директорию и выполнить скрипт? Вывод команды переключения вправо Как установить логический том? Как перекомпилировать пакет Debian с -O?

замена жестких дисков RAID до отказа (3 года!)

Я думаю, что умная вещь, связанная с моей установкой рейда, заключается в замене накопителей, прежде чем они начнут сбой, и когда они начнут стареть … Я не могу позволить себе много облачного резервного пространства, и я хочу получить прыжок на гарантированный возможный сбой моих дисков из-за износа.

У меня есть 3 привода 2TB с GPT, grub, небольшая секция raid1 системы и большой домашний раздел raid5. Я использую Arch Linux.

Я собирался заменить диски по одному. Я хотел опубликовать свой план действий и посмотреть, может ли кто-нибудь подумать о причине, почему это не сработает, или если есть лучший способ сделать это.

первый шаг:

выяснить, какое устройство (т.е. /dev/sda ) я /dev/sdx , /dev/sdx его физически и проверяя /proc/mdstat чтобы узнать, что /dev/sdx не работает.

шаг второй:

Вставьте его обратно и используйте sfdisk для копирования таблицы разделов

 sfdisk -d /dev/sdx > partition.layout 

Шаг третий:

Поместите новый физический диск того же размера

Шаг четвертый:

 sfdisk /dev/sdx < partition.layout 

Шаг пятый:

Используйте mdadm чтобы добавить новый диск в массив на основе инструкций на вики arch.

 mdadm --add /dev/md0 /dev/sdx1 mdadm --add /dev/md1 /dev/sdx2 

Шаг шестой:

Переустановите grub? дождитесь завершения повторной синхронизации, а затем повторите весь процесс с помощью других 2 дисков?

Думаю, мой вопрос в основном похож, будет ли это работать? есть ли что-нибудь, чего я не хватает? Я не хочу пропустить что-то очевидное и потерять все свои данные.

Большое спасибо за любую помощь / понимание.

Редактировать:

Чтобы получить результаты обсуждения в одном и том же месте, я хотел сказать, что я выяснил, как иметь mdadm и smartmontools (smartd) montior и уведомлять меня по электронной почте, если с моими жесткими дисками начнут плохо работать. Я установил ssmtp с учетной записью gmail, которую я синхронизировал с моим телефоном.

Поскольку я уже купил новые диски, я собираюсь их держать и менять их, поскольку все идет плохо. Насколько я понимаю, в конечном итоге все жесткие диски терпят неудачу. Благодарим за предложения и протесты о том, как это сделать (без снижения размера массива). Как только я могу позволить себе обновление, я собираюсь использовать ZFS с материнской платой / памятью ECC / etc. и спасибо за советы в этом направлении. Большое спасибо, вы, ребята, очень помогли: D

Это плохая идея, потому что вы намеренно унизите свой RAID, и Resyncs могут неожиданно завершиться. Лучше подключить новый диск до системы (так что у вас есть n+1 диск), а затем использовать mdadm --replace чтобы синхронизировать его. Таким образом, RAID никогда не будет деградировать между ними.

Вам не нужно отказывать / удалять диски, чтобы узнать, что именно. Вы можете увидеть номер роли устройства в mdadm --examine , в mdstat output [UUU] в номерах ролей – [012] ; и вы можете проверить серийный номер диска с помощью hdparm или smartctl и сравнить с наклейкой на самом диске.

Для разделов лучше использовать GPT в настоящее время вместо MSDOS. Если вы не только заменяете диски, но и обновляете их по размеру, у вас, возможно, нет другого выбора, так как разделы MSDOS довольно сильно останавливаются на скорости 2TB.

Лично я этого не делаю. Так что, если дискам 3 года? Диски живут намного дольше, и новые диски все равно умирают.

Гораздо важнее протестировать ваши диски на регулярной (автоматизированной) основе и заменять диски, когда у них есть свой первый незавершенный / нескорректируемый / перераспределенный сектор, ошибка чтения в selftest или другие проблемы.

Еще важнее иметь резервные копии любых данных, которые вы не хотите потерять.

Вы также можете переключиться на RAID6 для большей избыточности, но в случае двух дисков, умирающих одновременно, маловероятно, если вы активно проверяете наличие ошибок. Не позволяйте вашему восстановлению быть вашим первым испытанием на чтение в течение многих лет.

Первый шаг не нужен и по-прежнему не гарантирует, что /dev/sdX остается стабильным все время (то есть, он указывает на одно и то же устройство). В худшем случае включение его снова вызывает некоторую длительную операцию повторной синхронизации.

Лучшим и надежным подходом является работа с серийными номерами (S / N, SN) приводов. Они печатаются на дисках, и их можно запросить из системы.

Например, глядя на случайную систему:

 # cat /proc/mdstat Personalities : [raid1] md126 : active raid1 sda2[0] sdb2[2] 976245464 blocks super 1.2 [2/2] [UU] bitmap: 1/8 pages [4KB], 65536KB chunk 

Затем я могу получить серийный номер – say – sda через:

 # hdparm -i /dev/sda /dev/sda: Model=SAMSUNG HD103UJ, FwRev=1AA01113, SerialNo=S13PJ0123456789 

(Я отредактировал фактический серийный номер)

Я также могу получить серийный номер, просмотрев символические ссылки в /dev/disk/by-id :

 # ls -l /dev/disk/by-id | grep 'sda$' lrwxrwxrwx. 1 root root 9 2016-08-05 09:49 ata-SAMSUNG_HD103UJ_S13PJ0123456789 \ -> ../../sda 

Таким образом, я могу записать серийный номер накопителя, который я хочу заменить, выключить систему и заменить диск соответствующим серийным номером (который напечатан на этикетке привода).

ProTip # 1: добавив новый диск, напишите серийный номер на дополнительной этикетке и поместите эту метку на той стороне, которая видна непосредственно (например, сторона разъема).

Ссылки /dev/disk/by-id/... также пригодится при добавлении нового устройства в RAID.

ProTip # 2: перемещать диски гетерогенно, т. Е. Использовать модели независимых производителей , диски, которые уже имеют разную мощность по часам и т. Д. Таким образом, вы уменьшаете вероятность множественных сбоев из-за систематических проблем.

ProTip # 3: используйте контрольную систему, такую ​​как BTRFS или ZFS. Помимо преимуществ контрольных сумм, они также поддерживают замену накопителя, не снимая его сначала.

Нет, я бы не упреждал замену жестких дисков.

В вашем случае я бы предложил переключиться на выделенную файловую систему RAID; мой личный милый – ZFS, но я думаю, что BTRFS тоже будет работать.

С ZFS вы должны установить новый жесткий диск, добавить его в свой пул в качестве «горячего» резерва, регулярно обновлять жесткие диски ZFS (автоматически проверять на наличие ошибок) и активировать горячий резерв при появлении ошибок на скрабе. Затем ZFS автоматически инициализирует его, и когда это будет сделано, вы можете вырвать дефектный. Пока жесткие диски в вашем пуле не совпадают с make / run, вы можете быть разумно уверены, что они не подведут в одно и то же время (в зависимости от вашего уровня паранойи, конечно).

В следующий раз, само собой разумеется, что вы должны пометить жесткие диски при их установке, чтобы их можно было найти, не удаляя их …;)

Если вы сделаете все это параллельно с вашим существующим решением (если ваш случай имеет достаточно места для двух дополнительных жестких дисков), то вы настроены на будущее. Вы можете перенести все свои данные на новые диски, а затем использовать старые диски в качестве «горячего» резерва для будущего.

(NB: если вы перейдете на ZFS, который был просто использован в качестве примера здесь, пожалуйста, google «zfs ecc» и выбрал разумно).