Nous avons un serveur Dell PowerEdge T410 exécutant CentOS, avec une matrice RAID-5 contenant 5 disques SATA Seagate Barracuda 3 To. Hier, le système est tombé en panne (je ne sais pas exactement et je n'ai aucun journal).
Lors du démarrage dans le BIOS du contrôleur RAID, j'ai vu que sur les 5 disques, le disque 1 était étiqueté «manquant» et le disque 3 était «dégradé». J'ai forcé la sauvegarde du disque 3 et remplacé le disque 1 par un nouveau disque dur (de la même taille). Le BIOS l'a détecté et a commencé à reconstruire le disque 1 - mais il est resté bloqué à% 1. L'indicateur de progression de la rotation n'a pas bougé toute la nuit; totalement gelé.
Quelles sont mes options ici? Existe-t-il un moyen de tenter de reconstruire, en plus d'utiliser un service de récupération de données professionnel? Comment deux disques durs pourraient-ils tomber en panne simultanément comme ça? Semble trop fortuit. Est-il possible que le disque 1 soit tombé en panne et que le disque 3 "ne soit plus synchronisé?" Si oui, existe-t-il un utilitaire que je peux utiliser pour le récupérer "en synchronisation?"
la source
Réponses:
Après avoir accepté une mauvaise réponse, je suis vraiment désolé pour mon avis hérétique (qui a déjà sauvé plusieurs fois de tels tableaux).
Votre deuxième disque défectueux a probablement un problème mineur, peut-être une défaillance de bloc. C'est la raison pour laquelle le mauvais outil de synchronisation de votre mauvais firmware raid5 s'est écrasé dessus.
Vous pouvez facilement faire une copie au niveau du secteur avec un outil de clonage de disque de bas niveau (par exemple, gddrescue est probablement très utile) et utiliser ce disque comme nouveau disque3. Dans ce cas, votre baie a survécu avec une corruption de données mineure.
Je suis désolé, il est probablement trop tard, car l'essence de la réponse orthodoxe dans ce cas: "échec multiple dans un raid5, voici l'apocalypse!"
Si vous voulez un très bon raid redondant, utilisez le logiciel raid sous linux. Par exemple, sa disposition de données de superbloc raid est publique et documentée ... Je suis vraiment désolé, pour ce ceci, une autre opinion hérétique.
la source
Vous avez une panne de double disque. Cela signifie que vos données ont disparu et que vous devrez restaurer à partir d'une sauvegarde. C'est pourquoi nous ne sommes pas censés utiliser le raid 5 sur de grands disques. Vous souhaitez configurer votre raid afin de toujours avoir la capacité de résister à deux pannes de disque, en particulier avec de gros disques lents.
la source
Vos options sont:
la source
Un échec simultané est possible, voire probable, pour les raisons avancées par d'autres. L'autre possibilité est que l'un des disques était tombé en panne quelque temps auparavant et que vous ne le contrôliez pas activement.
Assurez-vous que votre surveillance capterait rapidement un volume RAID fonctionnant en mode dégradé. Peut-être que vous n'avez pas eu d'option mais ce n'est jamais bon d'avoir à apprendre ces choses à partir du BIOS.
la source
Pour répondre "Comment deux disques durs peuvent-ils tomber en panne simultanément comme ça?" précisément, je voudrais citer cet article :
Ainsi, RAID5 n'était pas sûr en 2009. RAID6 le sera bientôt aussi. Quant à RAID1, j'ai commencé à les fabriquer à partir de 3 disques. RAID10 avec 4 disques est également précaire.
la source
Le thread est ancien mais si vous lisez, comprenez quand un disque tombe en panne dans une matrice RAID, vérifiez l'âge des disques. Si vous disposez de plusieurs disques dans un réseau RAID et qu'ils ont plus de 4 à 5 ans, les chances sont bonnes qu'un autre disque tombe en panne. *** FAITES UNE IMAGE ou une sauvegarde ** avant de continuer. Si vous pensez avoir une sauvegarde, testez-la pour vous assurer que vous pouvez la lire et la restaurer.
La raison en est que vous placez des années d'usure normale sur les disques restants alors qu'ils tournent à pleine vitesse pendant des heures et des heures. Plus le nombre de disques durs de 6 ans est élevé, plus le risque de défaillance d'un autre disque dur augmente. Si c'est RAID5, et que vous faites exploser la baie, génial vous avez une sauvegarde mais un disque de 2 To prendra 8 à 36 heures à restaurer selon le type de contrôleur de raid et autre matériel.
Nous remplaçons régulièrement la ruche de raid entière sur les serveurs de production si tous les disques sont vieux. Pourquoi ne pas perdre de temps à remplacer un lecteur, puis attendre que le suivant tombe en panne dans un jour, une semaine, un mois ou deux. Aussi effrayants que soient les lecteurs, cela ne vaut tout simplement pas le temps d'arrêt.
la source
Généralement, lorsque vous achetez des disques en grande quantité auprès d'un revendeur réputé, vous pouvez demander que les disques proviennent de différents lots, ce qui est important pour les raisons indiquées ci-dessus. Ensuite, c'est précisément la raison pour laquelle RAID 1 + 0 existe. Si vous aviez utilisé 6 disques en RAID 1 + 0, vous auriez eu 9 To de données avec redondance immédiate où aucune reconstruction d'un volume n'est nécessaire.
la source
Si votre contrôleur est reconnu par dmraid (par exemple ici ) sur linux, vous pourrez peut-être utiliser ddrescue pour récupérer le disque défaillant sur un nouveau, et utiliser dmraid pour construire le tableau, au lieu de votre contrôleur matériel.
la source