Récupérer à partir d'une matrice RAID perforée

10

voici ma situation.

J'ai un serveur Dell avec un contrôleur Dell Perc 7i (contrôleur LSI).

J'avais un lecteur qui m'a donné un avertissement de panne prévue, j'ai donc appelé leur support et ils sont sortis et ont remplacé le disque et la baie se reconstruit elle-même, assez standard.

Deux semaines plus tard, j'ai un autre disque me donnant l'avertissement de panne prévue. J'ai pensé que c'était peut-être un mauvais lot de disques ou une coïncidence, etc. Je contacte donc le support et regarde plus en profondeur. Je me rends compte qu'il y avait des blocs défectueux sur l'un des autres disques qui n'ont pas échoué et ces blocs défectueux ont été copiés pendant la reconstruction. Alors maintenant, j'ai de mauvais blocs partout et ils tuent lentement mon tableau. J'en suis venu à découvrir que cela s'appelle un tableau perforé.

Leur conseil était donc de remplacer tous les disques, de reconstruire la baie et de restaurer à partir d'une sauvegarde. Sauf que j'ai ce problème depuis quelques semaines, ce qui signifie que mes sauvegardes sont mauvaises ... et si je restaure à partir d'une sauvegarde précédente (il y a un mois), il me manquera environ 4 semaines de données de ma base de données qui est totalement inacceptable pour notre bureau.

Ma question est ... quelqu'un a-t-il déjà récupéré de quelque chose comme ça sans avoir à perdre de données ou sans l'approche globale (jeter tout par la fenêtre et recommencer)?

J'ai trouvé un lien qui couvrait mon scénario, je ne sais pas s'il éclaire la situation: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Toute aide ou orientation serait appréciée ! Qu'en pensez-vous?

user72593
la source

Réponses:

15

Votre système, je suppose, est toujours en place, donc la meilleure chose à faire est de faire une sauvegarde immédiate , de vider les disques / baies, de reconstruire et de restaurer à partir de la sauvegarde.

Les blocs défectueux ne signifient pas toujours que vos sauvegardes sont également mauvaises. Si vous n'avez pas rencontré de problèmes de performances ou de fichiers endommagés, vos sauvegardes doivent être suffisamment complètes pour terminer une restauration.

Pour tester, effectuez votre sauvegarde la plus récente et examinez vos données les plus importantes. S'il est toujours intact, vous disposez probablement d'une bonne sauvegarde.

À ce stade, il existe un risque car vous ne pouvez pas être sûr à 100% que vos sauvegardes sont bonnes ou que la sauvegarde ne causera pas de perte de fichiers. Cependant, votre tableau sera finalement échouer et forcer une toute façon restauration, donc ceci est votre seule option.

Nathan C
la source
Je vois, en ce moment tout semble bien fonctionner. Donc, si je suis en mesure de faire une sauvegarde complète de mon système en ce moment, et que je remplace les disques, reconstruis la baie et restaure cette sauvegarde complète ... est-ce que je risque que cet échec revienne? Ou suis-je mieux de réinstaller le système d'exploitation et le logiciel et de ne restaurer que les bases de données pour minimiser les risques?
user72593
Les blocs défectueux ne se produisent généralement pas au niveau d'un fichier. Je ne ferais cela que si vous avez trouvé des fichiers corrompus.
Nathan C
@NathanC Vous n'obtenez pas de "mauvais blocs", vous obtenez des données corrompues.
JamesRyan
@ user72593 Ce n'est pas parce que vous êtes capable de sauvegarder les fichiers aujourd'hui qu'ils ne manqueront pas de pièces. La seule façon de voir ce qui est bon ou non est de le comparer aux sauvegardes.
JamesRyan
1
@JamesRyan Les "mauvais blocs" peuvent se trouver n'importe où sur le disque, y compris les swaps, les fichiers temporaires ou l'espace précédemment utilisé mais désormais inutilisé. Lorsqu'un lecteur a des blocs défectueux, cela ne signifie pas toujours que des données ont été perdues.
Nathan C
8

À cet instant, procédez comme suit:

  • Arrêtez de faire pivoter les sauvegardes ou de supprimer les anciennes pour ce système. Vous souhaitez conserver toutes les sauvegardes dont vous disposez actuellement.
  • Faites une sauvegarde complète du serveur.

Espérons que les disques soient encore assez bons pour que vos données soient intactes, et vous ne rencontrerez aucun problème lors de l'exécution de la nouvelle sauvegarde complète.

Ensuite, supprimez ces disques et créez une nouvelle matrice RAID. Une fois que c'est prêt, essayez de restaurer à partir de la sauvegarde que vous venez de faire. Avec un peu de chance, ce sera tout ce que vous aurez à faire.

Si cela échoue, essayez le plus ancien suivant, le plus ancien suivant, etc. Assurez-vous de tester la fonctionnalité du système - ce n'est pas parce qu'il démarre qu'il est pleinement opérationnel. En particulier, testez la corruption des bases de données.

Si vous deviez restaurer le système entier à partir d'une sauvegarde plus ancienne, c'est ok. Prenez les dernières sauvegardes et restaurez uniquement les fichiers de base de données et autres fichiers importants. Testez-les pour vous assurer qu'ils fonctionnent correctement. Encore une fois, si cela échoue, essayez le plus ancien suivant.

L'utilisation de ce processus minimise la perte de données.

Subvention
la source
Je vois, cela répond à ma question. Donc, tant que ma sauvegarde est intacte, je vais bien, sinon, alors ... je dois y faire face. Merci.
user72593
4

Les réponses fournies par Grant et Nathan C sont excellentes en ce qui concerne la façon dont vous devez procéder pour gérer les sauvegardes / restaurations et traiter l'intégrité des données.

Voici quelques détails plus clairs sur la façon de gérer l'ensemble RAID quand vient le temps de recréer le disque virtuel et de restaurer à partir de la sauvegarde:

  • Vérifiez que vous disposez d'une bonne sauvegarde des données
  • Supprimez le disque virtuel existant; Tous les disques doivent ensuite s'afficher dans un état "prêt"
  • Recréez un nouveau disque virtuel; Paramètres recommandés: lecture anticipée adaptative, réécriture et mise en cache du disque désactivées
  • Vous devriez avoir un disque virtuel en ligne avec une initialisation en arrière-plan en cours.
  • Procédez à la restauration à partir de la sauvegarde; L'initialisation en arrière-plan tourne généralement autour de 600 Go / h pour les broches de 7,2 Ko, alors donnez une longueur d'avance à l'init si votre restauration de sauvegarde peut s'exécuter plus rapidement, sinon votre logiciel de sauvegarde pourrait avoir des problèmes de latence d'écriture quand aucun nouvel espace n'est immédiatement disponible pendant la restaurer.

Remarque : Si vous avez utilisé RAID5, vous devriez sérieusement envisager d'utiliser RAID6 cette fois. RAID5 n'est pas fiable pour les données critiques de l'entreprise selon les meilleures pratiques actuelles de l'industrie sur une baie de cette taille. Les disques SATA / NL-SAS de grande capacité ont également un risque plus élevé de rencontrer un URE pendant les reconstructions, ce qui entraîne une perforation comme celle avec laquelle vous avez affaire. RAID6 réduit considérablement ce risque et est généralement acceptable pour les données critiques avec les capacités de disque actuellement disponibles.

JimNim
la source