Google a mené une étude très approfondie sur les pannes de disque dur, qui a révélé qu'une partie importante des disques durs tombait en panne au cours des trois premiers mois d'utilisation intensive.
Mes collègues et moi-même pensons que nous pourrions mettre en œuvre un processus de rodage de tous nos nouveaux disques durs, ce qui pourrait nous épargner un peu de chagrin de perdre du temps sur de nouveaux lecteurs non testés. Mais avant de mettre en œuvre un processus de rodage, nous aimerions avoir un aperçu de ceux qui sont plus expérimentés:
- Quelle est l’importance de graver un disque dur avant de l’utiliser?
- Comment implémentez-vous un processus de rodage?
- Combien de temps gravez-vous dans un disque dur?
- Quel logiciel utilisez-vous pour graver des lecteurs?
- Combien de stress est trop pour un processus de rodage?
EDIT: En raison de la nature de l'entreprise, les RAID sont impossibles à utiliser la plupart du temps. Nous devons compter sur des lecteurs uniques qui sont envoyés à travers le pays assez souvent. Nous sauvegardons les lecteurs dès que possible, mais nous rencontrons toujours des pannes ici et là avant de pouvoir sauvegarder des données.
MISE À JOUR
Mon entreprise a mis en place un processus de rodage depuis un certain temps, qui s’est révélé extrêmement utile. Nous intégrons immédiatement tous les nouveaux disques que nous avons en stock, ce qui nous permet de détecter de nombreuses erreurs avant l'expiration de la garantie et avant leur installation dans de nouveaux systèmes informatiques. Il s'est également avéré utile de vérifier qu'un lecteur a mal fonctionné. Lorsque l'un de nos ordinateurs commence à rencontrer des erreurs et que le disque dur est le principal suspect, nous réexécutons le processus de gravure sur ce disque et examinons les erreurs éventuelles pour nous assurer que le problème était réellement lié au disque avant de lancer le processus RMA ou de lancer le processus. à la poubelle.
Notre processus de rodage est simple. Nous avons un système Ubuntu désigné avec de nombreux ports SATA, et nous exécutons des badblocks en mode lecture / écriture avec 4 passes sur chaque lecteur. Pour simplifier les choses, nous avons écrit un script qui imprime un avertissement "LES DONNÉES SERONT SUPPRIMÉES DE TOUTES VOS LECTIONS", puis exécute des badblocks sur chaque lecteur, à l'exception du lecteur système.
Réponses:
Si vous avez une bonne sauvegarde et de bons systèmes à haute disponibilité, alors pas grand chose. Depuis la restauration d'un échec devrait être assez facile.
Je vais généralement courir badblocks contre un lecteur ou un nouveau système lorsque je l'obtenir. Je l'exécuterai chaque fois que je ressusciterai un ordinateur à partir de la pile de pièces de rechange. Une commande comme celle-ci (
badblocks -c 2048 -sw /dev/sde
) écrira 4 fois à chaque bloc avec un motif différent (0xaa, 0x55, 0xff, 0x00). Ce test ne fait rien pour tester beaucoup de lectures / écritures aléatoires, mais il devrait prouver que chaque bloc peut aussi être écrit et lu.Vous pouvez également exécuter Bonnie ++ , ou iometer, des outils d'analyse comparative. Ceux-ci devraient essayer de stresser un peu vos lecteurs. Les lecteurs ne devraient pas échouer même si vous essayez de les maximiser. Alors, autant essayer de voir ce qu’ils peuvent faire. Je ne fais pas cela cependant. Obtenir un point de référence E / S de votre système de stockage au moment de l'installation / de la configuration peut s'avérer très utile à l'avenir lorsque vous examinerez des problèmes de performances.
À mon avis, une seule série de badblocks suffit, mais je pense posséder un système de sauvegarde très puissant et mes besoins en HA ne sont pas si importants. Je peux me permettre un temps d'arrêt pour restaurer le service sur la plupart des systèmes que je supporte. Si vous êtes tellement inquiet que, selon vous, une configuration multipasse peut être nécessaire, vous devriez probablement disposer d'un RAID, de bonnes sauvegardes et d'une bonne configuration de haute disponibilité.
Si je suis pressé, je peux sauter un burn-in. Mes sauvegardes et RAID devraient bien se passer.
la source
IMNSHO, vous ne devriez pas vous fier à un processus de rodage pour éliminer les disques défectueux et "protéger" vos données. Le développement de cette procédure et sa mise en œuvre prendront un temps qui pourrait être mieux utilisé ailleurs et même si un lecteur réussit à roder, il risque toujours d’échouer des mois plus tard.
Vous devriez utiliser RAID et des sauvegardes pour protéger vos données. Une fois que cela est en place, laissez-le s'inquiéter des lecteurs. Les bons contrôleurs RAID et les sous-systèmes de stockage auront des processus de "nettoyage" qui analysent les données de temps en temps et garantissent que tout est bon.
Une fois que tout est réglé, il n’est pas nécessaire de procéder au nettoyage du disque, bien que, comme d’autres l'ont déjà mentionné, il ne soit pas gênant d'effectuer un test de charge du système pour s'assurer que tout fonctionne comme prévu. Je ne m'inquiéterais pas du tout des disques individuels.
Comme cela a été mentionné dans les commentaires, il n’a pas de sens d’utiliser des disques durs pour votre cas d’utilisation particulier. Leur envoi est beaucoup plus susceptible de provoquer des erreurs de données qui n'existeraient pas lorsque vous avez effectué le rodage.
Le support de bande est conçu pour être expédié. Vous pouvez obtenir 250 Mo / s (ou une compression maximale de 650 Mo / s) avec un seul lecteur IBM TS1140, ce qui devrait être plus rapide que votre disque dur. Et plus gros aussi - une seule cartouche peut vous donner jusqu'à 4 To (non compressé).
Si vous ne souhaitez pas utiliser de bande, utilisez des disques SSD. Ils peuvent être traités beaucoup plus brutalement que les disques durs et satisfaire à toutes les exigences que vous avez données jusqu'à présent.
Après tout cela, voici mes réponses à vos questions:
Pas du tout.
Une ou deux courses.
Une simple série de, disons,
shred
etbadblocks
fera l'affaire. Vérifiez les données SMART par la suite.Pas de stress, c'est trop. Vous devriez être capable de jeter quoi que ce soit sur un disque sans qu'il explose.
la source
Compte tenu de vos éclaircissements, il ne semble pas qu'un processus de rodage puisse vous être utile. Les disques tombent en panne principalement à cause de facteurs mécaniques, généralement de la chaleur et des vibrations; pas à cause d'une sorte de bombe à retardement cachée. Un processus de "rodage" teste l'environnement d'installation autant que tout autre élément. Une fois que vous déplacez la chose, vous êtes de retour à votre point de départ.
Mais voici quelques indications qui pourraient vous aider:
Les disques pour ordinateurs portables sont généralement conçus pour résister à plus de bousculades et de vibrations que les disques de bureau. C'est pour cette raison que mes amis qui travaillent dans des magasins de récupération de données envoient toujours des données aux clients sur des lecteurs d'ordinateurs portables. Je n'ai jamais testé ce fait, mais cela semble être une "connaissance commune" dans certaines industries.
Les clés USB (par exemple, les clés USB) sont parmi les supports les plus résistants aux chocs que vous puissiez trouver. Si vous utilisez un support Flash, vous risquez même de perdre des données en transit.
Si vous expédiez un disque Winchester, effectuez un balayage de la surface avant de le mettre en service. Ou mieux encore, il suffit de ne pas le mettre en service. Au lieu de cela, vous souhaiterez peut-être désigner certains lecteurs comme des lecteurs "d'expédition", qui détectent tous les abus, mais sur lesquels vous ne comptez pas pour l'intégrité des données. (Par exemple, copier les données sur le lecteur pour expédition, copier après expédition, très des sommes de contrôle des deux côtés, ce genre de chose).
la source
Votre processus est faux. Vous devriez utiliser des tableaux de raid. Là où je travaille, nous avons fabriqué des baies de raid robustes conçues pour être transportées. Ce n'est pas sorcier. Monter les disques dans des boîtiers surdimensionnés avec de gros isolateurs de vibrations en caoutchouc améliorera énormément la fiabilité. (Les disques Seagate Constellation-es sont, par exemple, conçus pour un choc de 300 G mais seulement pour des vibrations de 2 G, non opérationnelles: le boîtier d’expédition doit donc isoler le lecteur de vibrations. Http://www.novibes.com/Products&productID=62 ou http : //www.novibes.com/Products&productId=49 [ Part # 50178])
Cependant, vous voulez vraiment graver dans les disques durs de test, alors voilà.
J'ai travaillé sur des systèmes tels que les disques durs et graver des problèmes rencontrés, mais ...
Pour accélérer les tests de cycle de vie des PCB afin de détecter les défauts, rien ne vaut certains cycles chaud / froid. (fonctionner en cycles chaud-froid fonctionne encore mieux ... mais c'est plus difficile pour vous, surtout avec les banques de disques durs)
Procurez-vous une chambre environnementale assez grande pour le nombre de lecteurs que vous acquérez à la fois. (Celles-ci sont assez chères, il serait moins coûteux d'expédier des matrices de raids) Vous ne pouvez pas lésiner sur les chambres de test, vous aurez besoin d'un contrôle de l'humidité et de rampes programmables.
Programmez deux rampes de température répétitives, jusqu’à la température minimale de stockage, jusqu’à la température maximale de stockage, rendez les rampes suffisamment raides pour déranger l’ingénieur des applications de votre fabricant de disque dur. 3 cycles chaud-froid en 12 heures devraient permettre aux disques de tomber en panne assez rapidement. Faites fonctionner les lecteurs au moins 12 heures comme ceci. Si tout travail après, je serais surpris.
Je ne pensais pas cela: à un endroit où je travaillais, un ingénieur de production faisait cela: pour obtenir plus de produits expédiés avec le même équipement de test, il y a eu une augmentation considérable du nombre de défauts dans les tests, mais le taux de morts à l'arrivée est tombé à pratiquement zéro.
la source
Je suis en désaccord avec toutes les réponses qui disent en gros "Ne vous embêtez pas avec le rodage, faites de bonnes sauvegardes".
Bien que vous ayez toujours besoin de sauvegardes, j’ai passé 9 heures hier (en plus de mon quart de travail habituel) à effectuer des restaurations à partir de sauvegardes, car le système fonctionnait avec des lecteurs non gravés.
Il y avait 6 disques dans une configuration RAIDZ2 (équivalent ZFS à RAID-6) et 3 disques sont morts au cours des 18 heures sur une boîte fonctionnant depuis environ 45 jours.
La meilleure solution que j'ai trouvée consiste à acheter des lecteurs d'un fabricant particulier (ne pas mélanger les composants), puis à utiliser l'outil fourni pour les exercer.
Dans notre cas, nous achetons Western Digital et utilisons leurs diagnostics de disque basés sur DOS à partir d'un ISO amorçable. Nous le mettons en marche, exécutons l'option permettant d'écrire des ordures aléatoires sur l'intégralité du disque, puis exécutons le test SMART court, suivi du test SMART long. C'est généralement suffisant pour éliminer tous les secteurs défectueux, les réaffectations en lecture / écriture, etc.
J'essaie toujours de trouver un moyen décent de le «mettre en lot» afin de pouvoir l'exécuter contre 8 lecteurs à la fois. Peut-être juste utiliser 'dd if = / dev / urandom of = / dev / what' sous Linux ou 'badblocks'.
EDIT: J'ai trouvé un moyen plus agréable de le «lot». Je me suis enfin mis à installer un serveur de démarrage PXE sur notre réseau pour répondre à un besoin particulier et j'ai remarqué que le CD de démarrage ultime pouvait être démarré par PXE. Nous avons maintenant une poignée de machines indésirables qui peuvent être démarrées par PXE pour exécuter des diagnostics de lecteur.
la source
Quelle est l’importance de graver un disque dur avant de l’utiliser?
Ça dépend.
Si vous l'utilisez dans un RAID offrant une redondance (1, 5, 6, 10)? Pas très.
Si vous l'utilisez standaolone? Un peu, mais vous feriez mieux de lancer smartd ou quelque chose pour le surveiller, du moins à mon avis.
Ceci mène naturellement à ma réponse à " Comment implémentez-vous un processus de rodage? " - Je ne le fais pas.
Plutôt que d'essayer de "graver" des disques, je les exécute par paires redondantes et utilise la surveillance prédictive (comme SMART) pour me prévenir de la défaillance d'un lecteur. J'ai constaté que le temps supplémentaire nécessaire pour effectuer une gravure complète (réellement exercer tout le disque) est beaucoup plus coûteux que de traiter une défaillance de disque et un échange.
En combinant RAID et de bonnes sauvegardes, vos données doivent être très sûres, même en cas de mortalité infantile (ou à l’autre bout de la cure de la baignoire lorsque vous commencez à avoir des lecteurs meurent de vieillesse)
la source
Spinrite (grc.com) lira et réécrira toutes les données du lecteur. C'est une bonne chose à faire pour un nouveau disque, même si vous n'essayez pas de le faire échouer. Cela prend beaucoup de temps pour fonctionner au niveau 4, généralement quelques jours pour les disques de taille actuelle. Je devrais aussi ajouter que c'est non destructif. En fait, si des données sont en mauvais état, elles seront déplacées et récupérées. Bien sûr, vous ne le feriez jamais sur un SSD.
la source
Je suis sûr qu'une analyse comparative hebdomadaire et une vérification des erreurs suffiront pour "graver des" disques durs. Bien que depuis ton post je n'ai jamais entendu parler d'une chose pareille.
Cité de "6_6_6" sur Stroagereview.com
En tout, je pense personnellement que c'est une mauvaise idée.
EDIT: Scource: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/
la source
Premièrement, je suis d’accord avec d’autres affiches pour dire que votre cas d'utilisation suggère que les lecteurs de bande seront la meilleure option.
Si cela n’est pas possible, si vous devez faire voler des disques à travers le pays, un véritable RAID ne semble pas être une option, car vous devrez transporter beaucoup plus de disques, augmentant ainsi le risque de défaillance. Cependant, qu’en est-il d’un schéma de mise en miroir simple, l’envoi d’un lecteur et le maintien de l’autre sur le site source?
Ensuite, si le lecteur tombe en panne à l’arrivée, une nouvelle copie peut être créée et envoyée. Si le lecteur est en bon état à l'arrivée, le disque de secours peut être réutilisé, que ce soit pour l'envoi ou la sauvegarde des données d'origine.
la source
Vous n'avez pas vraiment expliqué pourquoi les disques sont expédiés. S'agit-il d'un simple moyen d'envoyer des données? Ont-ils des applications / images complètes du système d'exploitation prêtes à être démarrées sur un PC ou autre chose?
Je suis d’accord avec les autres réponses pour dire que le RAID ou les sauvegardes sont meilleurs que le scan, en raison des risques liés à l’envoi d’un disque causant des problèmes mécaniques.
Une façon plus générale d’exprimer cela serait de "s’appuyer sur des données redondantes pour détecter et corriger les erreurs" - expédier 2 disques pour chaque ensemble de données ou expédier des données redondantes sur un seul disque. Quelque chose comme Parchive vous permet d'ajouter un niveau défini de redondance aux données, ce qui permet la récupération même si une grande partie des données est corrompue. Étant donné que les disques sont relativement bon marché de nos jours, l'achat d'un disque plus volumineux que ce qui est strictement nécessaire coûtera souvent moins cher que de numériser le lecteur, d'envoyer un lecteur de remplacement ou d'envoyer 2 lecteurs.
Cela protégerait contre les défaillances non catastrophiques du lecteur. Cependant, il est toujours préférable de ne pas réutiliser un lecteur livré, à l'exception de l'expédition, comme suggéré précédemment, c'est-à-dire de le visualiser comme une bande qui doit être extraite sur un "vrai" lecteur qui est permanent. installé et non expédié n'importe où.
Cela devrait vous permettre de transmettre une grande quantité de données (ou même d'images d'application / système d'exploitation) et de réduire l'impact des erreurs de disque, quel que soit le niveau économique.
la source