Comment dois-je graver des disques durs?

41

Google a mené une étude très approfondie sur les pannes de disque dur, qui a révélé qu'une partie importante des disques durs tombait en panne au cours des trois premiers mois d'utilisation intensive.

Mes collègues et moi-même pensons que nous pourrions mettre en œuvre un processus de rodage de tous nos nouveaux disques durs, ce qui pourrait nous épargner un peu de chagrin de perdre du temps sur de nouveaux lecteurs non testés. Mais avant de mettre en œuvre un processus de rodage, nous aimerions avoir un aperçu de ceux qui sont plus expérimentés:

  • Quelle est l’importance de graver un disque dur avant de l’utiliser?
  • Comment implémentez-vous un processus de rodage?
    • Combien de temps gravez-vous dans un disque dur?
    • Quel logiciel utilisez-vous pour graver des lecteurs?
  • Combien de stress est trop pour un processus de rodage?

EDIT: En raison de la nature de l'entreprise, les RAID sont impossibles à utiliser la plupart du temps. Nous devons compter sur des lecteurs uniques qui sont envoyés à travers le pays assez souvent. Nous sauvegardons les lecteurs dès que possible, mais nous rencontrons toujours des pannes ici et là avant de pouvoir sauvegarder des données.

MISE À JOUR

Mon entreprise a mis en place un processus de rodage depuis un certain temps, qui s’est révélé extrêmement utile. Nous intégrons immédiatement tous les nouveaux disques que nous avons en stock, ce qui nous permet de détecter de nombreuses erreurs avant l'expiration de la garantie et avant leur installation dans de nouveaux systèmes informatiques. Il s'est également avéré utile de vérifier qu'un lecteur a mal fonctionné. Lorsque l'un de nos ordinateurs commence à rencontrer des erreurs et que le disque dur est le principal suspect, nous réexécutons le processus de gravure sur ce disque et examinons les erreurs éventuelles pour nous assurer que le problème était réellement lié au disque avant de lancer le processus RMA ou de lancer le processus. à la poubelle.

Notre processus de rodage est simple. Nous avons un système Ubuntu désigné avec de nombreux ports SATA, et nous exécutons des badblocks en mode lecture / écriture avec 4 passes sur chaque lecteur. Pour simplifier les choses, nous avons écrit un script qui imprime un avertissement "LES DONNÉES SERONT SUPPRIMÉES DE TOUTES VOS LECTIONS", puis exécute des badblocks sur chaque lecteur, à l'exception du lecteur système.

Phil
la source
15
Curieusement, pourquoi postez-vous les lecteurs à travers le pays? Il semblerait que les pannes de disque dues aux chocs et à la mauvaise gestion générale des services postaux soient plus susceptibles de provoquer des pannes de disque que des raisons qu'un burn-in détecterait.
Paperjam
6
@Lie Ryan: L'envoi de matériel de stockage demeure le moyen le plus rapide de transférer des données. Internet est très lent et si vous devez passer par des réseaux institutionnels et des pare-feu, la situation empire encore plus.
Jonas
4
@Lie Ryan: Si vous traitez avec des données secrètes classées par le gouvernement, SSH ne le fera pas . En général, un ordinateur contenant ces données ne peut pas être connecté à Internet public. Si vous devez transférer des giga-octets de données classifiées, l'envoi par courrier d'un lecteur crypté est l'option la plus efficace.
benzado
3
@Lie Ryan: Exatly. Même avec une connexion Internet très rapide, il vous faut un mois pour fournir 7 To (et si vous avez le luxe de contrôler votre débit et celui du destinataire). Avec UPS, les 7 To sont là le lendemain.
Jonas
5
C'est bien et tout, sauf quand vous avez des équipes mobiles sur la route qui collectent des quantités énormes de données. Cela signifie que vous devez compter sur une connexion Internet d'hôtel ou mobile, et que vous ne restez jamais au même endroit pendant plus de 8 heures.
Phil

Réponses:

36

Quelle est l’importance de graver un disque dur avant de l’utiliser?

Si vous avez une bonne sauvegarde et de bons systèmes à haute disponibilité, alors pas grand chose. Depuis la restauration d'un échec devrait être assez facile.

Comment implémentez-vous un processus de rodage? Quel logiciel utilisez-vous pour graver des lecteurs? Combien de stress est trop pour un processus de rodage?

Je vais généralement courir badblocks contre un lecteur ou un nouveau système lorsque je l'obtenir. Je l'exécuterai chaque fois que je ressusciterai un ordinateur à partir de la pile de pièces de rechange. Une commande comme celle-ci ( badblocks -c 2048 -sw /dev/sde) écrira 4 fois à chaque bloc avec un motif différent (0xaa, 0x55, 0xff, 0x00). Ce test ne fait rien pour tester beaucoup de lectures / écritures aléatoires, mais il devrait prouver que chaque bloc peut aussi être écrit et lu.

Vous pouvez également exécuter Bonnie ++ , ou iometer, des outils d'analyse comparative. Ceux-ci devraient essayer de stresser un peu vos lecteurs. Les lecteurs ne devraient pas échouer même si vous essayez de les maximiser. Alors, autant essayer de voir ce qu’ils peuvent faire. Je ne fais pas cela cependant. Obtenir un point de référence E / S de votre système de stockage au moment de l'installation / de la configuration peut s'avérer très utile à l'avenir lorsque vous examinerez des problèmes de performances.

Combien de temps gravez-vous dans un disque dur?

À mon avis, une seule série de badblocks suffit, mais je pense posséder un système de sauvegarde très puissant et mes besoins en HA ne sont pas si importants. Je peux me permettre un temps d'arrêt pour restaurer le service sur la plupart des systèmes que je supporte. Si vous êtes tellement inquiet que, selon vous, une configuration multipasse peut être nécessaire, vous devriez probablement disposer d'un RAID, de bonnes sauvegardes et d'une bonne configuration de haute disponibilité.

Si je suis pressé, je peux sauter un burn-in. Mes sauvegardes et RAID devraient bien se passer.

Zoredache
la source
49

IMNSHO, vous ne devriez pas vous fier à un processus de rodage pour éliminer les disques défectueux et "protéger" vos données. Le développement de cette procédure et sa mise en œuvre prendront un temps qui pourrait être mieux utilisé ailleurs et même si un lecteur réussit à roder, il risque toujours d’échouer des mois plus tard.

Vous devriez utiliser RAID et des sauvegardes pour protéger vos données. Une fois que cela est en place, laissez-le s'inquiéter des lecteurs. Les bons contrôleurs RAID et les sous-systèmes de stockage auront des processus de "nettoyage" qui analysent les données de temps en temps et garantissent que tout est bon.

Une fois que tout est réglé, il n’est pas nécessaire de procéder au nettoyage du disque, bien que, comme d’autres l'ont déjà mentionné, il ne soit pas gênant d'effectuer un test de charge du système pour s'assurer que tout fonctionne comme prévu. Je ne m'inquiéterais pas du tout des disques individuels.


Comme cela a été mentionné dans les commentaires, il n’a pas de sens d’utiliser des disques durs pour votre cas d’utilisation particulier. Leur envoi est beaucoup plus susceptible de provoquer des erreurs de données qui n'existeraient pas lorsque vous avez effectué le rodage.

Le support de bande est conçu pour être expédié. Vous pouvez obtenir 250 Mo / s (ou une compression maximale de 650 Mo / s) avec un seul lecteur IBM TS1140, ce qui devrait être plus rapide que votre disque dur. Et plus gros aussi - une seule cartouche peut vous donner jusqu'à 4 To (non compressé).

Si vous ne souhaitez pas utiliser de bande, utilisez des disques SSD. Ils peuvent être traités beaucoup plus brutalement que les disques durs et satisfaire à toutes les exigences que vous avez données jusqu'à présent.


Après tout cela, voici mes réponses à vos questions:

  • Quelle est l’importance de graver un disque dur avant de l’utiliser?
    Pas du tout.
  • Comment implémentez-vous un processus de rodage?
    • Combien de temps gravez-vous dans un disque dur?
      Une ou deux courses.
    • Quel logiciel utilisez-vous pour graver des lecteurs?
      Une simple série de, disons, shredet badblocksfera l'affaire. Vérifiez les données SMART par la suite.
  • Combien de stress est trop pour un processus de rodage?
    Pas de stress, c'est trop. Vous devriez être capable de jeter quoi que ce soit sur un disque sans qu'il explose.
MikeyB
la source
1
Mon seul regret à propos de ce post est que je ne peux le voter qu'une seule fois. @Phil, tu y réinventes la roue. Les sauvegardes et les matrices RAID sont le moyen de vous assurer que vous ne perdez pas de données au profit de défaillances aléatoires de lecteurs aléatoires (ou autres, matériels connexes).
Rob Moir
8
Je conviens que vous ne devriez pas vous en remettre à cela, mais exécuter une analyse sur un système avant sa mise en production a identifié un problème potentiel pour moi à quelques reprises. Si vous n'êtes pas pressé, laisser un ordinateur se scanner pendant un jour ou deux ne fait généralement pas de mal.
Zoredache
7
Cette réponse a le plus grand nombre de voix, mais n'a pas répondu le plus à la question. L'OP a déclaré que les RAID sont impossibles. Si "des lecteurs individuels sont envoyés à travers le pays", un raid ne peut pas être créé. Un processus de sauvegarde est en place, mais il semble que le PO souhaite tout trouver pour gagner du temps au cas où un lecteur tomberait en panne. (Remarque: je travaille dans la même entreprise que l'OP, donc je connais la situation, les données sont copiées dans un RAID une fois qu'elles sont livrées) Si vous DEVEZ graver des lecteurs, de manière hypothétique, comment vous y prendriez-vous?
jsmith
3
Dans ce cas, la question devrait fournir ce contexte. D'après ce que vous dites, la question devrait être "Nous devons envoyer les disques durs par courrier postal / fret. Comment devrions-nous effectuer un test de rodage avant de les expédier afin de minimiser les pannes?" Curieusement, la réponse ne change pas. Envoyez une paire de lecteurs! Ou mieux, utilisez des bandes. Les bandes sont conçues pour être utilisées de cette manière, les disques durs ne le sont pas. Plus d'informations mènent à une réponse différente.
MikeyB
2
Les bandes ne peuvent pas écrire des données aussi vite que les disques durs? 250MBps (non compressé) ne vous suffit pas? Je dirais qu'un processus de rodage ne va pas réellement aider à protéger contre les échecs avec votre cas d'utilisation.
MikeyB
8

Compte tenu de vos éclaircissements, il ne semble pas qu'un processus de rodage puisse vous être utile. Les disques tombent en panne principalement à cause de facteurs mécaniques, généralement de la chaleur et des vibrations; pas à cause d'une sorte de bombe à retardement cachée. Un processus de "rodage" teste l'environnement d'installation autant que tout autre élément. Une fois que vous déplacez la chose, vous êtes de retour à votre point de départ.

Mais voici quelques indications qui pourraient vous aider:

Les disques pour ordinateurs portables sont généralement conçus pour résister à plus de bousculades et de vibrations que les disques de bureau. C'est pour cette raison que mes amis qui travaillent dans des magasins de récupération de données envoient toujours des données aux clients sur des lecteurs d'ordinateurs portables. Je n'ai jamais testé ce fait, mais cela semble être une "connaissance commune" dans certaines industries.

Les clés USB (par exemple, les clés USB) sont parmi les supports les plus résistants aux chocs que vous puissiez trouver. Si vous utilisez un support Flash, vous risquez même de perdre des données en transit.

Si vous expédiez un disque Winchester, effectuez un balayage de la surface avant de le mettre en service. Ou mieux encore, il suffit de ne pas le mettre en service. Au lieu de cela, vous souhaiterez peut-être désigner certains lecteurs comme des lecteurs "d'expédition", qui détectent tous les abus, mais sur lesquels vous ne comptez pas pour l'intégrité des données. (Par exemple, copier les données sur le lecteur pour expédition, copier après expédition, très des sommes de contrôle des deux côtés, ce genre de chose).

tylerl
la source
"Une fois que vous déplacez la chose, vous êtes de retour à votre point de départ." - pas vrai. voici comment un graphique MTTF pour un look de disque comme: cs.cmu.edu/~bianca/fast/img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/... test dans la première période filtre peut Sur beaucoup de disques problématiques, les fabricants font ces tests de résistance pour rendre le produit plus fiable, mais bien sûr, il n’est pas économique de faire le test tant que le graphique ne s’aplatit pas.
Karoly Horvath
3
@yi_H: Je pense que tylerl laisse entendre que la cause de l'échec précoce est probablement due au processus d'expédition lui-même (ce qui n'est pas invraisemblable, j'aimerais voir un graphique traçant les pannes de disque en fonction de la fréquence d'envoi), donc si vous envoyez un disque dur à travers le pays, le MTTF sera réinitialisé; Par conséquent, si vous envoyez un disque tous les trois mois, vous êtes toujours dans la zone de défaillance précoce.
Lie Ryan
5

Votre processus est faux. Vous devriez utiliser des tableaux de raid. Là où je travaille, nous avons fabriqué des baies de raid robustes conçues pour être transportées. Ce n'est pas sorcier. Monter les disques dans des boîtiers surdimensionnés avec de gros isolateurs de vibrations en caoutchouc améliorera énormément la fiabilité. (Les disques Seagate Constellation-es sont, par exemple, conçus pour un choc de 300 G mais seulement pour des vibrations de 2 G, non opérationnelles: le boîtier d’expédition doit donc isoler le lecteur de vibrations. Http://www.novibes.com/Products&productID=62 ou http : //www.novibes.com/Products&productId=49 [ Part # 50178])

Cependant, vous voulez vraiment graver dans les disques durs de test, alors voilà.

J'ai travaillé sur des systèmes tels que les disques durs et graver des problèmes rencontrés, mais ...

Pour accélérer les tests de cycle de vie des PCB afin de détecter les défauts, rien ne vaut certains cycles chaud / froid. (fonctionner en cycles chaud-froid fonctionne encore mieux ... mais c'est plus difficile pour vous, surtout avec les banques de disques durs)

Procurez-vous une chambre environnementale assez grande pour le nombre de lecteurs que vous acquérez à la fois. (Celles-ci sont assez chères, il serait moins coûteux d'expédier des matrices de raids) Vous ne pouvez pas lésiner sur les chambres de test, vous aurez besoin d'un contrôle de l'humidité et de rampes programmables.

Programmez deux rampes de température répétitives, jusqu’à la température minimale de stockage, jusqu’à la température maximale de stockage, rendez les rampes suffisamment raides pour déranger l’ingénieur des applications de votre fabricant de disque dur. 3 cycles chaud-froid en 12 heures devraient permettre aux disques de tomber en panne assez rapidement. Faites fonctionner les lecteurs au moins 12 heures comme ceci. Si tout travail après, je serais surpris.

Je ne pensais pas cela: à un endroit où je travaillais, un ingénieur de production faisait cela: pour obtenir plus de produits expédiés avec le même équipement de test, il y a eu une augmentation considérable du nombre de défauts dans les tests, mais le taux de morts à l'arrivée est tombé à pratiquement zéro.

Tim Williscroft
la source
5

Je suis en désaccord avec toutes les réponses qui disent en gros "Ne vous embêtez pas avec le rodage, faites de bonnes sauvegardes".

Bien que vous ayez toujours besoin de sauvegardes, j’ai passé 9 heures hier (en plus de mon quart de travail habituel) à effectuer des restaurations à partir de sauvegardes, car le système fonctionnait avec des lecteurs non gravés.

Il y avait 6 disques dans une configuration RAIDZ2 (équivalent ZFS à RAID-6) et 3 disques sont morts au cours des 18 heures sur une boîte fonctionnant depuis environ 45 jours.

La meilleure solution que j'ai trouvée consiste à acheter des lecteurs d'un fabricant particulier (ne pas mélanger les composants), puis à utiliser l'outil fourni pour les exercer.

Dans notre cas, nous achetons Western Digital et utilisons leurs diagnostics de disque basés sur DOS à partir d'un ISO amorçable. Nous le mettons en marche, exécutons l'option permettant d'écrire des ordures aléatoires sur l'intégralité du disque, puis exécutons le test SMART court, suivi du test SMART long. C'est généralement suffisant pour éliminer tous les secteurs défectueux, les réaffectations en lecture / écriture, etc.

J'essaie toujours de trouver un moyen décent de le «mettre en lot» afin de pouvoir l'exécuter contre 8 lecteurs à la fois. Peut-être juste utiliser 'dd if = / dev / urandom of = / dev / what' sous Linux ou 'badblocks'.

EDIT: J'ai trouvé un moyen plus agréable de le «lot». Je me suis enfin mis à installer un serveur de démarrage PXE sur notre réseau pour répondre à un besoin particulier et j'ai remarqué que le CD de démarrage ultime pouvait être démarré par PXE. Nous avons maintenant une poignée de machines indésirables qui peuvent être démarrées par PXE pour exécuter des diagnostics de lecteur.

Aaron C. de Bruyn
la source
3
Qu'est-ce que tu sais? Une réponse qui répond à la question et ne prêche pas au PO. +1
elBradford
3
Si vous voulez que des données aléatoires écrivent sur le lecteur, ne lisez pas dans / dev / urandom; il n'est pas aussi lent que son cousin bloquant / dev / random, mais il est toujours lent et ne vous rapporte rien. A la place, configurez un mappage simple dm-crypt avec une clé aléatoire (que vous pouvez obtenir à partir de / dev / urandom ou / dev / random), puis dd / dev / zero dans le périphérique mappé. Ce sera probablement entre deux fois plus rapide et un ordre de grandeur plus rapide. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentAskedQuestions "Comment puis-je effacer un périphérique de manière aléatoire?" a un exemple de la façon de le faire.
un CVn
Excellente suggestion @ MichaelKjörling
Aaron C. de Bruyn
3

Quelle est l’importance de graver un disque dur avant de l’utiliser?

Ça dépend.
Si vous l'utilisez dans un RAID offrant une redondance (1, 5, 6, 10)? Pas très.
Si vous l'utilisez standaolone? Un peu, mais vous feriez mieux de lancer smartd ou quelque chose pour le surveiller, du moins à mon avis.

Ceci mène naturellement à ma réponse à " Comment implémentez-vous un processus de rodage? " - Je ne le fais pas.
Plutôt que d'essayer de "graver" des disques, je les exécute par paires redondantes et utilise la surveillance prédictive (comme SMART) pour me prévenir de la défaillance d'un lecteur. J'ai constaté que le temps supplémentaire nécessaire pour effectuer une gravure complète (réellement exercer tout le disque) est beaucoup plus coûteux que de traiter une défaillance de disque et un échange.
En combinant RAID et de bonnes sauvegardes, vos données doivent être très sûres, même en cas de mortalité infantile (ou à l’autre bout de la cure de la baignoire lorsque vous commencez à avoir des lecteurs meurent de vieillesse)

voretaq7
la source
1
Que se passe-t-il si le lecteur ne peut pas être surveillé car il ne se trouve pas à la même place? :)
jsmith
2
@jsmith - alors il vous envoie des notifications plutôt que de le relever d'un hôte de surveillance - il n'y a presque pas de situations où vous ne pouvez vraiment pas contrôler quelque chose, il y en a juste qui nécessitent un peu de créativité, :)
voretaq7
2

Spinrite (grc.com) lira et réécrira toutes les données du lecteur. C'est une bonne chose à faire pour un nouveau disque, même si vous n'essayez pas de le faire échouer. Cela prend beaucoup de temps pour fonctionner au niveau 4, généralement quelques jours pour les disques de taille actuelle. Je devrais aussi ajouter que c'est non destructif. En fait, si des données sont en mauvais état, elles seront déplacées et récupérées. Bien sûr, vous ne le feriez jamais sur un SSD.

Charlie
la source
1

Je suis sûr qu'une analyse comparative hebdomadaire et une vérification des erreurs suffiront pour "graver des" disques durs. Bien que depuis ton post je n'ai jamais entendu parler d'une chose pareille.

Cité de "6_6_6" sur Stroagereview.com

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

En tout, je pense personnellement que c'est une mauvaise idée.

EDIT: Scource: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/

U4iK_HaZe
la source
0

Premièrement, je suis d’accord avec d’autres affiches pour dire que votre cas d'utilisation suggère que les lecteurs de bande seront la meilleure option.

Si cela n’est pas possible, si vous devez faire voler des disques à travers le pays, un véritable RAID ne semble pas être une option, car vous devrez transporter beaucoup plus de disques, augmentant ainsi le risque de défaillance. Cependant, qu’en est-il d’un schéma de mise en miroir simple, l’envoi d’un lecteur et le maintien de l’autre sur le site source?

Ensuite, si le lecteur tombe en panne à l’arrivée, une nouvelle copie peut être créée et envoyée. Si le lecteur est en bon état à l'arrivée, le disque de secours peut être réutilisé, que ce soit pour l'envoi ou la sauvegarde des données d'origine.


la source
0

Vous n'avez pas vraiment expliqué pourquoi les disques sont expédiés. S'agit-il d'un simple moyen d'envoyer des données? Ont-ils des applications / images complètes du système d'exploitation prêtes à être démarrées sur un PC ou autre chose?

Je suis d’accord avec les autres réponses pour dire que le RAID ou les sauvegardes sont meilleurs que le scan, en raison des risques liés à l’envoi d’un disque causant des problèmes mécaniques.

Une façon plus générale d’exprimer cela serait de "s’appuyer sur des données redondantes pour détecter et corriger les erreurs" - expédier 2 disques pour chaque ensemble de données ou expédier des données redondantes sur un seul disque. Quelque chose comme Parchive vous permet d'ajouter un niveau défini de redondance aux données, ce qui permet la récupération même si une grande partie des données est corrompue. Étant donné que les disques sont relativement bon marché de nos jours, l'achat d'un disque plus volumineux que ce qui est strictement nécessaire coûtera souvent moins cher que de numériser le lecteur, d'envoyer un lecteur de remplacement ou d'envoyer 2 lecteurs.

Cela protégerait contre les défaillances non catastrophiques du lecteur. Cependant, il est toujours préférable de ne pas réutiliser un lecteur livré, à l'exception de l'expédition, comme suggéré précédemment, c'est-à-dire de le visualiser comme une bande qui doit être extraite sur un "vrai" lecteur qui est permanent. installé et non expédié n'importe où.

Cela devrait vous permettre de transmettre une grande quantité de données (ou même d'images d'application / système d'exploitation) et de réduire l'impact des erreurs de disque, quel que soit le niveau économique.

RichVel
la source