Pourquoi mes disques durs tombent-ils en panne?

23

J'ai un petit serveur Ubuntu fonctionnant à la maison, avec 2 disques durs. Il y a deux raids logiciels (raid1) sur les disques, gérés par mdadm, ce qui, je crois, n'est pas pertinent, mais le mentionne quand même.

Les deux disques durs sont Western Digital et sont utilisés depuis environ 2 ans, lorsque l'un d'eux a commencé à faire des bruits de cliquetis et est mort. J'ai pensé que c'était peut-être naturel après 2 ans, alors j'en ai acheté un nouveau et j'ai resynchronisé les tableaux de raid. Après environ un mois, l'autre lecteur est également décédé.

Je ne me suis pas méfié, puisque les deux disques ont été achetés en même temps, il n'est pas surprenant de les voir l'un près de l'autre, alors j'en ai acheté un autre.

Jusqu'à présent, 2 anciens disques sont tombés en panne, et 2 neufs dans le système. Après un mois, l'un des nouveaux disques est mort. C'est alors que ça a commencé à devenir suspect. Depuis que le PC a été assemblé à partir de parties très anciennes (pensez AthlonXP), je me suis dit que peut-être le contrôleur SATA de la carte mère était le coupable. Bien sûr, vous ne pouvez pas changer facilement de pièces dans un ancien PC comme celui-ci, j'ai donc acheté un système entier, un nouveau Mo, un nouveau processeur, une nouvelle RAM. J'ai récupéré le lecteur qui venait de tomber en panne, car il était sous garantie, et je l'ai remplacé.

Il s'agit donc d'un maximum de 2 disques défectueux à partir des anciens et 1 disque défectueux à partir des nouveaux. Aucun problème, pendant 1 mois. Après cela, les erreurs remontaient dans / var / log / messages, et mdadm signalait des échecs de la baie de raid. J'ai commencé à arracher mes cheveux. Tout est nouveau dans le système, c'est jusqu'au troisième disque dur flambant neuf, il n'est tout simplement pas possible que tous les nouveaux disques que j'ai achetés soient défectueux.

Voyons ce qui est encore courant ... les câbles. D'accord, longue vue, remplaçons les câbles SATA. Reprenez le disque dur, souriez au gars au comptoir et dites que je suis vraiment malchanceux. Il remplace le disque dur. Je rentre à la maison, un mois s'écoule et l'un des disques durs tombe en panne. Je ne plaisante pas.

Deux des nouveaux disques durs sont tombés en panne. C'est peut-être un bug dans le système d'exploitation. Voyons ce que dit l'outil de test du fabricant. Téléchargez l'outil de test, gravez-le sur un CD, redémarrez, laissez le test du disque dur pendant la nuit. Le test indique que le lecteur est défectueux, et je devrais tout sauvegarder, si je le peux encore. Je ne sais pas ce qui se passe, mais cela ne ressemble pas à un problème logiciel, quelque chose écrase définitivement les disques durs.

Je dois mentionner maintenant que tout le système est dans une boîte à chaussures. Puisqu'il y a un tas de trucs "construisez votre propre étui ikea", je pensais qu'il ne devrait pas y avoir de problèmes à jeter la chose dans une boîte et à la ranger quelque part. La boîte est bien ventilée, mais je pensais que les disques surchauffaient peut-être. Il n'y a pas d'autre réponse possible à cela. J'ai donc repris le disque dur et l'ai remplacé (pour la 3e fois), et j'ai acheté des refroidisseurs de disque dur.

Et tout à l'heure, j'ai entendu le son du destin. cliquez sur cliquez sur whizzzzzzzzz . SSH dans la boîte:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

sortie dmesg:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

Résumer:

  1. Pas de possibilité de surchauffe
  2. 6 disques ont échoué, 4 d'entre eux étaient neufs. Je ne suis pas sûr maintenant que les deux originaux aient été défectueux ou aient subi la même chose que les nouveaux.
  3. Il n'y a rien de commun dans le système, à part le système d'exploitation qui est maintenant Ubuntu Karmic (commencé avec Jaunty). Nouveau MB, nouveau CPU, nouvelle RAM, nouveaux câbles SATA.
  4. Non, les petits trous sur le disque dur ne sont pas couverts

Je pleure. Vraiment. Je n'ai pas le visage pour retourner au magasin maintenant, il n'est pas possible que 4 disques tombent en panne en moins de 4 mois.

Quelques idées auxquelles j'ai pensé: est-il possible que je gâche quelque chose lorsque je partitionne et resynchronise les disques? Peut-il être si mauvais qu'il détruit physiquement le lecteur? (puisque l'outil fourni par le fournisseur indique que le lecteur est endommagé) Je fais le partitionnement avec fdisk et j'utilise la même taille de bloc pour les partitions raid1 (je vérifie les tailles de bloc exactes avec fdisk -lu)

Est-il possible que le noyau Linux ou mdadm, ou quelque chose ne soit pas compatible avec cette marque exacte de disques durs, et les écrase?

Est-il possible que ce soit la boîte à chaussures? Essayez de le placer ailleurs? C'est sous une étagère maintenant, donc l'humidité n'est pas un problème non plus. Est-il possible qu'un boîtier PC normal résout mon problème (je vais me tirer dessus ensuite)? Je vais avoir une photo demain.

Suis-je simplement maudit?

Toute aide ou spéculation est grandement appréciée.

Edit : la multiprise est protégée contre les surtensions.

Edit2 : J'ai emménagé entre ces 4 mois, donc la possibilité que la cause soit de l'électricité "sale" aux deux endroits, est très faible.

Edit3 : J'ai vérifié les tensions dans le BIOS (je n'ai pas pu emprunter un multimètre), et elles semblent toutes correctes, la plus grande différence est dans le 12V, car il fournit 11,3. Dois-je m'en inquiéter?

Edit4 : J'ai mis le PSU de mon PC de bureau dans le serveur. Le BIOS a signalé des lectures de tension beaucoup plus précises, et il a également réussi à reconstruire la matrice raid1, ce qui a pris environ 3 à 4 heures, donc je me sens un peu positif maintenant. Obtiendra une nouvelle alimentation demain pour tester avec ça. En outre, en joignant l'image sur la boîte: (ignorez le 3ème lecteur)

image de boîte de malheur

K. Norbert
la source
7
pourquoi détestez-vous autant les disques durs?!
Jeff Atwood
3
C'est le contraire, ils me détestent. Avec passion.
K. Norbert
4
WishCow, si le test du lecteur s'est produit avec une alimentation feuilletée, il ne reflète que le fonctionnement du lecteur avec une alimentation feuilletée. Souvent, le matériel qui tombe en panne avec une alimentation insuffisante fonctionnera correctement lorsqu'il est alimenté correctement. Franchement, une mauvaise alimentation constitue une fraction ÉNORME de tous les problèmes matériels. Ma première action lorsque je soupçonne un mauvais composant matériel est d'essayer une alimentation électrique connue ...
Richard T
3
Une multiprise ne vous protégera que contre les surtensions; il ne vous protégera pas contre les sous-tensions. Comme indiqué par d'autres, un onduleur (au moins tout ce qui vaut son sel) «nettoiera» l'énergie sale car il fonctionnera à partir de la batterie, au lieu d'être alimenté directement par la prise.
Wayne Hartman
3
Salut WishCow, vous mettez à la terre les composants en les connectant tous ensemble avec n'importe quel matériau conducteur. Traditionnellement, les gens utilisent un "boîtier", mais vous pouvez utiliser des fils. Les lecteurs de disque ont beaucoup de trous filetés pour les vis - ce sont parfaits. La carte mère peut être un peu plus délicate car elle était destinée à être mise à la terre à travers les goujons de montage dans un boîtier. Ils font des attaches "à distance" qui ont une vis à une extrémité et des filetages à l'autre. Vous pouvez utiliser l'un d'entre eux, une vis et un écrou pour fixer à l'un des trous de montage de la carte, en gardant votre fixation de fil hors de la carte elle-même. -cont-
Richard T

Réponses:

26

Votre alimentation est-elle vieille aussi? Peut-être que son disque est trop faible ou trop puissant, ce qui provoque la panne. Si vous avez un multimètre, j'essaierais de mesurer la tension qui fonctionne sur vos disques durs et de la surveiller sur une période de temps. Un autre coupable peut être l'électricité «sale», donc un onduleur peut être en ordre afin de «nettoyer» l'alimentation entrant dans le bloc d'alimentation.

Wayne Hartman
la source
Le psu! C'est aussi vieux oui, j'essaierai d'obtenir un multimètre. J'ai oublié de mentionner, mais la multiprise est protégée contre les surtensions, au moins c'est un type spécial. Merci pour la suggestion.
K. Norbert
Une alimentation douteuse peut entraîner une défaillance des composants électriques tels que les disques durs. Le bloc d'alimentation a été la première chose à laquelle j'ai pensé lorsque j'ai lu votre message.
ConcernedOfTunbridgeWells
Va marquer cela comme accepté, jusqu'à ce que les disques durs abandonnent à nouveau, et se penchera sur la mise à la terre des composants. Merci pour le conseil!
K. Norbert
WishCow, j'espère que vous vous rendez compte maintenant que ce n'est pas la bonne réponse. Le problème est / était que vous n'avez fourni aucun motif pour les composants.
Richard T
2
Il y a de fortes chances que ce soit le bloc d'alimentation plus l'absence de mise à la terre. La tension + 12V que vous citez est très faible (en fait hors des spécifications ATX) et je sais par expérience à quel point les disques durs sont vulnérables à la basse tension - ils produisent toutes sortes d'erreurs étranges de sorte que vous pensez que votre Mo, CPU ou mémoire est en faute. Pour tous ceux qui travaillent avec des PC, cela vaut la peine de garder une bonne alimentation connue juste pour que vous puissiez vérifier qu'un problème n'est pas lié à l'alimentation.
raw_noob
14

Je suis d'accord avec les autres: le pouvoir.

Cependant, avec une touche.

TOUS les composants doivent avoir une masse COMMUNE - le châssis est typique, mais dans votre cas, qui sait! Un "terrain flottant" provoquerait cela, j'en suis sûr.

Vous voulez que tous les composants soient reliés à une seule masse ET que la masse soit reliée à la terre à partir de la terre du «réseau électrique» de votre installation. C'est important.

BTW, il est possible que tout votre ancien matériel soit encore OK! J'ai trouvé que l'équipement qui était alimenté par une alimentation feuilletée y survit parfois bien quand une alimentation appropriée est fournie.

J'espère que ça aide.

RT

Richard T
la source
Oh mon dieu, j'espère que l'ancien matériel ne fonctionne pas, car je l'ai jeté. L'outil de test a déclaré que les disques durs étaient cassés. Va essayer de remplacer le bloc d'alimentation.
K. Norbert
6
J'ai eu des problèmes de mise à la terre avec un système "sans boîtier" (toutes les pièces étaient montées sur plexy et accrochées au mur.) La solution était de faire passer un seul fil de terre du boîtier d'alimentation au boîtier de chaque appareil et à la masse de la carte mère.
Chris Nava
5

Il s'agit d'un ancien message et la question d'origine peut ne plus être pertinente pour la personne qui pose la question. Cependant, pour toute référence future aux personnes qui construisent un PC économique, l'alimentation n'est pas un problème global avec les lecteurs de disque. C'est, à mon avis professionnel en tant qu'ingénieur de mise en œuvre certifié EMC, une réponse trompeuse pour blâmer une alimentation électrique en tant que seule partie responsable étant donné que l'ordinateur est à l'intérieur d'une boîte en carton.

Les disques durs vibrent, et bien qu'il n'y ait pas de position particulière, verticale ou horizontale, qui augmente ou diminue la longévité d'un disque, il existe cependant un facteur de vibration créé par un disque dur avec des broches. Les lecteurs affichés ici sont simplement posés dans une boîte en carton. Ceci est un exemple d'ingénierie budgétaire, et les entraînements vibrants sont assis sur le côté, augmentant encore la résonance sur le plateau. Bien que ce ne soit pas une réponse en soi, des disques durs mal montés PEUVENT conduire à une défaillance du disque en raison d'un plateau vibrant qui empêche les têtes de lecture et d'écriture de toucher correctement le plateau.

L'alimentation et les alimentations bon marché sont toujours mauvaises pour les ordinateurs en général, cependant, il est peu probable que ce bloc d'alimentation ait tué les disques durs et pas d'autres composants plus sensibles de la carte. Ce système est dans une boîte en carton, donc l'ingénierie et la puissance auraient pu conduire à une panne plus catastrophique, mais pas nécessairement à sa panne de disque. C'est possible, mais pas prouvé dans ce cas.

Chaleur: la chaleur peut détruire un disque, cependant, s'il n'était pas chaud au toucher au moment de la panne, la chaleur n'est pas le coupable. Une boîte en carton n'est pas une bonne prouesse d'ingénierie pour un PC ou un serveur. Il vaut mieux boulonner vos pièces sur un bureau d'ordinateur ou un établi, au moins elles seraient mises à la terre.

RAID logiciel et disques bon marché. Compte tenu de la boîte en carton et des vieilles pièces vues sur la photo, vous semblez utiliser des lecteurs de bureau standard et un RAID doux. Les disques de bureau peuvent être placés sur un contrôleur RAID, cependant, avec l'augmentation des E / S sur le disque, les risques de panne de disque augmentent. Les disques imagés dans ce cas ne se trouvent pas sur un contrôleur RAID matériel, mais sont regroupés avec un composant logiciel sur la carte mère. Ce n'est pas idéal pour les disques durs. Cela augmente la charge de travail de votre CPU, et les RAID logiciels sont connus pour avoir des erreurs et tuer les disques durs prématurément. Il est probable que le RAID logiciel a tué ces disques par-dessus tout.

Prévention pour les futures versions: si vous lisez ceci et voyez cet ancien scénario utilisateur via une question google ou autre:

-vérifiez que vos disques sont correctement montés dans un châssis de disque dur stable. Fixez vos disques avec au moins 4 vis de disque dur ou utilisez un traîneau à disque spécial qui accompagne votre châssis.

-Assurez-vous que le débit d'air est suffisant dans votre boîtier, les disques durs d'un RAID ont généralement plus d'E / S sur le disque et seront beaucoup plus chauds que si le volume physique est monté individuellement.

-Ne pas utiliser une alimentation bon marché. Une alimentation sale tue des pièces d'ordinateur coûteuses. Assurez-vous également que votre alimentation fournit suffisamment de puissance pour gérer la charge de travail souhaitée.

-Utilisez une carte contrôleur RAID! N'utilisez jamais le RAID logiciel sur votre carte mère. Les disques RAID doux réduisent les performances du disque et augmentent les risques de pannes de disque davantage que ceux d'une carte contrôleur RAID.

-RAID en général augmente les risques de défaillance du disque en raison de l'augmentation des E / S sur tous vos volumes. Plus le pool de disques joints est grand, plus les risques de panne de disques sont élevés. Si vous RAID vos disques, utilisez toujours des disques de parité et des disques de rechange. Vous risquez de perdre vos données si vous RAID 0 2-3 disques. Si vous avez 3 disques, utilisez RAID 5! 6 disques sur RAID 5 (4 + 1) avec disque de rechange sont idéaux si vos disques sont couverts par une garantie. Si vous ne pouvez pas vous offrir plus de disques ou si vos disques sont hors garantie, n'utilisez pas RAID.

-Les lecteurs de bureau ne sont pas des lecteurs d'entreprise. Les disques de bureau sont similaires aux disques d'entreprise, mais ne sont pas conçus pour gérer d'énormes charges de travail provoquées par des contrôleurs RAID. Si vous achetez des disques de bureau de newegg et que vous les stockez en RAID sur votre carte mère, vous verrez probablement au moins une panne de disque au cours de votre première année. Plus vous faites fonctionner votre machine sur un RAID, plus les E / S sont écrites sur le disque et plus la probabilité de défaillance de votre volume est élevée. Combinez des disques bon marché avec un RAID doux de carte mère bon marché et vous aurez du mal.

Il est probable que cet utilisateur ait rencontré tous ces facteurs sur son serveur de boîte à chaussures. Une alimentation bon marché, une mauvaise circulation d'air, de vieux disques bon marché mal montés dans un châssis et une carte mère RAID douce ... tout cela augmente les risques de panne de disque.

user2809007
la source
4

Je ne peux pas imaginer comment vous avez une bonne ventilation et un bon refroidissement dans une boîte à chaussures? Vous devriez vraiment débourser les 50 ou 60 dollars pour un vrai boîtier d'ordinateur?

Les multiprises ne protègent que contre les surtensions; les problèmes courants des équipements électroniques sont la sous-tension (brunissement) et la surtension (augmentation de tension). Le bruit EMI est également courant - nous avions un ordinateur instable il y a quelque temps, ce qui s'est avéré être causé par un tapis roulant sur le même circuit (j'ai personnellement vérifié cela sans aucun doute). Cela mettrait le modem hors ligne et ferait geler le système de temps en temps.

En outre, une exposition continue au bruit et aux fluctuations de l'alimentation avec éventuellement endommager le bloc d'alimentation, au fil du temps, ce qui diminue la qualité de l'alimentation délivrée à l'électronique.

EDIT: Les fluctuations de puissance électrique peuvent être isolées sur des circuits spécifiques. Plus important encore, les appareils à forte consommation tels que les micro-ondes, les réfrigérateurs, les tapis roulants, les cuisinières et similaires peuvent avoir un impact significatif sur la qualité de l'énergie sur ce circuit. Et les choses comme les réfrigérateurs ont également un cycle continu de marche / arrêt qui, à son tour, brunit et augmente la tension sur la ligne lorsque le moteur démarre et s'éteint.

De plus, si vous êtes desservi par la même compagnie d'électricité, ils peuvent avoir des problèmes continus pour fournir une tension à travers le tableau. La fluctuation constante entre 105V et 125V aura un effet négatif sur l'électronique (si je comprends bien).

Lawrence Dol
la source
La boîte n'est pas couverte et les disques durs sont équipés de refroidisseurs. Une bonne ventilation n'est peut-être pas le terme correct ici, mais ce n'est certainement pas une surchauffe, j'ai vérifié les températures avec smartmontools. Mais si le problème est lié à l’électricité, les autres ordinateurs du ménage ne provoqueraient-ils pas certains symptômes? J'ajoute également à la question maintenant, que j'ai déménagé dans un nouvel endroit entre les 4 mois, il est donc peu probable qu'il y ait des problèmes d'électricité aux deux endroits.
K. Norbert
Après avoir déménagé, vous pouvez toujours avoir le même appareil sur le même circuit que votre ordinateur; votre PSU peut également déjà être abattu, de sorte que les dommages peuvent déjà avoir été causés. Je pense que je commencerais par obtenir un UPS de filtrage de puissance peu coûteux (environ 100 $), puis en remplaçant immédiatement le bloc d' alimentation (environ 60 $) sur l'ordinateur.
Lawrence Dol
2

Cela ressemble vraiment à des problèmes d'alimentation.

Si vous avez des surtensions, de nombreuses barrettes d'alimentation bon marché ne fonctionneront qu'une seule fois - et rien n'indique généralement qu'elles ne protègent plus.

Un bon onduleur peut aider - certains des plus haut de gamme génèrent en fait de l'énergie à partir des batteries et se rechargent en permanence, fournissant une alimentation complètement isolée. Le seul inconvénient est qu'ils peuvent être bruyants.

chris
la source
Cela ne pourrait-il pas être un problème de la sortie sur laquelle il est "en train de le bourrer"? J'aurais tendance à l'essayer d'abord quelque part dans la maison, à l'abri des voltigeurs volts et des fils dénudés.
mtone
J'ai acheté un onduleur de conditionnement d'alimentation de Costco pour 100 dollars; la batterie n'est pas grande, fournissant seulement assez pour garder mon modem Internet et mon boîtier téléphonique opérationnels, mais je l'ai acheté principalement pour conditionner l'alimentation de mon ordinateur.
Lawrence Dol
La boîte est essentiellement sous une étagère, elle n'est pas couverte et elle n'est pas à proximité d'autres appareils électriques. (à part une ps2 qui n'est même pas branchée en atm). Si c'est l'électricité, cela ne causerait-il pas aussi des problèmes avec les autres PC?
K. Norbert
Je pourrais être le courant entrant dans le bâtiment, cela pourrait être autre chose dans la maison - la proximité d'un appareil défectueux n'est pas nécessaire pour affecter le courant. Il se peut que l'alimentation soit marginale, elle est donc plus affectée par les interférences que les autres ordinateurs
Chris
2

En fait, les fabricants de disques durs n'impriment pas les informations concernant les positions de travail sur leurs disques, mais le fait de placer les disques durs sur leurs côtés est parfaitement acceptable. La dernière fois que j'ai vérifié ces informations, les disques pouvaient être positionnés à plat ou sur leurs côtés, et jusqu'à un angle de 5 ou 10 degrés par rapport à ces positions. Les poser à l'envers ou les connecteurs orientés vers le haut ou vers le bas ne sont pas des positions légales. Les connecteurs orientés vers le haut ou vers le bas étaient la meilleure position pour le transport il y a environ 15 ans. Ce sont les dernières informations que j'ai à ce sujet.

J'ai le même genre d'erreur sur un tout nouveau disque dur vert WD de 500 Go, et vos câbles SATA ressemblent exactement aux miens, et je les soupçonne mal.

Le problème de la mise à la terre n'est pas correctement une mauvaise chose, les composants doivent être mis à la terre par un montage correct sur un boîtier métallique, mais ne pas le faire ne devrait pas être un problème si tous les connecteurs et câbles sont 100% ok.

Bien sûr, une mauvaise alimentation peut faire beaucoup de mauvaises choses à l'ensemble du système, je testerais avec un nouveau PSU ASAP, de préférence avec tout monté sur un châssis décent.

Bonne chance

Sérgio Gaspar
la source
1

Je suis d'accord que le mauvais terrain est probablement le coupable. Cependant, considérez la surchauffe comme une cause possible. Si les disques sont chauds au toucher, ils sont trop chauds. Mettez un ventilateur sur eux.

Chris Nava
la source
Il y a des fans sur les disques.
K. Norbert
1

Vous pouvez vérifier s'ils ont été surchauffés en regardant les valeurs SMART. La mise à la terre du boîtier n'est pas nécessaire car de nombreux supports remplaçables à chaud sont en plastique et non mis à la terre. La mise à la terre via le câble SATA doit être suffisante. Les avoir solidement montés PEUT aider à résoudre les problèmes de vibration. La tête ne touche pas le plateau, mais monte légèrement au-dessus et un impact sur le plateau peut perturber de minuscules particules, ce qui peut éventuellement entraîner des accidents de la tête.

gars de disque
la source
0

Peut-il y avoir de gros haut-parleurs, réfrigérateurs, climatiseurs, moteurs électriques ou autres sources magnétiques à côté de votre boîte à chaussures (complètement non blindée)?

Console
la source
Malheureusement non, rien.
K. Norbert
0

Je reconnais qu'un mauvais terrain peut être la cause de votre tragédie de stockage. Cependant, je voudrais également «réparer» les disques durs plus étroitement, car les vibrations peuvent induire des dommages permanents.

pistache
la source
0

Vérifiez les répartiteurs de puissance qui divisent l'alimentation des ventilateurs du variateur. Un connecteur intermittent peut entraîner une perte d'alimentation de votre disque à un moment critique et le bloquer. Certainement besoin d'un étui pour un terrain solide entre MB, PSU et HD.

Steve
la source
-3

Je pense que le fait de tenir les disques durs sur le côté pourrait contribuer à leur échec de fonctionner correctement car dans la plupart des cas, les disques durs sont montés à plat dans leur boîtier d'ordinateur.

monstre
la source
2
Ce n'est pas la cause. Les disques durs ne se soucient pas vraiment de leur orientation.
Dan D.20