MTTF (Mean Time to Failure): lorsque les fabricants de disques publient ce message, comment interpréter leurs nombres?

10

Le temps moyen avant défaillance (MTTF) est généralement donné en termes d'heures, et en faisant quelques calculs, il semble qu'un disque tombe en panne seulement après un bon nombre d'années se sont écoulées.

Il semble que les disques ont besoin de réparations plus souvent que cela. Est-ce que quelqu'un sait pourquoi c'est ainsi?

J'ai pensé qu'il y avait quelque chose de louche dans cette métrique. Est-ce qu'interpréter quelque chose de mal ici?

hard-drive hardware-failure statistics hard-drive-failure Kaitlyn Mcmordie
la source

14

Tout d'abord:

MTTF = Temps moyen avant défaillance
MTTR = Temps moyen de réparation
MTBF = Temps moyen entre défaillances = MTTF + MTTR

Le MTBF est souvent plus ou moins égal au MTTF, car la réparation peut prendre une heure, et le MTTF peut durer des dizaines de milliers d'heures. Cependant, le MTBF est souvent non applicable, car les produits défectueux ne sont pas réparés, mais simplement remplacés, car la réparation coûte plus cher que le remplacement.

Le calcul MTTF est une méthode statistique complexe consistant à calculer les probabilités de défaillance de chaque pièce. Et ce n'est pas une chose linéaire comme le présument parfois les gens. Si vous avez un MTTF de 1000 000 heures, cela ne signifie pas qu’un échec surviendra après 1000 heures ou que vous obtiendrez une défaillance de 1 000 000 appareils au bout d’une heure.
De nombreux appareils électroniques suivent la "courbe de la baignoire" ,

entrez la description de l'image ici

là où il y a beaucoup d'échecs au début, puis longtemps sans presque aucun échec et vers la fin de la vie, le nombre d'échecs augmente de nouveau. Sur les disques durs, certaines pièces mécaniques présentent une courbe de défaillance plus linéaire; cela augmente lentement à partir du jour 1.

Si le fabricant indique par exemple 1000 000 heures MTTF (le plus souvent POH ou Power-On Hours), cela signifie qu'en moyenne, le lecteur devrait durer plus de 100 ans. Certains disques dureront plus longtemps, d'autres échoueront plus tôt. Ainsi, malgré les 1000 000 heures, il est parfaitement possible d’avoir une défaillance après 1000 heures. Une fois, une voiture a échoué au bout d’une semaine, puis il faut repenser à la courbe de la baignoire. Le disque de remplacement tourne joyeusement depuis plus de 50 000 heures.

stevenvh
la source

3

Il est intéressant de noter que les premiers échecs sont souvent appelés burn-in. Les fabricants dont le nombre de défaillances initiales est beaucoup moins élevé font souvent fonctionner les périphériques au cours de leur phase de rodage. De plus, cette électronique pure ne présente pas de période d'usure et seulement une combustion.

Kortuk

1

Notez que lorsque vous calculez le MTTF (ou le MTBF), vous utilisez généralement une seule distribution pour modéliser les échecs. Par conséquent, le calcul est basé sur la répartition de la "mortalité infantile", de la "vie normale" ou de "l'usure en fin de vie". La seule chose qui distingue ces trois distributions est le paramètre de forme de Weibull, si vous utilisez Weibull comme distribution de base. Les seuls cas dans lesquels les défaillances sortiraient de la distribution "vie normale" sont ceux où le temps n'aurait aucun effet sur le taux de défaillance, et donc la distribution serait exponentielle.

2

MTTF est principalement utile pour indiquer le type de vie à laquelle vous pouvez vous attendre du périphérique ou du widget. Pour des raisons évidentes, il ne peut s'agir d'une prédiction exacte de la date de défaillance de l'appareil. Ce n'est qu'une estimation basée sur l'analyse statistique des données disponibles et ne doit être considéré que comme tel. Utile pour la budgétisation (combien de temps dois-je amortir ou amortir les coûts ici) et pour la planification (combien de temps pouvons-nous attendre du widget avant d'avoir à obtenir le suivant).

music2myear

Tout d' abord, qu'est - ce exactement est une « défaillance du disque »?

Kaitlyn Mcmordie

2

@ Kaitlyn - Je suppose que vous faites référence aux mauvais secteurs. Je dirais qu'une défaillance de disque survient lorsque vous ne pouvez plus lire ou écrire sur le lecteur. Habituellement, une erreur mécanique, comme un accident de la tête. Cela se produit généralement quand il vous reste encore beaucoup de bons secteurs.

Steven

4

Si un MTBF d’une pièce d’équipement est utilisé 1 000 000 heures, cela ne signifie pas qu’une pièce d’équipement peut durer 1 000 000 heures. Cela signifie plutôt que, si environ 1 000 000 d’équipements entrant dans leur durée de vie nominale sont exploités chacun pendant une heure, ou 100 000 appareils exploités pendant dix heures (mais toujours dans leur durée de vie nominale) ou 60 000 000 par minute, etc. il y aura environ un échec dans le lot. Notez que la durée de vie nominale du service est entièrement orthogonale à MTBF. Considérez les deux types de widgets suivants:

Chaque widget, quel que soit son âge, a 0,1% de chances d’échouer toutes les heures.
Sur un milliard de widgets, tous sauf un fonctionneront exactement 61 minutes avant de mourir; celui-là mourra après 30 minutes; les widgets ont une durée de service spécifiée de 60 minutes.

Le premier type de widget aurait une durée de vie moyenne d’environ 1 000 heures et un MTBF d’environ 1 000 heures. La seconde aurait une durée de vie moyenne de 61 minutes, mais un MTBF de 1 000 000 000 d’heures au cours de sa vie utile. Bien qu'il puisse sembler étrange de dire que le second appareil a un MTBF presque milliards de fois plus long que la durée de vie attendue, le MTBF est loin d’être dénué de sens.

Supposons que l’on fasse une expérience nécessitant que 1 000 000 appareils fonctionnent parfaitement pendant une heure, après quoi ils seront tous mis au rebut. Si un périphérique échoue, toute l'expérience sera ruinée. Ce qui serait plus utile - un appareil qui durera en moyenne 1 000 heures mais dont le MTBF n’est que de 1 000 heures, ou un appareil qui dure au plus 61 minutes, mais qui n’a que une chance sur un milliard de ne pas échouer répondre à cette marque?

supercat
la source

Ainsi, le résultat final est que nous ne devrions pas voir le MTBF de 10 ^ 6 heures comme la "durée de vie moyenne" d'un disque particulier, mais plutôt comme une mesure concernant la durée de vie de plusieurs disques?

Kaitlyn Mcmordie

@ Kaitlyn Mcmordie: le terme "durée de vie" n'est pas vraiment applicable; la mort n'implique pas l'échec, ni l'inverse. Le fabricant d'un périphérique de stockage peut spécifier des procédures à suivre pour éviter la perte de données. de telles procédures peuvent inclure le déplacement de toutes les données sous forme de tout périphérique donnant une indication "panne imminente" à un nouveau périphérique (une fois les données copiées, l'ancien périphérique serait considéré comme "mort"). Si aucune perte de données ne survient d'un tel événement, il ne s'agit pas d'un échec. La perte de données qui survient à partir de n’importe quel appareil, même un appareil apparemment sain, est un échec. Rien à voir avec la vie.

Supercat

2

Ajout à la réponse de stevenvh: Les fabricants de disques bien connus effectuent tous une série de nouveaux périphériques, tout comme les fabricants de composants électroniques. Sur les disques durs, il existe non seulement un MTBF et un MTTF globaux, mais également des statistiques de pannes individuelles pour les blocs des disques. En d'autres termes: certaines parties du disque en rotation, "plateau" dans le disque peuvent échouer, alors que la majorité lit / écrit toujours ok. Les "secteurs défectueux" peuvent être détectés puis cartographiés par le microprogramme à l'intérieur du lecteur.

Aujourd'hui, tous les lecteurs contiennent des secteurs supplémentaires en réserve pouvant être utilisés à la place des secteurs défectueux. Il s’agit simplement d’une précaution du fabricant: s’ils ne le feraient pas, ils ne pourraient pas vendre le disque à la capacité déclarée. S'ils construisent une réserve supplémentaire de x% des secteurs cachés, ils augmentent les coûts d'environ <x% mais atteignent un rendement de production global beaucoup plus élevé.

Aujourd'hui, les disques contiennent un nombre de secteurs défectueux qui peuvent également être lus avec un logiciel approprié. Ce paramètre et d’autres paramètres de santé du disque (par exemple, la température) sont appelés valeurs SMART .

Maintenant, une fois que le fabricant a effectué le test de gravure du lecteur et que certains secteurs ont presque échoué et ont été remappés par le micrologiciel interne du lecteur, le paramètre SMART "Nombre de secteurs défectueux" est défini sur 0. lecteur est livré aux clients.

Habituellement, après le processus de rodage, le client n’a plus connaissance du début de la courbe de baignoire déjà mentionnée. Nous avons de la chance et constatons seulement une augmentation des probabilités d’échec au fil du temps.

Donc, si vous regardez le MTTF cité par le fabricant, vous pouvez ignorer le début de la courbe de baignoire pour toute modélisation d'échec que vous voudrez peut-être.

cfi
la source

Je vous remercie. Btw, avez-vous une idée de ce que le terme "défaillance du serveur" est censé signifier?

Kaitlyn Mcmordie

La signification évidente est une erreur rencontrée par un ordinateur qui fournit des services à d'autres. Et je crois que c'est le moment où vous êtes censé poser des questions sur serverfault.com ;-) Vous n'avez rien trouvé à ce sujet dans la FAQ

cfi

-2

Vous devriez interpréter cela comme du marketing. En réalité, ils ne connaissent pas le MTBF (temps moyen entre les défaillances), ils utilisent donc différentes astuces pour l’estimer et affichent des nombres plus élevés pour les lecteurs «entreprise» afin de justifier leur coût.

En réalité, il est avantageux pour les fabricants de disques durs de faire échouer leurs disques dès la fin de la garantie.

En tant que théorie du complot, je pense qu'une défaillance massive du Seagate 7200.11 était une erreur lors de la mise en œuvre de la «mort programmée», entraînant la défaillance des disques avant la fin de la garantie.

BarsMonster
la source

Je n'achète pas cet argument de complot.

1

@ Federico Russo: Pourquoi? Vous pensez que c'est simplement une erreur de développement habituelle, qui provoque le verrouillage des disques durs dans un état non récupérable après un certain nombre d'heures?

BarsMonster

2

-1: L'analyse statistique est utilisée pour déterminer les nombres MTBF, et elle est connue par certaines statistiques - ils n'utilisent pas simplement "diverses astuces". Vous aurez besoin de sources importantes pour confirmer vos affirmations selon lesquelles les disques d'entreprise sont juste des nombres plus élevés, que les fabricants de disques durs ont des disques en panne après la fin de la garantie et que Seagate implémente tout type de «mort programmée» dans leurs disques.

Kevin Vermeer

1

Les fabricants de disques durs ont tout intérêt à afficher un MTTF supérieur à celui de leurs concurrents. +1

jeudi

Qu'est - ce exactement est une panne de disque? Qu'est-ce qui compte pour un?

Kaitlyn Mcmordie

MTTF (Mean Time to Failure): lorsque les fabricants de disques publient ce message, comment interpréter leurs nombres?

Réponses: