Où trouvez-vous vos données MTBF?

9

Le temps moyen entre les échecs peut être difficile à interpréter, mais il existe une multitude de méthodes statistiques que vous pouvez utiliser si vous disposez de données fiables.

Le problème est que personne ne rapporte plus ses numéros MTBF. (En dehors des fabricants de disques durs, de toute façon.)

allez - vous pour trouver les données MTBF pour les composants et les serveurs?


la source
Je suis curieux de savoir comment vous utilisez les données MTBF.
dr.pooter

Réponses:

2

Pourquoi MTBF n'a pas d'importance

Le temps moyen entre le numéro d'échec n'est pas aussi important que le taux d'erreur non corrigible. MTBF traite de la défaillance complète de la pièce, lisez le lecteur. Cependant, ce nombre n'a pas de sens lorsqu'un seul bit en erreur provoquera une panique RAID 5 et mettra en jeu le disque de secours.

Alors que le MTBF pour les disques professionnels et grand public a augmenté d'un ordre de grandeur ces dernières années, le taux d'erreur non corrigible est resté relativement constant. Ce taux est estimé à 10 ^ 14 bits, donc un bit par 12 téraoctets lus, pour les disques SATA grand public, source .

Pourquoi vous devriez perdre le sommeil sur votre matrice RAID 5

Donc, cela ne représente que 6 passes d'un tout nouveau lecteur 2 To. Combien de temps faut-il pour lire 12 To de données? Beaucoup moins de temps que le MTBF pour ce lecteur.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

Ce qui est plus préoccupant, c'est la possibilité d'un échec de double lecture sur une matrice RAID 5 composée de disques de cette taille. Avec une matrice RAID 5 de 7 1 To, la probabilité d'une seconde échec de lecture lors d'une reconstruction RAID est de 50%.

http://blogs.zdnet.com/storage/?p=162

Dave Cheney
la source
Vous pourriez toujours utiliser RAID6 peut-être?
Chopper3
3
Excellente réponse, mais ne couvre que les disques durs
Mark Henderson
@ Chopper3, oui RAID6 améliore la situation, mais une fois que vous avez dédié deux disques à la parité, et un troisième aux disques de secours, puis sur une matrice de 7 disques, vous vous rapprochez assez du même espace qu'une matrice RAID10.
Dave Cheney
Je recherche des données pour plus que des disques durs. Des serveurs entiers échouent toujours de temps en temps, il vaut donc la peine de mesurer la fréquence.
1

Il est dommage que les gens pensent que les chiffres MTBF ne s'appliquent pas aux systèmes complexes. Le vrai problème (afaik) est que les fabricants n'ont pas les chiffres MTBF pour leurs modules matériels. Ce sont des chiffres qui devraient de toute façon être disponibles. Dell a déclaré: "Dell ne répertorie plus les MTBF spécifiques pour leurs serveurs." est en fait atroce! Ils peuvent tout aussi bien dire "Eh bien, nos produits ne sont vraiment pas assez fiables pour être utilisés là où un chiffre MTBF est requis".

L'ingénieur de la fiabilité (ou le gars portant le chapeau du RE) est censé limiter la portée de l'étude de disponibilité. Ceci est souvent limité aux modules matériels.

Quant à la classification de ce qui constitue un échec ... Eh bien, c'est pourquoi nous effectuons une analyse FMECA.

Bien sûr, les systèmes sont complexes et les modes de défaillance incluent les défaillances logicielles, mais ce n'est souvent pas la portée de l'étude. Nous voulons des chiffres MTBF pour le matériel. Demandez à votre vendeur de vous le fournir. Il est de leur responsabilité technique de vous le fournir ... S'ils refusent ou passent à côté, allez quelque part qui a des serveurs de qualité télécom avec des chiffres de disponibilité obligatoires pour le matériel.

Peter
la source
Le problème lorsqu'un fournisseur doit publier le MTBF est qu'il doit le publier plus tôt qu'il ne peut collecter de données réelles. Par conséquent, ils doivent produire le MTBF par une sorte d'extrapolation. Parfois, cela peut être loin. Le pire des cas que j'ai vu était de plus de trois ordres de grandeur.
kasperd
0

J'ai vu MTBF signalé sur les sites d'assistance de l'entreprise. Discutez avec votre vendeur ou SE pour obtenir les informations.

pcapademic
la source
0

À mon avis, les numéros MTBF sont devenus un outil de vente. Le matériel moderne a atteint un état où les numéros MTBF sont essentiellement inutiles. Même le plus bas des vendeurs low-ball produit du matériel qui survit à tout cycle de mise à niveau sensible. Comme vous le constatez, personne ne rapporte les numéros MTBF. Je crois que c'est la raison.

dr.pooter
la source
Et pourtant, certains serveurs sont encore plus fiables que d'autres. Nous devons répondre à des questions telles que "un deuxième bloc d'alimentation en vaut-il la peine?" Pour cela, nous avons besoin de données. Idéalement, il s'agirait de statistiques de panne réelles signalées sur une population d'appareils similaires. Nous utilisons MTBF comme proxy faible pour cette distribution réelle.
C'est suffisant. Dans mon petit monde, l'idée de redondance est une partie attendue du processus. Pour un autre exemple, regardez la plupart des fournisseurs d'hébergement à grande échelle, ou Google. Je suggère toujours qu'étant donné le statut de marchandise des serveurs Wintel, c'est un problème en déclin. Si vous parlez de série z ou similaire, les équations et les attentes sont très différentes.
dr.pooter
0

Malheureusement, MTBF n'est pas une mesure pratique ou fiable dans les serveurs modernes. Le tout concept de MTBF est que si un modèle / configuration spécifique est utilisé par beaucoup sur une longue période, nous pouvons probablement connaître sa fiabilité.

Aujourd'hui, la plupart d'entre nous échangent volontiers une fiabilité supplémentaire potentielle contre des performances et une efficacité énergétique éprouvées. Par exemple, construiriez-vous vos nouveaux serveurs sur du matériel âgé de 18 à 24 mois simplement parce qu'il a prouvé sa fiabilité? ou tout simplement aller avec la dernière génération de processeurs avec plus de cœurs, de puissance et d'efficacité énergétique?

De plus, contrairement aux systèmes de téléphonie à l'ancienne, les systèmes sont assez personnalisés et, bien sûr, fortement tributaires des logiciels. Quelle est la fiabilité de la version du BIOS x.xx ou de la version du pilote y.yyy? Les derniers correctifs du serveur OS / DB / app augmentent-ils la stabilité ou ont-ils des régressions de stabilité? Combien de serveurs dans le monde utilisent réellement le même mélange exact de version matérielle / pile que vous?

Si vous avez besoin d'une haute disponibilité, vous devrez de toute façon ajouter de la redondance à votre système (double-tout, clustering, hot spare, DRP, etc.). Ainsi, la fiabilité relative de chaque composant matériel n'est généralement pas un facteur important, car vous construisez votre infrastructure pour survivre aux défaillances de composants uniques. Vivez avec l'incertitude (la fiabilité est rétroactive) et planifiez en conséquence.

Ofir Manor
la source
Le problème des configurations en constante évolution est réel. Cela rend difficile la constitution d'un corpus d'expérience avec un seul point de configuration. Néanmoins, si vous prévoyez une haute disponibilité, même avec une configuration redondante, vous devez avoir une certaine idée de la fiabilité des appareils individuels.
Il semble qu'il n'y ait aucun espoir que l'informatique devienne un jour une science. Nous continuons à travailler sur des hypothèses, pas de données fiables et un gaspillage de ressources. Plus comme la magie noire qu'autre chose de nos jours. L'ingénierie semble un objectif lointain.
Giovanni Tirloni
0

Je suis d'accord avec la plupart des autres réponses: les numéros MTBF ne me sont pas utiles et je ne les vérifie jamais.

La seule exception concerne les disques durs, mais même là, je ne regarde que MTBF de manière très approximative, en étant sûr d'acheter les disques "de classe serveur" les plus fiables s'il y a un choix.

Quartier - Réintégrer Monica
la source