Le temps moyen entre les échecs peut être difficile à interpréter, mais il existe une multitude de méthodes statistiques que vous pouvez utiliser si vous disposez de données fiables.
Le problème est que personne ne rapporte plus ses numéros MTBF. (En dehors des fabricants de disques durs, de toute façon.)
Où allez - vous pour trouver les données MTBF pour les composants et les serveurs?
Réponses:
Pourquoi MTBF n'a pas d'importance
Le temps moyen entre le numéro d'échec n'est pas aussi important que le taux d'erreur non corrigible. MTBF traite de la défaillance complète de la pièce, lisez le lecteur. Cependant, ce nombre n'a pas de sens lorsqu'un seul bit en erreur provoquera une panique RAID 5 et mettra en jeu le disque de secours.
Alors que le MTBF pour les disques professionnels et grand public a augmenté d'un ordre de grandeur ces dernières années, le taux d'erreur non corrigible est resté relativement constant. Ce taux est estimé à 10 ^ 14 bits, donc un bit par 12 téraoctets lus, pour les disques SATA grand public, source .
Pourquoi vous devriez perdre le sommeil sur votre matrice RAID 5
Donc, cela ne représente que 6 passes d'un tout nouveau lecteur 2 To. Combien de temps faut-il pour lire 12 To de données? Beaucoup moins de temps que le MTBF pour ce lecteur.
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
Ce qui est plus préoccupant, c'est la possibilité d'un échec de double lecture sur une matrice RAID 5 composée de disques de cette taille. Avec une matrice RAID 5 de 7 1 To, la probabilité d'une seconde échec de lecture lors d'une reconstruction RAID est de 50%.
http://blogs.zdnet.com/storage/?p=162
la source
Il est dommage que les gens pensent que les chiffres MTBF ne s'appliquent pas aux systèmes complexes. Le vrai problème (afaik) est que les fabricants n'ont pas les chiffres MTBF pour leurs modules matériels. Ce sont des chiffres qui devraient de toute façon être disponibles. Dell a déclaré: "Dell ne répertorie plus les MTBF spécifiques pour leurs serveurs." est en fait atroce! Ils peuvent tout aussi bien dire "Eh bien, nos produits ne sont vraiment pas assez fiables pour être utilisés là où un chiffre MTBF est requis".
L'ingénieur de la fiabilité (ou le gars portant le chapeau du RE) est censé limiter la portée de l'étude de disponibilité. Ceci est souvent limité aux modules matériels.
Quant à la classification de ce qui constitue un échec ... Eh bien, c'est pourquoi nous effectuons une analyse FMECA.
Bien sûr, les systèmes sont complexes et les modes de défaillance incluent les défaillances logicielles, mais ce n'est souvent pas la portée de l'étude. Nous voulons des chiffres MTBF pour le matériel. Demandez à votre vendeur de vous le fournir. Il est de leur responsabilité technique de vous le fournir ... S'ils refusent ou passent à côté, allez quelque part qui a des serveurs de qualité télécom avec des chiffres de disponibilité obligatoires pour le matériel.
la source
J'ai vu MTBF signalé sur les sites d'assistance de l'entreprise. Discutez avec votre vendeur ou SE pour obtenir les informations.
la source
À mon avis, les numéros MTBF sont devenus un outil de vente. Le matériel moderne a atteint un état où les numéros MTBF sont essentiellement inutiles. Même le plus bas des vendeurs low-ball produit du matériel qui survit à tout cycle de mise à niveau sensible. Comme vous le constatez, personne ne rapporte les numéros MTBF. Je crois que c'est la raison.
la source
Malheureusement, MTBF n'est pas une mesure pratique ou fiable dans les serveurs modernes. Le tout concept de MTBF est que si un modèle / configuration spécifique est utilisé par beaucoup sur une longue période, nous pouvons probablement connaître sa fiabilité.
Aujourd'hui, la plupart d'entre nous échangent volontiers une fiabilité supplémentaire potentielle contre des performances et une efficacité énergétique éprouvées. Par exemple, construiriez-vous vos nouveaux serveurs sur du matériel âgé de 18 à 24 mois simplement parce qu'il a prouvé sa fiabilité? ou tout simplement aller avec la dernière génération de processeurs avec plus de cœurs, de puissance et d'efficacité énergétique?
De plus, contrairement aux systèmes de téléphonie à l'ancienne, les systèmes sont assez personnalisés et, bien sûr, fortement tributaires des logiciels. Quelle est la fiabilité de la version du BIOS x.xx ou de la version du pilote y.yyy? Les derniers correctifs du serveur OS / DB / app augmentent-ils la stabilité ou ont-ils des régressions de stabilité? Combien de serveurs dans le monde utilisent réellement le même mélange exact de version matérielle / pile que vous?
Si vous avez besoin d'une haute disponibilité, vous devrez de toute façon ajouter de la redondance à votre système (double-tout, clustering, hot spare, DRP, etc.). Ainsi, la fiabilité relative de chaque composant matériel n'est généralement pas un facteur important, car vous construisez votre infrastructure pour survivre aux défaillances de composants uniques. Vivez avec l'incertitude (la fiabilité est rétroactive) et planifiez en conséquence.
la source
Je suis d'accord avec la plupart des autres réponses: les numéros MTBF ne me sont pas utiles et je ne les vérifie jamais.
La seule exception concerne les disques durs, mais même là, je ne regarde que MTBF de manière très approximative, en étant sûr d'acheter les disques "de classe serveur" les plus fiables s'il y a un choix.
la source