Temps moyen entre les pannes - SSD

32

Le temps moyen entre les défaillances , ou MTBF, de ce disque SSD est indiqué en 1,500,000heures.

Cela fait beaucoup d'heures. 1,500,000heures est à peu près 170années. Puisque l’invention de ce SSD particulier remonte à l’après-guerre civile, comment savent-ils ce qu’est le MTBF?

Quelques options qui ont du sens pour moi:

  • Newegg a juste une faute de frappe
  • La définition du temps moyen entre les échecs n’est pas ce que je pense
  • Ils utilisent un type d'extrapolation statistique pour estimer ce que serait le MTBF.

Question:

Comment le temps moyen entre pannes (MTFB) est-il obtenu pour les disques SSD / HDD?

OSE
la source
Connexes: serverfault.com/q/257693/126632
Michael Hampton

Réponses:

34

Les fabricants de disques spécifient la fiabilité de leurs produits en fonction de deux mesures connexes: le taux de défaillance annualisé (AFR), qui correspond au pourcentage de disques dans une population qui échouent dans un test échelonné sur une estimation annuelle; et le délai moyen avant défaillance (MTTF).

L’AFR d’un nouveau produit est généralement estimé sur la base de tests accélérés de durée de vie et de résistance ou sur la base de données de terrain issues de produits antérieurs. Le MTTF est estimé en divisant le nombre d’heures de mise sous tension par an par le RFA. Une hypothèse courante pour les lecteurs dans les serveurs est qu'ils sont alimentés 100% du temps.

http://www.cs.cmu.edu/~bianca/fast/

Un MTTF de 1,5 million d’heures semble quelque peu plausible.

Ce serait à peu près un test avec 1000 disques fonctionnant pendant 6 mois et 3 disques en panne.
L’AFR serait de (2 * 6 mois * 3) / (1 000 disques) = 0,6% par an et le MTTF = 1 an / 0,6% = 1 460 967 heures ou 167 ans.

Une autre façon de voir ce nombre est de 167 lecteurs et de les laisser fonctionner pendant un an. Le fabricant affirme qu'en moyenne, un lecteur tombe en panne.

Mais je m'attends à ce que ce soit simplement le taux de défaillance mécanique / électronique «aléatoire» constant.

En supposant que les taux d’échec suivent la courbe de la baignoire , comme mentionné dans les commentaires, l’équipe marketing du fabricant peut modifier un peu les chiffres de fiabilité, par exemple en n’incluant pas DOA (unités mortes à l’arrivée, unités ayant passé le contrôle de qualité mais échouant lorsque l’utilisateur final les installe) et étire la définition de DOA pour exclure également ceux qui se trouvent dans le pic de défaillance précoce. Et parce que les tests ne sont pas effectués assez longtemps, vous ne verrez pas non plus les effets de l'âge.

Je pense que la période de garantie est une meilleure indication de la durée pendant laquelle un fabricant s'attend vraiment à ce qu'un SSD dure!
Cela ne sera certainement pas mesuré en décennies ou en siècles ...


La fiabilité associée au nombre fini de cycles d'écriture que les cellules NAND peuvent prendre en charge est associée au MTBF. Une métrique commune est la capacité d'écriture totale, généralement exprimée en To. Outre les autres exigences de performance, il s'agit d'un limiteur important.

Pour permettre une comparaison plus pratique entre différentes marques et des disques de tailles différentes, l'endurance en écriture est souvent convertie en capacité d'écriture quotidienne en fraction de la capacité du disque.

En supposant qu'un disque dur ait la durée de vie requise tant qu'il est sous garantie:
un disque SSD de 100 Go peut avoir une garantie de 3 ans et une capacité en écriture de 50 To:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Plus ce nombre est élevé, plus le disque est adapté aux E / S intensives en écriture.
Pour le moment (fin 2014), les disques SSD de la gamme de serveurs de valeur ont une valeur de 0,3 à 0,8 disque / jour, le milieu de gamme augmente régulièrement de 1 à 5 et le haut de gamme semble voler en flèche avec des niveaux d'endurance en écriture allant jusqu'à 25. * la capacité de disque par jour pendant 3-5 ans.

Certains tests dans le monde réel montrent que les revendications des fournisseurs peuvent parfois être largement dépassées, mais le fait de dépasser largement les limites fixées par les fournisseurs ne tient pas toujours compte de l'entreprise. Achetez plutôt des lecteurs correctement spécifiés pour vos besoins.

HBruijn
la source
1
Notez que la conversion de AFR en MTTF suppose un AFR constant. Cela n’est absolument pas vrai pour les éléments comportant des pièces mobiles (par exemple, les disques durs) et peut-être pas pour les SSD.
Mark
Définitivement vrai. IIRC, il ya un pic d’échec précoce, puis une période de faible taux d’échec et ensuite une augmentation constante de l’AFR avec l’âge. Ajoutez des facteurs environnementaux changeants et le nombre du monde réel devient beaucoup plus élevé. Comme @Chris S l'a mentionné, la période de garantie pourrait être une meilleure mesure ayant un impact utile sur le monde réel.
HBruijn
Très bon point de vue qui fait penser qu’un temps MTBF de 1 500 000 heures signifie vraiment "Si j’ai 1000 DSS comme celui-ci, 3 risquent d’échouer dans les 6 mois (certains même plus tôt que cela) ...". +1 (et comme les tests durent peu de temps, attendez-vous à ce que la durée de vie de ceux-ci ne dépasse pas trop la garantie ... le "MTBF" perdra probablement beaucoup lorsque votre conduite atteindra N ans)
Olivier Dulac
1
@HBruijn Merci pour votre réponse informative. Le phénomène auquel vous faites référence (pic de défaillance précoce, période de faibles défaillances, puis augmentation régulière du nombre de défaillances) est décrit par la courbe de la baignoire .
OSE
19

Malheureusement, le MTBF n'est pas ce que la plupart des gens pensent ...

  • Ce n'est pas combien de temps durera un lecteur individuel.

    Les fabricants s'attendent à ce que leurs disques durent aussi longtemps que la garantie, après quoi ce n'est plus vraiment leur problème. Les anciens disques durs à plateau électromagnétique vont se gripper après une dizaine d’années. Les circuits intégrés durent très longtemps, mais d'autres composants (notamment les condensateurs) s'usent après un nombre de cycles assez prévisible.

  • Il est combien de ces disques que vous devrez attendre 1 disque à l' échec toutes les heures.

    Comme d'autres l'ont souligné, les fabricants effectuent divers tests sur une période de temps raisonnable et déterminent le taux d'échec. Il y a beaucoup de variations dans ces types de tests et le marketing a souvent une "contribution" quant à ce que devrait être le nombre final. Indépendamment de leur capacité à deviner le nombre de disques nécessaires pour obtenir une défaillance moyenne par heure.

    Pour les situations avec moins de disques, vous pouvez déduire une probabilité statistique de panne basée sur le MTBF, mais gardez à l’esprit que les pannes de produits bien conçus doivent suivre une courbe en "baignoire" , ce qui représente des taux de défaillance plus élevés lors de la mise en service initiale et après. leur période de garantie a expiré, avec des taux d'échec plus bas entre les deux.

Chris S
la source
2

Ils proviennent d'une évaluation statistique basée sur un petit échantillon et une courte période. Il n'y a pas vraiment de méthode ou de processus universellement convenu, donc c'est vraiment du "marketing" idiot.

Cet article peut l'expliquer un peu plus. Et Wikipedia a des formules qui pourraient être ce que vous cherchez?

Pour l'essentiel, pour presque tout (y compris les machines domestiques standard telles qu'un lave-vaisselle), plusieurs produits sont exécutés pendant une durée X. Le nombre d'échecs survenus pendant cette période est utilisé pour calculer le MTFB.

Il est bien entendu impossible de gérer des produits tout au long d’un cycle de vie, c’est-à-dire des disques SSD, qui dureront longtemps. Ils sont principalement limités par le nombre d'écritures plutôt que par des défaillances mécaniques (c'est ce à quoi MTFB est destiné)

bhavicp
la source
2

La mauvaise nouvelle à propos de MTBF est que les méthodes d'évaluation courantes supposent une charge d'écriture uniformément répartie entre toutes les cellules NAND. Mais les cellules sont regroupées dans les grappes et lorsqu'une seule cellule tombe en panne, toute la grappe est marquée comme morte et remplacée par une nouvelle de la réserve. Habituellement, la réserve représente environ 20% du volume du disque SSD. Lorsque la réserve est épuisée, tout le disque SSD sera marqué comme mort.

IRL SSD contient des données persistantes et volatiles. Imaginez que 90% des disques SSD soient remplis avec des données statiques et que le reste, soit 10%, soit soumis à une charge d'écriture importante. Le contrôleur SSD répartit la charge entre les clusters libres disponibles. Que 10% épuisent leur durée de vie 10 fois plus vite que vous ne l’avez estimé. Ils seront remplacés de la réserve encore et encore jusqu'à la fin.

Dans le très mauvais cas où la quantité de données persistantes / volatiles est de 30: 1 ou plus, par exemple - une pile de photos et une base de données relativement petite pour un site Web populaire, votre disque SSD mourra dans un an.

Un de mes clients a été très impressionné par les caractéristiques des disques SSD et a insisté pour équiper son serveur de SGBD de deux. Au cours des 12 prochains mois, nous avons remplacé les deux à deux reprises.

Mais en conséquence, la durée de vie des supports marketing des disques SSD est de 170 ans. Sûr.

Kondybas
la source
1

MTBF n'est pas pertinent pour mesurer l'endurance d'un disque SSD, car le disque SSD n'est pas sensible au temps lui-même, contrairement au disque dur à rotation ordinaire, mais au nombre de réécritures pour les cellules SSD. La mesure DWPD (Drive Writes Per Day) est une mesure plus pertinente pour les disques SSD . Par exemple, certains disques SSD de classe entreprise auront une autonomie de 3,2 To, soit 3 DWPD pour 5 ans.

Parfois, les fournisseurs de SSD offrent une endurance en termes de (cycles) d'écriture (total) de téraoctets (TBW) pouvant être facilement traduits en DWPD et vice-versa en connaissant le temps et le débit maximum pour le lecteur SSD donné.

Pour l'exemple donné avec un lecteur SSD de 3,2 To:
TBW = TailleDisque * Années * DWPD;
TBW = 3,2 To * 5 * 365 * 3d = 17520 To pour 5 ans

Si le lecteur fournit un débit d'écriture durable de 80 Mo par seconde,
WriteCycles = DWPD * Years;
WriteCycles = 3 * 365 * 5 = 5475 cycles d'écriture totaux pour le disque donné

Il est important de noter que nous calculons le pire des cas si vous fournissez un débit d’utilisation de 100% pour le lecteur (ce qui est très probablement impossible).

BBK
la source