L'importance de la mémoire ECC

11

Les modules de mémoire ECC sont-ils importants à avoir sur un serveur non critique?

Je pensais me procurer un serveur dédié aux jouets pour beaucoup de choses aléatoires et non critiques. Les redémarrages sporadiques ne sont pas un gros problème. Je regarde un fournisseur mais les prix sont incroyablement bon marché. Leur matériel sonne comme une blague pour n'importe quelle boîte de serveur sérieuse: processeurs de bureau, RAM non-ECC, châssis sans nom, pas de disque dur SATA hotswap, etc. (enfin, le prix le justifie, je suppose).

Je prends la mémoire ECC pour acquise sur n'importe quel serveur "sérieux", donc je me demande si c'est un gros problème ou non pour les appareils "jouets".

PJK
la source
3
Vous vous interrogez sur la mémoire ECC mais semblez heureux d'utiliser des disques SATA. Très étrange.
John Gardeniers
3
@JohnGardeniers Vous voyez, même si cela signifie un disque dur mort une fois par an, cela ne me dérange pas quelques heures de temps d'arrêt et de récupération de raid. Mais avoir des ennuis quotidiens / hebdomadaires serait ennuyeux. Oui, je suis en fait plus préoccupé par mes loisirs que par mon temps de disponibilité dans ce cas ...
PJK
6
@JohnGardeniers: Les disques SATA ne sont pas plus fiables que les disques durs SCSI / SAS: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Hubert Kario

Réponses:

11

Les données publiées par le personnel informatique du CERN ( Data Integrity ) suggèrent que le nombre d'erreurs provenant de la RAM est assez faible. Vous devez encore pondérer vos données et le coût du matériel.

Vous pouvez en lire un peu plus à ce sujet sur StorageMojo .

Hubert Kario
la source
10

La RAM ECC permet essentiellement d'éviter les erreurs qui se produisent lors de la lecture et de l'écriture à partir de la RAM. Le risque qu'il y ait effectivement une erreur est assez faible, mais non nul. Je dirais que si vous ne faites pas de choses essentielles à la mission, vous pourriez vous en sortir sans RAM ECC - comme je l'ai dit, les chances de rencontrer une erreur qu'ECC empêcherait sont vraiment, vraiment minimes.

BenGC
la source
6

Qu'est-ce qu'un serveur non critique? Celui qui peut échouer?

La RAM ECC est fondamentale lorsque la fiabilité de la mémoire est fondamentale.

Deux choses grandissent avec la croissance des tailles de mémoire:

  • la dépendance des logiciels sur la mémoire, en particulier. logiciel serveur (prendre par exemple la mise en cache)
  • la probabilité d'erreur de mémoire (p = num_bits * p_bit_failure)

Cette présentation d'Intel sur ECC rapporte ces faits:

  • Le taux moyen d'erreur de mémoire pour un serveur avec 4 Go de mémoire fonctionnant 24h / 24 et 7j / 7 est de 150 fois par an
  • ~ 4000 erreurs corrigibles par module de mémoire par an
  • L'overclocking et l'âge du système augmentent considérablement les taux d'échec
  • Les défaillances récurrentes sont courantes et se produisent rapidement (97% surviennent dans les 10 jours suivant la première défaillance) => effet d'avalanche
  • Pour un serveur ECC avec une durée de vie de 3 à 5 ans, le risque d'erreur de mémoire non corrigible de défaillance du système est inférieur à 0,001%

Une autre recherche récente de WISC montre que l'ECC est essentiel pour ces systèmes ZFS:

ZFS n'a aucune précaution pour les corruptions de mémoire: les blocs de données défectueux sont retournés à l'utilisateur ou écrits sur le disque, les opérations du système de fichiers échouent et plusieurs fois le système entier se bloque.

Il est important de noter que d'autres systèmes de fichiers sont tout aussi sensibles à cette forme de corruption de données que ZFS.

ECC est ce qui vous évite de rencontrer ces problèmes, lorsque cela est possible, et dans les cas désastreux, ce qui vous avertit que cela se produit avant qu'il ne soit trop tard.

michele
la source
1

Ce n'est tout simplement pas si important. Si vous aviez besoin d'une disponibilité de 99,999%, vous vous en inquiéteriez. En dehors de cela, vous redémarrerez plus souvent que vous n'obtiendrez des erreurs de mémoire.

Jim B
la source
1

Cette étude réalisée par Google en 2009 a révélé un taux d'erreur compris entre 25000 et 70000 erreurs par milliard d'heures d'utilisation par mégabit. Cela signifie que pour 8 Go de RAM (utilisée), il y avait environ 1,7 à 4,8 erreurs par heure.

Les bitflips sont quelque chose qui existe et ne doivent pas être ignorés dès que l'intégrité des données est importante.

Dans votre cas (des choses aléatoires et non critiques), ce serait probablement exagéré.

bl4x1
la source