Compte tenu du fait que de nombreux systèmes de classe serveur sont équipés de RAM ECC , est-il nécessaire ou utile de graver les modules DIMM de mémoire avant leur déploiement?
J'ai rencontré un environnement où toute la RAM du serveur est placée à travers un long processus de rodage / test de stress. Cela a parfois retardé les déploiements du système et impacté le délai de livraison du matériel.
Le matériel du serveur est principalement Supermicro , la RAM provient donc d'une variété de fournisseurs; pas directement du fabricant comme un Dell Poweredge ou HP ProLiant .
Est-ce un exercice utile? Dans mon expérience passée, j'ai simplement utilisé la RAM du fournisseur hors de la boîte. Les tests de mémoire POST ne devraient-ils pas attraper la mémoire DOA? J'ai répondu aux erreurs ECC bien avant qu'un module DIMM ne tombe en panne, car les seuils ECC étaient généralement le déclencheur du placement de la garantie.
- Brûlez-vous votre RAM?
- Si oui, quelle (s) méthode (s) utilisez-vous pour effectuer les tests?
- A-t-il identifié des problèmes avant le déploiement?
- Le processus de rodage a-t-il entraîné une stabilité supplémentaire de la plateforme par rapport à la non-exécution de cette étape?
- Que faites-vous lorsque vous ajoutez de la RAM à un serveur en cours d'exécution?
la source
Non.
Le but de la gravure dans le matériel est de le stresser au point de catalyser une défaillance d'un composant.
Faire cela avec des disques durs mécaniques obtiendra des résultats, mais cela ne fera pas grand-chose pour la RAM. La nature du composant est telle que les facteurs environnementaux et l'âge sont beaucoup plus susceptibles d'être la cause d'échecs que ne le seraient jamais la lecture et l'écriture dans la RAM (même à sa bande passante maximale pendant quelques heures ou jours).
En supposant que votre RAM est de qualité suffisante pour que la soudure ne fonde pas la première fois que vous commencez vraiment à l'utiliser, un processus de rodage ne vous aidera pas à trouver des défauts.
la source
Nous achetons des lames et nous achetons généralement un bloc raisonnablement important à la fois, en tant que tel, nous les obtenons et les installons au cours des JOURS avant que nos ports réseau ne soient prêts / sécurisés. Nous utilisons donc ce temps pour utiliser memtest pendant environ 24 heures, parfois plus si cela dure un week-end - une fois cela fait, nous pulvérisons l'ESXi de base et IP est prêt pour que son profil d'hôte soit appliqué une fois le réseau activé. Alors oui, nous le testons, plus par opportunité que par nécessité, mais il a attrapé quelques modules DIMM DOA avant maintenant, et ce n'est pas moi qui le fais physiquement, donc cela ne me prend aucun effort. J'y suis.
la source
Eh bien, je suppose que cela dépend exactement de vos processus. J'exécute TOUJOURS MemTest86 sur la mémoire avant de le mettre dans un système (serveur ou autre). Une fois le système opérationnel, les problèmes causés par une mémoire défectueuse peuvent être difficiles à résoudre.
Quant à la «mise à l'épreuve» de la mémoire; Je n'ai même pas encore vu pourquoi cela serait utile à moins que vous ne testiez à des fins d'overclocking.
la source
Non, mais j'ai vu des gens qui le font. Je ne les ai jamais vus en tirer quoi que ce soit, je pense que cela pourrait être une gueule de bois ou une superstition peut-être.
Personnellement, je suis comme vous en ce sens que les taux d'erreur ECC me sont plus utiles - en supposant que la RAM n'est pas DOA mais vous le sauriez de toute façon.
la source
Pour un ram non ECC, exécuter 30 minutes sur memtest86 + est utile car il n'y a généralement pas de méthode fiable pour détecter les erreurs de bits lorsque le système est en cours d'exécution.
Le filtrage bleu n'est pas considéré comme une méthode fiable ...
Et la RAM légèrement squameuse n'apparaît pas immédiatement immédiatement, seulement après que le système a vu une charge de mémoire complète et seulement si les données dans cette RAM étaient du code qui a été utilisé et puis s'est écrasé. La corruption des données peut passer inaperçue pendant de longues périodes.
Pour le ram ECC, il ne fera rien que le contrôleur de mémoire lui-même ne fera donc pas vraiment de sens. C'est juste une perte de temps.
D'après mon expérience, les gens qui insistent pour brûler sont généralement de vieux gars qui l'ont toujours fait comme ça et qui continuent de le faire par habitude sans vraiment penser que les choses sont vraies.
Ou ce sont des jeunes gars suivant la procédure prescrite écrite par ces vieux gars.
la source
Ça dépend.
Si vous déployez 50000 nouvelles RAM et que vous savez que ce matériel particulier a un taux de défaillance de 0,01% après avoir fonctionné moins d'une journée, statistiquement, il doit y en avoir plusieurs qui échoueront le premier jour. Le fait de brûler est censé attraper cela. Avec des déploiements à cette échelle, un échec est prévu, pas une situation exceptionnelle.
Si vous ne déployez que quelques centaines d'articles, les statistiques sont probablement de votre côté, car vous ne devez pas avoir de chance d'obtenir des pièces défectueuses.
la source