- Carte mère: GA-B85M-DS3H-A
- Processeur: Core i5 4430
- RAM: PNY XLR8 DDR3 32 Go (4x8 Go) 1600 MHz (MD32768K4D3-1600-X9)
- PSU: EVGA 500 W1 80+
Le problème
Avec les 32 Go de RAM installés, le système échoue systématiquement à MemTest86 + 6.2. L'échec se produit toujours lors de la première passe et les erreurs atteignent rapidement des millions d'erreurs. Tenter d'exécuter Windows entraîne des redémarrages aléatoires et des erreurs d'arrêt (comme on pourrait s'y attendre avec des erreurs de RAM).
Ce que j'ai essayé
- Testez un seul module PNY de 8 Go dans le socket DIMM1. Effectue avec succès 4 passes de MemTest.
- Testez un seul module PNY de 8 Go dans le socket DIMM2. Effectue avec succès 4 passes de MemTest.
- Testez un seul module PNY de 8 Go dans le socket DIMM3. Effectue avec succès 4 passes de MemTest.
- Testez un seul module PNY de 8 Go dans le socket DIMM4. Effectue avec succès 4 passes de MemTest.
- Testez les quatre modules DIMM PNY de 8 Go séparément, individuellement, dans le support DIMM1. Tous les modules ont réussi 4 passes de MemTest.
- Testez deux modules PNY de 8 Go dans les sockets DIMM1 et DIMM2. Effectue avec succès 4 passes de MemTest.
- Testez deux modules PNY de 8 Go dans les sockets DIMM3 et DIMM4. Effectue avec succès 4 passes de MemTest.
- Testez la carte mère avec quatre barrettes DIMM de 2 Go dans toutes les sockets. Effectue avec succès 4 passes de MemTest.
- Échangez l'ordre des modules DIMN PNY dans les supports. Pas de changement - des erreurs MemTest se produisent toujours.
- Augmentez la tension de la RAM de la carte mère de 1,5 V à 1,65 V. Pas de changement - des erreurs MemTest se produisent toujours.
- Jouez avec différentes combinaisons des paramètres manuels de la RAM dans l'utilitaire de configuration - activation / désactivation du profil XMP, définition du préréglage "stabilité accrue", etc. Aucun changement, les erreurs MemTest se produisent toujours.
Je pense que je peux sans risque exclure la mauvaise RAM et les mauvaises sockets RAM. La seule fois où les tests MemTest échouent est si les quatre modules de 8 Go sont installés simultanément.
J'ai mesuré les tensions sortant de l'alimentation et tout y semble stable même avec les quatre bâtons installés.
Au moment où j'écris ceci, j'ai essayé une option de dernier recours de réduire manuellement la vitesse de la RAM à 1066 MHz dans le BIOS. Jusqu'à présent, MemTest a terminé une passe et en est à sa deuxième sans erreur. (Tous les tests ci-dessus ont été effectués à la vitesse RAM native de 1600 MHz.) Cela peut me permettre d'utiliser le système, bien qu'avec des vitesses RAM légèrement plus lentes, mais cela ne semble pas être une solution permanente.
Chaque fois que des erreurs MemTest se produisent, elles se produisent toujours à la même position exacte sur le bus d'adresse 64 bits:
Bit Error Mask: 00000000FF000000
De plus, des erreurs ne se produisent JAMAIS sous la barrière de 4 Go. En d'autres termes, toutes les erreurs se produisent dans l'espace d'adressage entre 4 Go et 32 Go.
Je déduis que c'est une sorte d'étrange interaction ou problème de synchronisation avec le CPU et la RAM et la carte mère, car les erreurs sont très cohérentes, ne se produisent que dans une configuration spécifique, semblent être atténuées en ralentissant la RAM, et se produisent uniquement au-dessus de la barrière de 4 Go. Ma question est: est-il plus probable que mon processeur ou ma carte mère soit le coupable?
J'avais l'intention de mettre à niveau cette machine vers un Core i7-4790K, donc si le CPU est probablement le coupable (je sais que le contrôleur de mémoire est sur le CPU dans ces nouveaux modèles), alors ça marche bien parce que je prévois de mettre à niveau de toute façon, mais je me demande s'il y a une chance que la carte mère elle-même puisse également faire partie du problème. c'est-à-dire que je ne voudrais pas dépenser de l'argent sur le CPU i7 uniquement pour rencontrer exactement le même problème et découvrir que je dois également remplacer la carte mère ...
Conseil?
EDIT: La vitesse de RAM plus lente a toujours produit des erreurs, mais seulement une fois que le test a atteint la troisième passe. J'ai redémarré le test avec un seul processeur actif juste pour tester une interaction sur le processeur lui-même.
la source
Réponses:
Cela ne ressemble pas à un composant défectueux, vous utilisez plutôt une combinaison incompatible.
Le fait d'avoir plusieurs sockets sur le même bus mémoire rempli augmente la capacité sur chaque ligne de données et ralentit le temps de montée, ce qui peut provoquer des transitions tardives et des erreurs de détection. Ce phénomène est connu des ingénieurs électriciens sous le nom de "fan-out".
Cela est encore plus compliqué en raison du fan-out interne à un module de mémoire. Le nombre et la topologie des périphériques DRAM sur le module, appelés "rang", affecteront le nombre de modules que vous pouvez connecter avec succès en parallèle.
Les cartes mères de serveur prenant en charge de nombreux supports de mémoire nécessitent en fait une mémoire tampon, qui utilise un réseau de tampons en cascade pour limiter le fan-out (et donc la capacité) vu par chacun. Il y a un retard causé par les tampons eux-mêmes, mais il n'augmente que logarithmiquement avec le nombre de charges, tandis que pour la capacité de mémoire non tamponnée, augmente linéairement.
Wikipédia en parle: https://en.wikipedia.org/wiki/Memory_rank
Certains manuels de carte mère appellent en fait ce genre de chose. Pour d'autres, vous pouvez déduire les informations des listes de compatibilité RAM. Par exemple, la carte mère ASUS Z170-A montre que le double rang (appelé DS = double face dans le manuel) ne peut être utilisé que dans deux emplacements à la fois sur cette carte, contrairement à la possibilité d'utiliser quatre barrettes DIMM à un rang à la fois .
la source
Cela ressemble à un problème dans le contrôleur de mémoire intégré du processeur .
Dans les systèmes modernes, les cartes mères ne jouent pas vraiment un rôle dans la gestion de la mémoire au-delà de fournir simplement un chemin entre les modules de mémoire et le processeur. La mémoire est directement connectée au processeur pour minimiser la latence; le " northbridge " qui connecte la mémoire au processeur dans les anciens systèmes fait désormais partie du processeur lui-même. (Le micrologiciel ou PCH peut contrôler la façon dont le processeur exécute la RAM, mais cela n'a pas de sens de provoquer des erreurs binaires du type que vous décrivez car c'est en fin de compte la responsabilité du processeur.) Par conséquent, la toute première chose que je '' d suspect dans une situation comme celle-ci est un IMC défectueux.
En fait, je serais très surpris si la carte mère ou le firmware du système était à blâmer pour les problèmes que vous rencontrez.
la source
Je vois de mauvaises critiques pour le BIOS sur cette carte mère. Je commencerais par vérifier une mise à jour du BIOS. Ne lésinez jamais sur la carte mère.
la source
Il est possible que la RAM soit également défectueuse, même si elle ne semble pas l'être. J'ai eu un problème récent avec mon serveur domestique impliquant un incident fatal avec du thé glacé ...
J'ai suivi tout le processus de remplacement de chaque partie individuellement (2 processeurs, mobo, alimentation et 2 banques de 16 Go (2x8 Go) de RAM) et tout a bien fonctionné lorsque je viens d'utiliser une seule banque de RAM avec un seul processeur (sauf pour 1 CPU qui était toast).
Peu importe la configuration que j'utilisais, cela fonctionnait toujours lorsque j'avais un seul processeur et une seule banque de RAM (que ce soit 16 Go ou 32 Go de RAM), mais quand j'installe le 2e processeur et divise la RAM pour qu'elle soit de 16 Go par banque, le serveur n'a pas pu démarrer.
Ce n'est que lorsque j'ai remplacé complètement une banque de RAM qu'elle a finalement démarré et a fonctionné correctement, et ce depuis lors.
tl; dr : Comme @moab l'a déclaré dans son commentaire, vous ne pouvez jamais en être certain tant que vous n'avez pas testé tous les composants d'un système compatible
la source