Les tests RAM ne sont pas cohérents - quel est le coupable le plus probable? (c'est-à-dire que dois-je dépenser pour remplacer)

20
  • Carte mère: GA-B85M-DS3H-A
  • Processeur: Core i5 4430
  • RAM: PNY XLR8 DDR3 32 Go (4x8 Go) 1600 MHz (MD32768K4D3-1600-X9)
  • PSU: EVGA 500 W1 80+

Le problème

Avec les 32 Go de RAM installés, le système échoue systématiquement à MemTest86 + 6.2. L'échec se produit toujours lors de la première passe et les erreurs atteignent rapidement des millions d'erreurs. Tenter d'exécuter Windows entraîne des redémarrages aléatoires et des erreurs d'arrêt (comme on pourrait s'y attendre avec des erreurs de RAM).

Ce que j'ai essayé

  • Testez un seul module PNY de 8 Go dans le socket DIMM1. Effectue avec succès 4 passes de MemTest.
  • Testez un seul module PNY de 8 Go dans le socket DIMM2. Effectue avec succès 4 passes de MemTest.
  • Testez un seul module PNY de 8 Go dans le socket DIMM3. Effectue avec succès 4 passes de MemTest.
  • Testez un seul module PNY de 8 Go dans le socket DIMM4. Effectue avec succès 4 passes de MemTest.
  • Testez les quatre modules DIMM PNY de 8 Go séparément, individuellement, dans le support DIMM1. Tous les modules ont réussi 4 passes de MemTest.
  • Testez deux modules PNY de 8 Go dans les sockets DIMM1 et DIMM2. Effectue avec succès 4 passes de MemTest.
  • Testez deux modules PNY de 8 Go dans les sockets DIMM3 et DIMM4. Effectue avec succès 4 passes de MemTest.
  • Testez la carte mère avec quatre barrettes DIMM de 2 Go dans toutes les sockets. Effectue avec succès 4 passes de MemTest.
  • Échangez l'ordre des modules DIMN PNY dans les supports. Pas de changement - des erreurs MemTest se produisent toujours.
  • Augmentez la tension de la RAM de la carte mère de 1,5 V à 1,65 V. Pas de changement - des erreurs MemTest se produisent toujours.
  • Jouez avec différentes combinaisons des paramètres manuels de la RAM dans l'utilitaire de configuration - activation / désactivation du profil XMP, définition du préréglage "stabilité accrue", etc. Aucun changement, les erreurs MemTest se produisent toujours.

Je pense que je peux sans risque exclure la mauvaise RAM et les mauvaises sockets RAM. La seule fois où les tests MemTest échouent est si les quatre modules de 8 Go sont installés simultanément.

J'ai mesuré les tensions sortant de l'alimentation et tout y semble stable même avec les quatre bâtons installés.

Au moment où j'écris ceci, j'ai essayé une option de dernier recours de réduire manuellement la vitesse de la RAM à 1066 MHz dans le BIOS. Jusqu'à présent, MemTest a terminé une passe et en est à sa deuxième sans erreur. (Tous les tests ci-dessus ont été effectués à la vitesse RAM native de 1600 MHz.) Cela peut me permettre d'utiliser le système, bien qu'avec des vitesses RAM légèrement plus lentes, mais cela ne semble pas être une solution permanente.

Chaque fois que des erreurs MemTest se produisent, elles se produisent toujours à la même position exacte sur le bus d'adresse 64 bits:

Bit Error Mask: 00000000FF000000

De plus, des erreurs ne se produisent JAMAIS sous la barrière de 4 Go. En d'autres termes, toutes les erreurs se produisent dans l'espace d'adressage entre 4 Go et 32 ​​Go.

Je déduis que c'est une sorte d'étrange interaction ou problème de synchronisation avec le CPU et la RAM et la carte mère, car les erreurs sont très cohérentes, ne se produisent que dans une configuration spécifique, semblent être atténuées en ralentissant la RAM, et se produisent uniquement au-dessus de la barrière de 4 Go. Ma question est: est-il plus probable que mon processeur ou ma carte mère soit le coupable?

J'avais l'intention de mettre à niveau cette machine vers un Core i7-4790K, donc si le CPU est probablement le coupable (je sais que le contrôleur de mémoire est sur le CPU dans ces nouveaux modèles), alors ça marche bien parce que je prévois de mettre à niveau de toute façon, mais je me demande s'il y a une chance que la carte mère elle-même puisse également faire partie du problème. c'est-à-dire que je ne voudrais pas dépenser de l'argent sur le CPU i7 uniquement pour rencontrer exactement le même problème et découvrir que je dois également remplacer la carte mère ...

Conseil?


EDIT: La vitesse de RAM plus lente a toujours produit des erreurs, mais seulement une fois que le test a atteint la troisième passe. J'ai redémarré le test avec un seul processeur actif juste pour tester une interaction sur le processeur lui-même.

fdmillion
la source
Le seul moyen de confirmer s'il s'agit de mémoire, mobo ou cpu est de tester ram dans un autre système compatible.
Moab
2
Si le problème ne se déplace pas lorsque vous déplacez des puces RAM, la carte mère est tosser.
Joshua
1
Lorsque vous exécutez cette mémoire en double, ou lorsque vous avez 4 modules (8 g), vous pouvez éventuellement la retirer du SPD (auto) et modifier un peu les synchronisations et le faire fonctionner. dites qu'il est 10,11,10,24 accordez-le à 11,12,11,32 et testez comme ça à la place. (Oui, c'est deviner) Si cela fonctionne à 100% non-stop, il est moins probable qu'il s'agisse d'un problème de chaleur ou d'un problème de carte mère. Les personnes avec des modules 4x8gig ont eu des problèmes que vous décrivez auparavant, s'il y a un support de régulation de tension et que le processeur n'a pas de broches tordues, cela peut être un moyen de faire fonctionner des choses qui ne figurent pas sur la liste de compatibilité. alors testez cela et revenez vers nous.
Psycogeek
2
"La vitesse plus lente de la RAM a toujours produit des erreurs, mais seulement une fois que le test a atteint la troisième passe." Au cours de tout cela, prenez-vous des mesures supplémentaires pour tester le refroidissement du vérin? Même un ventilateur supplémentaire temporaire ou un ventilateur externe déplaçant l'air à travers le vérin et ses éléments de régulation de tension, pourrait tester pour voir si la chaleur est l'un des problèmes.
Psycogeek
@Psycogeek +1 pour avoir suggéré une modification du timing. Certains modules RAM ne fonctionnent pas bien avec d'autres en ce qui concerne les horaires (même la même marque ou le même type de module). J'ai eu un problème similaire à OP et résolu en définissant les horaires manuellement.
Amziraro

Réponses:

18

Cela ne ressemble pas à un composant défectueux, vous utilisez plutôt une combinaison incompatible.

Le fait d'avoir plusieurs sockets sur le même bus mémoire rempli augmente la capacité sur chaque ligne de données et ralentit le temps de montée, ce qui peut provoquer des transitions tardives et des erreurs de détection. Ce phénomène est connu des ingénieurs électriciens sous le nom de "fan-out".

Cela est encore plus compliqué en raison du fan-out interne à un module de mémoire. Le nombre et la topologie des périphériques DRAM sur le module, appelés "rang", affecteront le nombre de modules que vous pouvez connecter avec succès en parallèle.

Les cartes mères de serveur prenant en charge de nombreux supports de mémoire nécessitent en fait une mémoire tampon, qui utilise un réseau de tampons en cascade pour limiter le fan-out (et donc la capacité) vu par chacun. Il y a un retard causé par les tampons eux-mêmes, mais il n'augmente que logarithmiquement avec le nombre de charges, tandis que pour la capacité de mémoire non tamponnée, augmente linéairement.

Wikipédia en parle: https://en.wikipedia.org/wiki/Memory_rank

Certains manuels de carte mère appellent en fait ce genre de chose. Pour d'autres, vous pouvez déduire les informations des listes de compatibilité RAM. Par exemple, la carte mère ASUS Z170-A montre que le double rang (appelé DS = double face dans le manuel) ne peut être utilisé que dans deux emplacements à la fois sur cette carte, contrairement à la possibilité d'utiliser quatre barrettes DIMM à un rang à la fois .

entrez la description de l'image ici

Ben Voigt
la source
En supposant que cela soit la cause du problème, cela aiderait-il à désactiver le SPD et à modifier les paramètres de synchronisation un peu plus lentement pour compenser les temps de montée / descente plus lents?
brhans
1
Je ne suis pas sûr que ce soit correct. Les processeurs Haswell grand public prennent généralement en charge quatre rangées de mémoire par canal, ce qui est suffisant pour autoriser quatre modules double face dans deux canaux de mémoire. Pourquoi serait-ce le problème? Cela ne semble pas non plus expliquer le fait que les problèmes se produisent uniquement au-dessus de la barrière de 4 Go. En outre, le manuel de la carte mère indique que le chipset B85 sous-jacent prend en charge 32 Go de mémoire et ne mentionne aucune limitation concernant le nombre de rangs de mémoire.
bwDraco
2
@bwDraco: Même si le contrôleur de mémoire est sur le CPU, la carte mère est également importante. La disposition du PCB peut l'affecter, la correspondance de longueur sous-optimale diminuera la marge de phase sur les signaux (c'est aussi pourquoi les erreurs sont corrélées à certains octets ou positions de bits). Le fait que le manuel de la carte mère ne parle pas des rangs ne signifie pas que toutes les combinaisons sont prises en charge, cela signifie simplement que c'est un manuel de merde qui ne rentre pas dans les détails.
Ben Voigt
1
@brhans: Ce ne sont pas les paramètres de synchronisation qui importent, mais la fréquence d'horloge de la mémoire, car le problème réside dans le transfert entre le processeur et les barrettes DIMM, pas interne à la DRAM. SPD a généralement un certain nombre de profils correspondant à différentes fréquences d'horloge, il serait préférable d'en choisir un autre que de le faire entièrement manuellement.
Ben Voigt
1
Semble définitivement comme un problème d'intégrité du signal de la carte mère. Les modules plus grands pourraient avoir une capacité par broche plus élevée que les modules plus petits, surtout si les modules eux-mêmes sont à double rang. Cela pourrait provoquer exactement ce problème lorsque vous remplissez complètement les rangs. Il est possible qu'un module ait plus d'un rang. Ainsi, quatre rangs par canal pourraient facilement être deux modules haute densité à deux rangées. Cela pourrait être exacerbé par les caractéristiques électriques et le routage des traces sur la carte mère. Ma suggestion: essayez une autre carte mère.
alex.forencich
9

Cela ressemble à un problème dans le contrôleur de mémoire intégré du processeur .

Dans les systèmes modernes, les cartes mères ne jouent pas vraiment un rôle dans la gestion de la mémoire au-delà de fournir simplement un chemin entre les modules de mémoire et le processeur. La mémoire est directement connectée au processeur pour minimiser la latence; le " northbridge " qui connecte la mémoire au processeur dans les anciens systèmes fait désormais partie du processeur lui-même. (Le micrologiciel ou PCH peut contrôler la façon dont le processeur exécute la RAM, mais cela n'a pas de sens de provoquer des erreurs binaires du type que vous décrivez car c'est en fin de compte la responsabilité du processeur.) Par conséquent, la toute première chose que je '' d suspect dans une situation comme celle-ci est un IMC défectueux.

En fait, je serais très surpris si la carte mère ou le firmware du système était à blâmer pour les problèmes que vous rencontrez.

bwDraco
la source
Et une épingle tordue?
Michael Hampton
6
@Michael: Une broche tordue entraînerait également des échecs lors du test de modules individuels.
Ben Voigt
4

Je vois de mauvaises critiques pour le BIOS sur cette carte mère. Je commencerais par vérifier une mise à jour du BIOS. Ne lésinez jamais sur la carte mère.

Atoadaso
la source
Le BIOS est à jour. Certes, la RAM n'est pas sur la liste "qualifiée", mais elle a les mêmes horaires que de nombreux autres modules répertoriés.
fdmillion
Je chercherais alors à remplacer la carte mère. Il n'a pas besoin d'être haut de gamme, commencez simplement par une fourchette de prix que vous pouvez vous permettre et recherchez ceux qui ont le plus d'avis (lisez-les également). Ceux qui ont la plus grande base d'utilisateurs sont beaucoup plus susceptibles d'avoir un support à long terme pour les mises à jour du BIOS et des chipsets.
Atoadaso
Avez-vous vérifié si cette carte mère est même capable de gérer correctement 32 Go de mémoire à la fois? En outre, vous pouvez trouver la puce du gestionnaire de mémoire sur la carte mère et rechercher la quantité de mémoire qu'elle est censée pouvoir gérer correctement.
milesrf
1

Il est possible que la RAM soit également défectueuse, même si elle ne semble pas l'être. J'ai eu un problème récent avec mon serveur domestique impliquant un incident fatal avec du thé glacé ...

J'ai suivi tout le processus de remplacement de chaque partie individuellement (2 processeurs, mobo, alimentation et 2 banques de 16 Go (2x8 Go) de RAM) et tout a bien fonctionné lorsque je viens d'utiliser une seule banque de RAM avec un seul processeur (sauf pour 1 CPU qui était toast).

Peu importe la configuration que j'utilisais, cela fonctionnait toujours lorsque j'avais un seul processeur et une seule banque de RAM (que ce soit 16 Go ou 32 Go de RAM), mais quand j'installe le 2e processeur et divise la RAM pour qu'elle soit de 16 Go par banque, le serveur n'a pas pu démarrer.

Ce n'est que lorsque j'ai remplacé complètement une banque de RAM qu'elle a finalement démarré et a fonctionné correctement, et ce depuis lors.

tl; dr : Comme @moab l'a déclaré dans son commentaire, vous ne pouvez jamais en être certain tant que vous n'avez pas testé tous les composants d'un système compatible

Taegost
la source