J'ai un PC réutilisé fonctionnant en tant que serveur. Il a été assemblé au début de 2014 et contient un processeur Intel Core i7-4770 sur un Gigabyte Z87-HD3. Cela a fonctionné de manière assez fiable jusqu'au début de 2017, quand il a commencé à geler par intermittence (toutes les quelques semaines à quelques mois). Pas de journaux du noyau, pas même les données sur les plantages de pstore ou netconsole ne produisaient rien de significatif. L’écran physique est vide, le réseau ne répond pas, les métriques à 10 secondes ne montrent aucune corrélation avec la charge sur le processeur, la mémoire vive ou le disque. Tous les voyants et les lecteurs fonctionnent toujours, mais il n'y a évidemment plus d'entrées / sorties. La RAM a été testée et est vérifiée, pas de segfaults parasites ou quoi que ce soit qui indiquerait un problème matériel intermittent. Juste gèle dur.
Passons maintenant à la partie très intéressante: lorsque le système entre dans cet état, le bouton de réinitialisation physique cesse de fonctionner complètement. Une fois que j'appuie dessus, rien ne se passe. Il fonctionne définitivement physiquement puisqu'il fonctionne à 100% lorsque le système n'est pas dans cet état. J'ai vérifié les tensions du PSU avec un multimètre et tout va bien. Je peux toujours réinitialiser le serveur en appuyant sur le bouton d'alimentation pendant 5 secondes, puis le démarrage est parfait.
Je ne comprends donc pas ce qui se passe ici et quel matériel est à blâmer. J'ai des analyseurs logiques et je pourrais avoir accès à des oscilloscopes USB, mais rien ne spécifie des échantillons supérieurs à 100 MSPS, je ne peux donc pas analyser les bus réels. Je serais très reconnaissant pour toute idée de ce qui pourrait se passer.
Réponses:
Ainsi, après de nombreux échanges stratégiques (carte mère, unités d'alimentation, processeur), j'ai un message de confirmation différentielle (le système de test rencontre le problème, mais le système d'origine ne fonctionne plus), ce qui est mauvais. Résultat très inattendu étant donné qu'aucun MCE n'a jamais été congédié, vous obtenez généralement un MCE bien avant les blocages définitifs.
Comme cette carte ne possède malheureusement pas de connecteur Trace Hub / JTAG et que le débogage USB3 intégré n’est pas disponible sur la plate-forme Haswell, je n’ai aucune idée de ce qui ne va pas. Il est à peu près certain que la puce se retrouve dans un état où elle ne peut pas être libérée de la réinitialisation (échec de l'autotest, absence du rail d'alimentation, ...). Pourrait être lié à l'introduction de FIVR (régulateur de tension entièrement intégré) à Haswell, mais ce ne sont que des spéculations.
Si vous rencontrez ce problème, il n’est pas nécessaire que ce soit le processeur, cela pourrait tout aussi bien être une carte mère défaillante ou un bloc d’alimentation (ou quelque chose d’autre). Je voulais juste poster ceci pour que les informations soient complètes et que les gens sachent qu'il peut s'agir également d'une erreur de la CPU (bien que cela reste assez improbable).
la source
J'ai déjà vu ce comportement deux fois auparavant, à la fois sur des ordinateurs portables x86. Lorsque cela se produit, l'écran se fige, les voyants restent allumés mais aucun bouton ne fonctionne. Le seul bouton qui fonctionne est le bouton d'alimentation, mais lorsqu'il est maintenu enfoncé pendant 5 secondes.
Les ordinateurs portables n’ont généralement pas de bouton de réinitialisation. Je ne peux donc pas être tout à fait sûr de votre problème, mais les éléments de preuve tendent à indiquer une défaillance matérielle. Ce que j’ai vu, c’est que les joints de soudure sur la carte se fissurent, que ce soit par défaut, au fil du temps ou par des contraintes mécaniques (cycles suffisamment chaud-froid). Chaque mauvais joint va injecter un bruit électrique. Obtenez assez ou aux bons endroits et les circuits numériques se verrouillent, ce qui gèle la totalité du tableau. Ce n'est pas au niveau du système d'exploitation ou du BIOS, c'est plus bas, dans le matériel. Dans cet état, seule la fonction de maintien du bouton d'alimentation fonctionnera, car elle utilise un circuit analogique qui ne se verrouille pas.
La solution consiste à soumettre la carte à un cycle de réchauffage (à l'intérieur d'une machine) qui fond rapidement la soudure, ce qui provoque la re-soudure et la disparition des fissures.
J'ai trouvé une entreprise spécialisée dans ce type de réparation.
Sur eBay, accédez à Services spécialisés - & gt; Restauration & amp; Services de réparation - & gt; Restauration informatique & amp; Services de réparation. Le vendeur est "NYClaptoptech". J'ai cherché la marque / modèle, et ils avaient un «article à vendre» correspondant. J'ai acheté ce service de la même manière que j'achèterais un PC, en utilisant le même processus de paiement. (Il semblait étrange de configurer un appel de service à l'aide de la méthode d'achat.) J'ai expédié la carte mère et je l'ai récupérée en 2 semaines. Coût: 120 USD. Leur service est générique et vous pouvez simplement les appeler pour organiser une réparation.
la source