Nouvelle construction geler; Quelle est la probabilité d'un double démarrage être la cause?

0

Mise à jour 7 - 01/02/2018

J'ai changé le processeur. Il était stable pendant environ 6 heures, puis les symptômes habituels.

Dans cette mise à jour, je vais répéter les choses qui méritent d’être rappelées et les étapes que j’ai accomplies pour tenter de résoudre le problème.

Symptômes

La machine se bloque et gèle complètement, apparemment de manière aléatoire. Ce n'est pas simplement un problème Windows 10, sauf si Windows 10 a réussi à affecter le matériel de bas niveau. Cela est dû au fait que je double démarrage avec Linux, et que ni une clé USB en direct avec un système d'exploitation sur travaillé. Ils ont tous gelé.

Le système est plus stable après l'avoir laissé toute la nuit. Il durera environ 30m à 1h. Après le premier gel, cela peut se produire toutes les 20 minutes.

Si vous exécutez memtest86, le problème ferait que cet utilitaire gèle environ 19 à 20 minutes. C'était autour du test 10: dormir. Juste avant le test du marteau.

J'ai acheté un autre bâton de RAM et couru memtest86. C'est allé plus loin. Mais 2ème passage, il a encore gelé. Aucune erreur n'a jamais été détectée avec l'un ou l'autre des bâtons de RAM.

Suspicions et causes profondes potentielles

À chaque fois que mon ordinateur se figeait, je remarquais que les paramètres de mon BIOS changeraient. Seuls les profils de mémoire. L'overclocking serait activé et tout ce qui concernerait les tensions changerait à 1,2V.

Peu importe combien de fois je les sauverais, ils sembleraient corrompus ou reviendraient.

J'ai essayé P3.00, P3.30 et P4.50. Toutes les versions ont fait la même chose.

Lorsque je chargeais Windows assez longtemps pour afficher l'utilitaire A-Tuning (je n'overclockais pas au passage, je l'utilisais à des fins de diagnostic), je remarquais que le voltage de la mémoire DRAM n'aurait pas de valeur. La valeur n'a pas été définie.

Par conséquent, je soupçonne que le problème concerne la gestion de la mémoire et les profils de mémoire au niveau le plus bas. Je suis sûr qu'il y a des problèmes avec les systèmes d'exploitation et cette carte / unité centrale, mais ce n'est clairement pas l'un d'entre eux à moins que Windows n'exécute toujours certains processus très tôt ... d'une manière ou d'une autre.

Mon tableau doit être envoyé aux Pays-Bas, puis à Taiwan. Je ne pense pas que cela sera corrigé bientôt. Bien que je sois prêt à recevoir ma troisième carte dans deux semaines, ce sera mon deuxième processeur et mon deuxième bâton de RAM.

Il est à noter que j'ai supprimé tous les autres composants et périphériques afin de diagnostiquer ceci. Seuls les éléments essentiels ont été utilisés. Surtout dans le cas de la panne de la clé USB en direct, aucun SSD ni disque dur n'était connecté. Il se chargerait et gèlerait après quelques utilisations.

Enfin, il est important de noter que j'ai régulièrement nettoyé la mémoire CMOS entre les flashs du BIOS afin de déterminer avec certitude la corruption des données du BIOS après le gel.

Mise à jour 6

Le nouveau conseil a peu changé. Je soupçonne que le processeur doit être changé.

Mise à jour 5 - 26/01/2018, 15:42

Absent pour le week-end, j'ai empêché la machine de s'endormir pour pouvoir utiliser le bureau à distance.

Cela fonctionnait bien jusqu'à 00:22 selon son statut en ligne. Je ne peux plus me connecter à la machine et je ne suis pas sûr de la raison particulière jusqu'à mon retour à la maison. Je crains que ce défaut ne cause une surchauffe excessive de la machine et que, lors de mon retour, il risque de surchauffer.

Il peut s'agir de mises à jour Windows, mais généralement, la machine redémarre et se reconnecte au réseau.

Mise à jour 4

J'ai remplacé le conseil et jusqu'à présent, il n'y a pas de problèmes. J'ai remarqué dans les paramètres d'économie d'énergie de Windows 10 que j'ai maintenant une option intitulée «AMD Ryzen Balanced ». Je suis très sûr que ce n'était pas là avant.

Je n'ai pas modifié le BIOS par rapport à la version fournie, à savoir la version P3.0. Bien que je puisse essayer ceci dans le futur.

J'ai effectué un test d'effort sur le processeur graphique avec OCCT et cela a duré 40 minutes sans aucun problème. Auparavant, il gelait à 08h29. Cela n'indique pas que cela en était la cause, mais le chargement des jeux le gèlerait également plus souvent, même si le GPU était retiré et réintégré dans l'emplacement.

Encore une fois, cela ne peut toujours pas être résolu car les problèmes rencontrés auparavant ne se manifestaient qu’après environ 3 jours d’utilisation.

Mise à jour 3 - 12:27, 23/01/2018

J'ai remarqué que lorsque je charge un jeu, il a tendance à se bloquer / geler davantage. Cela ne signifie pas que c'est la cause, mais cela pourrait indiquer quelque chose .

J'ai décidé de lancer un logiciel d'extraction pour mettre un peu plus l'accent sur le processeur graphique, car OCCT a gelé en 8h29.

Je remarque que lorsque je ferme le logiciel d’extraction, pour une raison quelconque, le système se bloque complètement. Cela pourrait être intéressant d'explorer davantage.

Mise à jour 2 - 23:57, 22/01/2018

Les étapes de mise à jour précédentes ne fonctionnaient pas. J'utilisais aussi OCCT et il semble avoir gelé 08h29 pour un test GPU d'une heure.

Mise à jour 1 - 19:10, 22/01/2018

Le système est stable depuis qu'il est allumé, après l'avoir éteint toute la journée. Je ne sais pas pourquoi. J'ai installé les mises à jour Windows 10 via USB et j'en télécharge actuellement d'autres selon la méthode habituelle Windows 10.

  • Je vais procéder au téléchargement des mises à jour du pilote du chipset AMD.
  • Surprise, l’installation de Windows 10 ne s’est pas figée comme elle l’a fait la nuit dernière. J'ai lu précédemment que cela peut réparer les choses.
  • En dépit de ces tentatives, j'ai demandé un retour du conseil. Je ne sais pas quoi faire si cela reste stable. Pour retourner le tableau actuel ou non. Je n'ai encore essayé aucune des méthodes proposées.

Sur pour télécharger et installer ...

Composants

Carte mère: ASRock 350m Pro4

Processeur: Amd Ryzen 5 1600 w / Stock de refroidissement (non overclocké)

RAM: Vengeance LPX DDR4 2400Mhz 8GB

SSD: Crucial MX300 275 Go

Carte réseau: Gigabyte GC-WB867D-I

Alimentation: Corsair TXM550M 550W

GPU: EVGA Nvidia 1060 GTX 3GB S Jeux

Décrivez votre problème. Répertoriez les messages d'erreur et les symptômes. Soyez descriptif.

Le problème en lui-même est le blocage / gel du PC, mais le courant reste allumé. Parfois, les écrans s'éteignent. Parfois, ils ne le font pas. La souris et le clavier ne sont plus réactifs dans cet état. J'ai construit cette machine il y a cinq jours, sans problème jusqu'à il y a 2 jours. Pendant 3 jours, il n'y a pas eu de problèmes.

Il n'y a pas de temps défini pour cela, que ce soit en mode veille ou en exécution d'une tâche. Cela s'est produit lors de la tentative de chargement d'une clé USB active avec un système d'exploitation ou lorsque le système d'exploitation est chargé. Mais je n'ai pas expérimenté cela dans le BIOS avant d'essayer de charger un système d'exploitation. C’est à la fois sous Windows 10 et Linux Mint dans un double amorçage à l’aide du logiciel de sélection d’amorçage GNU Grub.

Lorsque cela se produit, je dois effectuer une réinitialisation matérielle de la machine.

Répertoriez tout ce que vous avez fait pour tenter de diagnostiquer ou de résoudre le problème.

  • Au début, je pensais qu'il s'agissait de conflits de logiciels ou de pilotes. J'ai désinstallé les pilotes, et il est toujours resté.

  • J'ai essayé de m'assurer que tous les câbles de mon bloc d'alimentation sont correctement insérés et que les composants ne sont pas mal fixés.

  • J'ai mis à jour le micrologiciel du BIOS depuis P3.00 -> P3.40 -> P4.50.

  • J'ai essayé d'exécuter memtest86, et pour 3 passes, cela a fonctionné. J'ai redémarré la machine et ai exécuté le test pendant la nuit, seulement pour qu'elle gèle à la 8ème passe sans erreur détectée.

  • J'ai couru Windows memtesk, et chkdsk sans erreur.

  • Tentative d’exécution de la clé USB Live Mint de Linux, mais celle-ci ne se charge plus, bien qu’elle ait été effectuée il ya quelques jours .

Les plans futurs comprennent le branchement d’un ancien disque dur et l’installation d’un système d’exploitation sur celui-ci, le SSD étant débranché. Si cela fonctionne, cela indique un problème avec le SSD ou avec la configuration du double amorçage pour Windows et Linux.

Fournissez les détails supplémentaires que vous souhaitez ci-dessous.

Memtest lockup image - pas d'erreur

mpw
la source
1
C'est certainement possible. De retour sur un vieux portable Vista il y a quelques années, j'avais des problèmes avec le double démarrage; Windows se bloquerait sur l'animation de la barre de progression "Démarrage de Windows" qui, si je me souviens bien, avait quelque chose à voir avec le pilote sans fil.
MoonRunestar
@ Sonickyle27, curieusement, ce n'était pas un problème, ou pas que j'ai remarqué. Je ne suis pas sûr que Windows et Linux se disputent l'espace et se gèlent.
MPW
Le plan équilibré AMD Ryzen est un plan d’alimentation optimisé pour les processeurs Ryzen, livré avec les pilotes de chipset les plus récents. Cela ne dépend pas du conseil, cela dépend du système d'exploitation. Windows 10 doit avoir téléchargé une mise à jour incluant de nouveaux pilotes de jeu de puces. Vous pouvez également les télécharger à partir de la page Web des AMD.
miravalls
C'est correct @miravalls. Je les ai téléchargés, mais auparavant ils n'étaient pas visibles. Pas avant le nouveau conseil. Peut-être y avait-il une mise à jour de Windows.
MPW le

Réponses:

0

Le gel de Memtest peut indiquer une erreur: de la carte mère, du processeur ou de la RAM. Notez que memtest doit stocker un peu de données en mémoire pour pouvoir s'exécuter, de sorte que n'importe lequel de ces composants peut être le coupable. Notez également que certains problèmes matériels ne surviennent que sous une charge ou une utilisation prolongée (en raison de la chaleur et du manque de tension).

Ma première approche consisterait à tester avec Memtest chaque clé RAM individuellement.

Avez-vous considéré que vous souffriez du bogue Ryzen ?

Les premiers lots de processeurs Ryzen présentaient un bogue matériel facilement déclenché sous des charges lourdes (comme dans le cas d'une utilisation à 100% dans tous / la plupart des cœurs), mais cela pouvait se produire de manière aléatoire en fonction de la charge de travail et des programmes. Je l'ai moi-même expérimenté dans ma configuration, qui est très similaire à la vôtre. J'ai rencontré des plantages aléatoires, à la fois sous Windows 10 (pendant les jeux) et Ubuntu (pendant que je travaillais), et memtest n'a jamais détecté d'erreurs. Après avoir découvert le bogue, je me suis mis à RMA à la fois sur la carte mère et sur le processeur (le fournisseur l’a suggéré, j’allais uniquement à RMA, le processeur).

Les remplacements fonctionnent assez bien et je n’ai eu aucun problème depuis.

Avez-vous essayé d'exécuter le kill-ryzen à partir de github ? Si ce script se bloque ou génère "échec de la construction", vous avez certainement un mauvais processeur.

miravalls
la source
Bonjour, merci pour votre réponse. Je n'ai en fait que le stick sur 8 Go de DDR4. Je ne sais pas si je peux l'exclure maintenant. 7 passes semble suffisant. 10 au total. Je vais essayer de lancer le script kill-ryzen, mais comme le blocage est très incohérent, je ne sais pas si je pourrai le faire. Si je détecte une erreur et que je ne comprends pas ce que c'est, croyez-vous qu'il soit préférable d'utiliser le RMA pour la carte et le processeur? Merci
mpw
@mpw Je n'ai jamais passé plus de 3-4 passes de memtest, rencontrer une erreur après c'est très bizarre, selon ce que je sais. Cependant, un crash de memtest ne signifie pas que la mémoire est mauvaise, il pourrait quand même s'agir du bogue Ryzen. Peut-être préfèrent-ils d'abord envoyer le PC à leurs techniciens pour un rapport officiel.
miravalls
@mirvavalls - d'accord, merci. Je fabrique cette machine à partir de pièces détachées, je ne sais donc pas qui créerait un précédent ou assumerait la responsabilité de la tester. Les pièces provenaient de sources multiples.
MPW
@mpw puis essayez d'exécuter le script. Si cela échoue, essayez de RMA le processeur et peut-être la carte mère, je ne peux pas vous dire s'il y a une erreur aussi. Les erreurs matérielles sont très difficiles à résoudre si vous ne disposez pas de pièces de rechange à permuter et à réduire le seul coupable. Bonne chance!
miravalls
J'ai été en contact avec ASRock. Ils affirment que le problème concerne les processeurs Ryzen. Le script de suppression ne semble même pas fonctionner correctement. Il est resté bloqué sur la boucle 11, mais indique même un message d'erreur. ASRock est conscient du problème et tente de le répliquer. Je l'ai éventuellement corrigé avec un nouveau tableau, mais comme vous pouvez le constater dans la mise à jour, je suis absent pour l'instant et il est potentiellement gelé. Je peux cependant envoyer une requête ping à la machine, mais pas au bureau à distance.
MPW le
0

J'ai la même carte mère et j'ai moi-même eu d'étranges problèmes de gel. Je pensais que mes problèmes étaient différents parce que je pouvais les faire arrêter mais maintenant je pense avoir peut-être trouvé la solution (au moins sous Linux). Si vous avez toujours cette carte mère, essayez d’ajouter iommu = off dans les paramètres de votre noyau au démarrage et contactez-moi si le gel s’arrête. J'utilise mon système pour gpu passthrough, j'ai donc explicitement besoin d'IOMMU pour ce que je fais. Je suis donc tombé sur cette solution simplement en affectant mon flux de travail. Bien sûr, si j'ai raison, il ne s'agit que d'une solution de contournement, car cela indiquerait un défaut.

Urmamasllama
la source
Je rencontrais régulièrement des problèmes PCI-E dans le journal de Linux lorsque je l'avais rencontré. J'ai remplacé la carte mère 4 fois et cela fonctionne maintenant. Finalement.
MPW