Comment puis-je résoudre le problème quand je ne sais pas par où commencer?

40

Je cherche des astuces, des astuces et des réponses sur la façon de commencer le dépannage lorsque:

  1. Le problème est intermittent
  2. Le problème pourrait se trouver littéralement n'importe où - système d'exploitation; logiciel source libre; mes propres développements logiciels; logiciel acheté; miettes sur le clavier; la combinaison spécifique de logiciels que je cours actuellement; Le démon de Maxwell; les petits hommes bleus qui font fonctionner la machine se sont mis en grève; etc.
  3. Je n'ai une expertise que dans quelques-uns des domaines susceptibles de contribuer à la cause du problème.

Le problème spécifique que je rencontre est détaillé ci-dessous à titre d'exemple, mais je ne cherche pas de réponses à mon problème actuel, mais plutôt où et comment commencer à les résoudre.

Je rencontre actuellement un problème avec ma nouvelle machine. À quelques reprises, la machine vient de geler; ne pas accepter les frappes au clavier, clics de souris ou tout autre élément, à l'exception de l'interrupteur marche / arrêt. Invariablement, je ne fais que naviguer sur le Web; J'ai eu quelques (<6 autres applications) en cours d'exécution. Aucune de ces applications n'est majeure; et représentent un mélange de programmes commerciaux et de programmes open source, généralement migrés à partir d'Unix d'une variété.

Ma machine est un ordinateur portable Quad Core Windows 7 I7.

MODIFIER:

Bien que j'aie indiqué que la description du problème n'était qu'un exemple, certains commentaires se concentrent sur la résolution de ce problème. Malheureusement, comme il ne s'agissait que d'un exemple, les informations fournies sont correctes mais non complètes. Pour éviter que des personnes perdent leur temps à essayer, à distance, d'aider à résoudre le problème, je donne d'autres informations sur ma configuration. Comme je l'ai dit à l'origine, je ne cherche pas de réponses à ce problème spécifique.

Ma machine est un ordinateur portable très puissant. est ma machine principale; est utilisé pour le développement et la rédaction technique, les communications (courrier électronique, Web, FTP, etc.), ainsi que pour l'édition et l'indexation de photos. Une suite complète et rigoureuse de programmes de tests matériels, comprenant des tests de CPU, de tests de mémoire multiple et de tests sur tous les autres composants, est exécutée au moins une fois par mois. Une analyse antivirus complète est également effectuée au moins une fois par mois. une analyse complète des logiciels espions; un nettoyage de disque; et une défragmentation de disque.

Le disque contient environ 3 * 10 ^ 6 fichiers; l'utilisation du disque est de 300 Go, ce qui laisse 150 Go d'espace libre. La mémoire est de 8 Go. Même si la machine peut chauffer légèrement lorsque je dispose de nombreux outils de développement majeurs, je n’ai rencontré ce problème que lorsque je l’utilisais très légèrement: navigation Web, Textpad, Graphwiz, base de données Firebird et navigateur de base de données léger (Flame Robin). ). Dans ces circonstances, même le ventilateur n'est pas légèrement chaud. Je n’ai apporté aucune modification aux logiciels, au système d’exploitation ou au matériel informatique au cours de la période où j’ai rencontré le problème. Un certain nombre de mises à jour automatiques ont eu lieu - principalement, mais pas exclusivement, Microsoft, Adobe et Lenovo.

Ce contexte met en contexte (j'espère) les raisons pour lesquelles j'ai posé cette question comme je l'ai fait. Je vais maintenant commencer à enquêter sur les différents journaux mentionnés dans les réponses comme première étape pour tenter de restreindre le champ d’enquête. Et je vais essayer un exercice d’une des caractéristiques suggérées dans les réponses que j’ai reçues jusqu’à présent - la patience - dans mon enquête.

Chris Walton
la source
6
+1 Parce que cette question peut être utile pour moi de créer un lien vers l'avenir.
Tom Wijsman
2
Parfois, avant de vous lancer dans une approche méthodique et complète de résolution de problèmes, vous devez essayer quelques solutions simples: lancez une analyse complète des logiciels espions, recherchez dans le journal Windows des interruptions inattendues et voyez quels problèmes (le cas échéant) l'ont précédé, cochez la situation de l’espace disque, lancez check disk, donnez à Autorys de Sysinternal un contrôle rapide des logiciels inconnus / suspects. Disposez d'un ensemble d'outils simples à exécuter permettant d'identifier rapidement une grande variété de problèmes matériels et logiciels. S'ils ne trouvent rien, vous avez perdu peu de temps et pouvez engager un processus plus approfondi.
Alain
1
Aussi, suivez Blog de Mark par exemple, comment résoudre des problèmes gênants avec Sysinternals.
Tom Wijsman
1
Bonne chance pour le dépannage, je suggérerais de créer une nouvelle question si vous voulez plus de commentaires pour que tout reste organisé ...
Tom Wijsman

Réponses:

42

Ayez une meilleure idée.

Vous ne gagnerez pas une bataille sans informations de terrain suffisantes.

  1. Décrire votre problème en détail afin que vous ayez une bonne idée, qui sait que cela se produit une fois.

  2. Retracer avec le temps ce qui s’est passé avant et avec le problème, vous et votre ordinateur.

  3. Pensez aux causes possibles parce que parfois cela peut être quelque chose qui n'est pas évident.

  4. Obtenir plus d'informations chaque fois que vous ne savez pas ce qui se passe, cela peut aller de Événements , à Outils SysInternals , à Analyse de performance , à Débogage , à tout autre outil de votre expertise .

  5. Testez vos hypothèses pour être sûr que vos pensées ne filtrent pas la cause.

Diviser et conquérir.

Parce que c'est comme ça que l'armée vaincre son adversaire même en infériorité numérique.

Éliminez les causes possibles ou vous aurez un problème pour le suivre. De cette façon, vous vous rapprocherez de plus en plus de la cause première du problème, cela vous permettra de résoudre le problème beaucoup plus facilement.

Par exemple, avec du matériel , déconnectez et supprimez tout ce dont vous n’avez pas besoin pour résoudre votre problème. De cette façon, vous pouvez déconnecter le composant à l'origine du problème. Ensuite, il suffit d'insérer la moitié des composants, de vérifier si elle se reproduit et de répéter le fractionnement jusqu'à ce que le mauvais composant soit présent ...

Tester quelque chose sur un autre ordinateur, le cas échéant, constitue également un avantage non négligeable dans la résolution du problème.

Par exemple, avec un logiciel , le redémarrage en mode sans échec, la désactivation des entrées de démarrage aide également. Cela vaut également pour activer / désactiver les paramètres, essayer la configuration par défaut, etc.

Mettons cela à l'épreuve.

Je rencontre actuellement un problème avec ma nouvelle machine. À quelques reprises, la machine vient de geler; ne pas accepter les frappes au clavier, clics de souris ou tout autre élément, à l'exception de l'interrupteur marche / arrêt. Invariablement, je ne fais que naviguer sur le Web; J'ai eu quelques (<6 autres applications) en cours d'exécution. Aucune de ces applications n'est majeure; et représentent un mélange de programmes commerciaux et de programmes open source, généralement migrés à partir d'Unix d'une variété.

  1. C'est un description appropriée tout seul n'arrive pas une fois non plus.

  2. Vous savez ce qui s'est passé avec le problème,
    mais n'avez pas pensé à ce que vous ou votre ordinateur avez fait avant le problème .

    Je ne peux pas vous dire cela, mais vous, votre journal des événements et vos fichiers / dossiers récemment modifiés, le diriez.

  3. La cause possible est le plus susceptible d'être lié au processeur , car c’est le composant qui traite les choses.

    Plus spécifique, cela pourrait être un processus, un pilote ou un matériel défaillant (peut-être des problèmes de température?).

  4. Je sais que c'est CPU, mais je ne sais pas quoi. Les événements ne montrent pas cela, Process Explorer resterait accroché DPC .

    Alors, étape suivante, je laisse l’analyse de trace s’exécuter, que je ferme après le blocage.

    Je regarde dans la trace, et Je vois que le pilote X est à l'origine du problème !

  5. Aucune hypothèse réelle n'est faite. L’hypothèse du processeur est gérée par notre division & amp; Approche de conquête ...

Donc, c'est là que je commence à diviser pour vaincre le problème, je m'arrête une fois résolu:

  1. Problème avec la version actuelle du pilote?
    Mettez à jour le pilote avec la dernière version.

  2. Problème avec les dernières versions du pilote?
    Obtenez une nouvelle trace. Mettez à jour le pilote vers une version plus ancienne que la version initiale.

  3. Problème avec l'appareil? Problème de configuration dans le registre?
    Obtenez une nouvelle trace. Réinstallez et / ou désactivez le périphérique si possible.

  4. Le problème est aléatoire, le processeur est-il en train de chauffer?
    Vérifiez la température du processeur, remplacez le ventilateur si nécessaire.

  5. Le problème n’est pas le processeur, y at-il d’autres influences matérielles et logicielles?
    Supprimez le matériel et désactivez le logiciel en cours d’exécution pour limiter l’influence de tiers.

  6. Le problème n'est pas dans une partie amovible, il devrait être remplacé.
    Dans le pire des cas, si tout le reste échoue, vous devez demander un remplacement.

Obtenir de nouvelles traces et supprimer du matériel nous donne plus d'informations, nous savons donc où regarder ensuite.

Tom Wijsman
la source
4
+1 pour diviser pour régner. Acceptée pour la spécification de la description, le suivi et les mécanismes permettant de diviser et de conquérir le problème.
Chris Walton
5
+1 réponse brillante. La seule chose à ajouter est la suivante: testez vos hypothèses
Bevan
que diriez-vous de "changer une chose à la fois"?
Florenz Kley
2
@Florenz: Eh bien, en les divisant, on les prend un par un (pour un petit nombre, ou quand on ne peut pas se baser sur plusieurs causes) ou on les sépare (pour un plus grand nombre, quand on peut vérifier plusieurs choses à Si possible, séparez-les en deux, c'est plus rapide que de les faire un par un. Par exemple, pour résoudre 100 problèmes, il suffit de le tester 8 fois (100 - & gt; 50- & gt; 25- & gt; 13- & gt). ; 7-> 4-4> 2-> 1), au lieu de 100 fois ...
Tom Wijsman
2
division sensible! Ce que je voulais dire, c'est "ne corrige pas les problèmes plus rapidement que l'on ne peut attribuer un changement à un delta observé". Utiliser un livre de laboratoire avec des pages que je ne peux pas déchirer est ma méthode pour m'assurer de pouvoir le faire.
Florenz Kley
6

Bons journaux et intuition - vraiment.

  • Dès le premier jour, suivez tout ce que vous faites sur le système: app & amp; Mises à jour du système d'exploitation, nouvelles installations, matériel ou connexions nouveaux ou supprimés, orage qui "n'a pas causé de problème".
  • Lorsque vous avez remarqué le problème pour la première fois:
    • Que faisiez-vous?
    • Quoi d’inhabituel est arrivé récemment?
    • Qu'avez-vous fait différemment récemment?
    • À partir de ce moment, soyez conscient de ce que vous faites afin que la prochaine fois que cela se produise, vous maîtrisiez mieux ce qui venait de le précéder.
    • Instantané des journaux du système.
  • Voyez si vous pouvez vous le reproduire. Tant que vous ne pourrez pas le reproduire, vous ne pourrez pas le trouver.
  • Démarrez le partitionnement du système: mode sans échec vs exécution en direct, nouveau compte par rapport à votre compte habituel, clavier et souris différents de ceux utilisés habituellement (notamment Bluetooth ou câblé). seulement après une heure de course (pensez thermique).
JRobert
la source
2
+1 pour l'activité de journalisation; et pour l'intuition. Pas la réponse acceptée uniquement parce que la journalisation n’est bonne que si elle est effectuée à partir du jour 1. Je tiens des journaux mais pas suffisamment détaillés; et n'ont pas inclus les mises à jour système de Microsoft et les autres mises à jour automatisées.
Chris Walton
1
@ChrisWalton: Il existe des journaux détaillés pour Windows Update, l’insertion / suppression de périphériques, l’installation de pilotes, etc. Voir C:\Windows\*.log, C:\Windows\Logs, C:\Windows\inf\*.log et aussi Performance Monitor > Data Collector Sets > (Startup) Event Trace Sessions. En outre, @JRobert, +1 pour expliquer comment se faire une idée plus en détail ...
Tom Wijsman
4

Je commence généralement par les journaux d'événements et tous les journaux qu'un programme peut créer par lui-même. Les programmes créent parfois un journal dans le dossier du programme.

Une fois que vous pouvez identifier l'heure, recherchez les événements dans les journaux. Naturellement, les journaux Windows peuvent présenter des erreurs d'arrêt faciles à identifier.

Vérifiez tous les pilotes et assurez-vous qu'ils sont à jour.

La patience sera probablement nécessaire à fortes doses.

Dave M
la source
2

En plus des conseils judicieux qui ont déjà été donnés, si les fichiers journaux ne vous donnent pas beaucoup à faire, un test de mémoire approprié de la machine en vaut souvent la peine - une mémoire défectueuse peut provoquer toutes sortes de gels et de crash intermittents. Le test de mémoire intégré s'apparente beaucoup plus à un compte de mémoire qu'il est extrêmement rare, le test de mise sous tension détecte un défaut de mémoire.

Diagnostic de la mémoire Google pour Windows et gravez-le sur un CD. C'est vieux mais c'est l'un des meilleurs tests de mémoire, et c'est gratuit.

Matt
la source
merci pour votre réponse et l'outil suggéré. J'ai bien peur que vous n'ayez pas compris le sens de ma question - vous suggérez des tests de mémoire; quelqu'un d'autre a suggéré le téléchargement automatique de logiciels Adobe. Ma question était: Dans ces circonstances, comment décidez-vous quoi faire quand les possibilités sont très nombreuses.
Chris Walton
1
@Chris: Comme je l'ai dit; lors du dépannage de problèmes intermittents et inexplicables (dans une situation de développement non corrigée), s'il n'y avait pas de journal à partir duquel démarrer, ni aucun autre marqueur suggérant par où commencer, je ferais un test de mémoire. La logique étant, il est relativement rapide à exécuter par rapport à essayer de reproduire un problème intermittent. Une fois que cela est exclu, vous commencez à vous concentrer et à vous faire une idée, comme le dit TomWij.
Matt
C'est suffisant.
Chris Walton