Effectuer une analyse des causes profondes

9

Je souhaite en savoir plus sur la façon d'effectuer une analyse des causes profondes. Plus souvent qu'autrement, notre département dit à l'utilisateur d'essayer de redémarrer (leur système Windows XP), ce qui "corrige" en fait un bon nombre de problèmes. Lorsque je suis pressé (et que je reçois parfois un salaire horaire contribue à cela), je peux essayer de trouver une solution de contournement afin de résoudre le problème rapidement au lieu d'effectuer une analyse des causes profondes.

La plupart du temps, je consulte ces fichiers journaux ou l'observateur d'événements. Parfois, je vais utiliser les outils Sysinternals ou parfois exécuter un renifleur de paquets. Je n'utilise probablement pas les programmes Sysinternals autant que je le devrais. Quelques informations spécifiques sur la façon dont vous utilisez quels outils, quand et pourquoi seraient également utiles.

Je sais que c'est une question largement ouverte, mais pourriez-vous expliquer brièvement votre méthodologie, les outils, etc. que vous utilisez? Il semble que de nombreux administrateurs de SF utilisent un processus plus approfondi sur lequel j'aimerais en savoir plus. Si cela aide à affiner la question, je serais très intéressé par les outils, conseils, astuces, etc. pertinents pour les serveurs et clients Windows dans un environnement AD.

jftuga
la source

Réponses:

5

Déterminer la cause première d'un problème dépend du problème - Votre instinct initial pour regarder les fichiers journaux / les outils sysinternals / les renifleurs de paquets est généralement correct.
J'ajouterais exécuter l'outil de suppression de logiciels malveillants MS et un bon programme AV sur les systèmes Windows (et m'assurer qu'ils n'ont pas quelque chose comme CyberDefender ou un autre malware AV-Trojan.

Les gens de Stack Exchange sont des partisans de la méthode des "5 pourquoi" ( http://en.wikipedia.org/wiki/5_Whys , également ce joli petit PDF qui le montre en action ). C'est un outil assez précieux pour faire une analyse des causes profondes.


Au-delà, je peindrai deux grandes catégories et certaines des questions que je pose habituellement / des choses que je vérifie:

Comportement mystérieux non lié au réseau,
par exemple "Word continue de s'écraser sur moi"

Questions de base à poser:

  1. Qu'est ce qui a changé?
    (Ne prenez "rien" pour une réponse - c'est le premier mensonge. Les nouveaux logiciels, correctifs, etc. comptent tous.)
  2. Que faisiez-vous quand vous avez eu le problème?
    (Essayez d'extraire autant de détails que possible ici - dans mon exemple ci-dessus "J'ai appuyé sur le raccourci clavier pour insérer les initiales et le programme s'est écrasé")
  3. Cela a-t-il déjà fonctionné auparavant?
    (Si oui, commencez à regarder des choses de (1) ci-dessus)
  4. Pouvez-vous reproduire le problème sur votre système?
    (Si c'est le cas, c'est bon signe: un appel du support technique au fournisseur peut vous aider. Sinon, vous devrez consulter le système de l'utilisateur pour le reste de ces questions.)
  5. Qu'est-ce qui différencie l'environnement de l'utilisateur de votre environnement?
  6. Le matériel est-il suspect pour l'utilisateur (exécutez un test de mémoire, recherchez des erreurs SMART sur le disque dur, etc.)
  7. Si vous êtes arrivé jusqu'ici (vérification du matériel, vérification du logiciel, pas de virus, pas de logiciel malveillant), rendez visite à l'utilisateur pendant une journée. Observez leurs habitudes de travail.
    Mon entreprise avait une fois un mystérieux verrouillage du système lié au clic de la souris à une fréquence spécifique (nous ne savons toujours pas pourquoi, mais nous avons dû regarder un utilisateur le faire et s'exercer pendant une journée afin de pouvoir reproduire de manière fiable)

Problèmes liés au réseau

Une grande partie de cela est similaire, mais avec des indications plus spécifiques.

  1. Qu'est ce qui a changé?
    (Ouais, tu commences toujours par là)
  2. Qu'est-ce qui est cassé?
  3. Quand est-il cassé?
    • Toujours à la même heure de la journée?
    • Pendant une brève période tous les N jours?
    • Aléatoire (est-ce vraiment aléatoire? Tracez-le sur un calendrier ...)
  4. Y a-t-il quelque chose d'étrange sur le site distant?
    • Regardez DNS - S'il s'agit d'un tournoi à la ronde, il pourrait y avoir une rupture du côté distant
    • Parlons-nous de l'autre extrémité d'un VPN? Quoi de neuf avec le VPN (logs!)?
  5. Y a-t-il quelque chose d'étrange sur le site local?
    • Vérifiez votre pare-feu local
    • Vérifiez tout "logiciel de filtrage"
  6. Vérifiez auprès de votre FAI pour voir s'il y a des problèmes connus
  7. Consultez des sites comme http://www.internetpulse.net/ pour les problèmes connus à l'échelle du réseau
  8. Vérifiez la machine de l'utilisateur
    (paramètres TCP, etc. - Habituellement pas le problème, mais parfois.)
voretaq7
la source
1

En plus des excellentes réponses obtenues jusqu'à présent, j'ajouterais:

  • Identifiez la date et l'heure du début du problème. Cela peut sembler évident, mais j'ai vu beaucoup trop de problèmes où cela n'était pas documenté et plus tard des hypothèses incorrectes ont été faites. Cela correspond bien à l'étape «ce qui a changé».

  • Le problème est-il reproductible ou intermittent? Ceci est essentiel, car les symptômes reproductibles sont beaucoup plus faciles et rapides à résoudre que ceux qui sont intermittents. S'il est reproductible, assurez-vous que les étapes sont documentées.

  • Identifiez le (s) symptôme (s). Notez que nous distinguons le "symptôme", qui est une manifestation de la cause profonde, et le problème réel / la cause racine.

    1. Y a-t-il d'autres activités qui peuvent reproduire le symptôme?
    2. Quels sont les autres symptômes?
    3. Si le problème est intermittent, pouvons-nous identifier une activité qui le fera se produire?
    4. Dans quelles circonstances pouvons-nous empêcher le symptôme de se produire? Le problème se produit-il uniquement lorsque vous êtes connecté à l'aide d'un compte réseau, mais fonctionne-t-il correctement s'il est connecté localement? Le problème se produit-il lorsque vous êtes connecté en tant qu'utilisateur normal, mais fonctionne correctement s'il est connecté avec des privilèges élevés? Cela se produit-il uniquement sur un système, mais un autre système qui devrait être similaire ne présente pas le symptôme?
  • Localisez le problème à un composant fonctionnel probablement défectueux. S'il y a une erreur dans une application Web, est-ce dans le code d'application, le serveur Web, le système d'exploitation hébergeant le serveur Web, le réseau ou l'extrémité distante? Il est préférable de deviner à ce stade afin que les ressources soient concentrées sur la cause probable, alors assurez-vous que les autres savent qu'il s'agit d'une théorie / conjecture.

  • Remettez en question vos hypothèses et essayez de recueillir des données empiriques pour étayer vos hypothèses et conclusions. C'est assez mauvais sentiment de dire à quelqu'un qu'il n'y a pas de problème avec x, et on découvre plus tard qu'il existe réellement. Habituellement, lorsqu'il existe une solution incorrecte, des données peuvent soutenir la bonne solution.

Greg Askew
la source