Avez-vous des règles générales sur lesquelles vous vous rabattez lorsque vous dépannez un problème réseau / matériel / logiciel difficile?
Par exemple: "J'isoler la source du problème en testant un périphérique avec un deuxième ordinateur" ou "Je supprime autant de matériel que possible pour allumer l'appareil, puis rajouter des composants un par un jusqu'à ce que je puisse reproduire le problème" , etc.
troubleshooting
nom d'utilisateur
la source
la source
Réponses:
Juste une liste de points que je me suis notés après avoir lutté avec un problème pendant un certain temps:
Il y avait aussi une grande liste de règles de débogage, c'était sous forme PDF avec des exemples et des explications pour chacune des règles. Je n'ai pas pu trouver rapidement le PDF, mais je pense que c'est une affiche de la liste:
la source
Si le problème est lié à Internet, c'est probablement le DNS.
Si le problème est difficile à diagnostiquer, c'est probablement la RAM.
Si le problème vient d'un poste de travail Windows, il est probablement plus rapide de le recréer.
Si le problème est un vendredi, c'est probablement quelque chose de grave.
la source
J'aime revenir à la méthode scientifique .
De ( http://en.wikipedia.org/wiki/Scientific_method )
En règle générale, j'aime toujours essayer de vérifier mes hypothèses de base. Est-ce qu'il a du courant, est-il branché, le câblage est-il bon? Il est très ennuyeux de passer des heures à essayer de résoudre un problème logiciel lorsque vous avez un câble lâche.
Je trouve très important pendant la phase de création de l'hypothèse de trouver autant de causes possibles du problème que possible. Ensuite, j'essaie de choisir les idées à tester en premier en fonction de la facilité de test et de la probabilité de l'idée.
Il est également important d'obtenir de l'aide. Consultez vos collègues, votre fournisseur ou la personne qui connaît le mieux les systèmes en question si vous le pouvez. Ne passez pas beaucoup de temps à faire tourner vos roues sur un problème s'il y a quelqu'un qui peut vous aider à résoudre le problème.
O'Reilly a un bon livre Network Troubleshooting Tools qui a un bon ensemble d'étapes à suivre qui est très similaire à la méthode scientifique. J'ai trouvé le livre très utile et le recommande vivement. Le livre est beaucoup plus détaillé et propose de nombreux outils utiles.
Depuis les outils de dépannage réseau
Voir également:
la source
(Ces faits saillants sont paraphrasés du chapitre "Débogage" de "La pratique de l'administration système et réseau" )
Deux choses à savoir:
Sachez à quoi ressemble la version "fixe". De préférence, une commande que vous pouvez exécuter qui donne une certaine sortie lorsque les choses fonctionnent. Par exemple: j'essaie de comprendre pourquoi SSH demande un mot de passe lorsque j'ai correctement configuré les clés (ou du moins je le pensais). Donc mon test est: "upsime de nom de serveur ssh" et cela devrait fonctionner sans demander de mot de passe.
Décrivez le problème au bon niveau. Un utilisateur se plaignant de ne pas pouvoir envoyer une requête ping à un serveur ne doit pas vous envoyer pour exécuter et réparer le serveur. Le travail de la personne n'est pas de rester assis et de cingler une machine toute la journée. Ils veulent faire une sorte de tâche comme utiliser la machine comme serveur DNS. Exemple: une fois qu'un utilisateur s'est plaint qu'il ne pouvait pas envoyer de ping à une machine à l'autre bout du monde. Je passe la journée à rechercher des administrateurs système dans cette partie de l'entreprise pour découvrir ce qui n'allait pas avec cette machine. Il a été mis hors service et ils paniquaient parce qu'ils pensaient peut-être qu'ils avaient éteint la mauvaise machine. J'ai contacté l'utilisateur et lui ai dit "en plus d'avoir besoin de faire un ping sur cette machine, que voudriez-vous en faire?". Il s'est avéré qu'il voulait exécuter un certain travail dessus et s'il avait suivi la procédure appropriée, ses tâches auraient été automatiquement redirigées vers la machine de remplacement. J'avais perdu toute ma journée et le temps des administrateurs système locaux. Une autre raison pour laquelle «je ne peux pas faire de ping» n'est pas la bonne chose à tester: les pare-feu sont souvent configurés pour supprimer les paquets ping mais autoriser le passage d'autres paquets. Testez ce que vous voulez vivre.
Deux stratégies:
Additif: Continuez à ajouter des composants jusqu'au début du problème. La dernière chose que vous avez ajoutée est le problème. Exemple: les navigateurs Web ne peuvent pas parler à un serveur. Entre le serveur et l'utilisateur se trouve un équilibreur de charge, un pare-feu, un cache et le proxy Web local de l'utilisateur. Essayez d'abord d'envoyer des requêtes directement au serveur, puis à travers le LB au serveur, puis à travers le pare-feu au LB au serveur, etc. etc. à chaque fois en ajoutant un composant.
Soustractif: Continuez à retirer les composants jusqu'à ce que le problème disparaisse. La dernière chose que vous avez supprimée est le problème: Exemple: une machine avec des dizaines de cartes ne démarre pas. Continuez à retirer les cartes jusqu'à ce que la machine démarre.
Deux morceaux de chance stupide:
Oubliez tout ce que j'ai dit. Le problème est dû à la dernière modification apportée au système. (cela fonctionne 99% du temps ... le problème est que 99% du temps vous ne savez pas quel était le dernier changement)
Lorsque tout le reste échoue, vérifiez les choses stupides. http://whatexit.org/tal/mywritings/dumb-things-to-check.html Exemple: un problème fou ne pouvait tout simplement pas être expliqué. Ensuite, nous avons vérifié le fichier de configuration: un utilisateur l'avait modifié en le copiant dans une boîte Windows, en le modifiant, puis en le recopiant. Il avait maintenant un ^ M à la fin de chaque ligne. Nous ne l'avons jamais remarqué car notre éditeur de texte a caché ce fait en silence. Malheureusement, le logiciel qui a lu le fichier de configuration a transformé ces ^ Ms en un espace incassable qui a gâché des tonnes d'autres procédures.
la source
Pratiques générales dont je me souviens tout au long du processus:
Lors du dépannage, voici ma méthodologie de base:
la source
Attitudes que j'essaie de maintenir:
Ce sont des attitudes qui me sont utiles à retenir - elles m'empêchent de lever les bras en l'air, de déclarer quelque chose de "bizarre" puis d'abandonner, ou d'être malheureuse parce que cela semble "insoluble".
Façons dont je pense au dépannage:
Le processus de dépannage:
Internet ne fonctionne pas? Vérifiez le problème, trouvez que c'est un site Web auquel ils ne peuvent pas accéder. Les tests rapides impliquent leur connexion Internet (fonctionne), ça se charge pour moi (non). Des tests rapides indiquent qu'il s'agit du site. En voyant le problème se produire pour moi, j'ai éloigné rapidement la probabilité de leur PC, navigateur, DNS, pare-feu de bureau de compte d'utilisateur, etc.
Donc, le site ne se charge pas, maintenant quoi? Ce n'est pas encore réparable, alors recherchez des endroits pour résoudre le problème en un plus petit. Le serveur est-il allumé? Est-ce que ça cingle? fonctionne DNS? Oui. Le service répond-il sur le port 80? Non. Le service fonctionne-t-il? Non. Ça commence? Non. Cela donne-t-il des erreurs dans le journal des événements / fichiers journaux? Oui! Qu'est-ce-qu'ils disent?
Il s'agit d'un dépannage efficace et rapide car il se concentre sans relâche sur la réduction de l'étendue du problème. Si j'acceptais leur rapport selon lequel Internet ne fonctionne pas, je serais induit en erreur en pensant qu'il s'agit d'un échec de connexion. Si j'acceptais ma première observation qu'il ne se charge pas pour eux, je perdrais du temps sur leur ordinateur en pensant qu'il est en faute.
Découpez des morceaux de "choses qui ne peuvent pas être" aussi gros que possible.
Comprenez le système. Plus j'ai de connaissances générales sur un système, plus c'est facile. Là où j'ai une mauvaise compréhension, les problèmes sont plus intimidants, plus difficiles, plus lents et plus susceptibles de se retrouver avec une solution de contournement qu'un correctif, ou avec un gros correctif lent (réinstaller) qu'un petit correctif chirurgical.
la source
En général, je demande "Qu'est-ce qui a changé qui pourrait avoir causé ce problème"? La plupart des problèmes sont causés par des modifications de bonnes configurations connues. Si vous pouvez isoler qui a effectué le changement, vous obtenez généralement votre réponse.
la source
Je pense que c'est une compétence, pas une science. Il y a des moments où vous suivez le mauvais chemin, mais pour la plupart:
Une fois, mon patron m'a appelé avec un ingénieur "senior" au téléphone - il me disait qu'il avait un serveur qui ne pouvait pas se connecter et il avait essayé de changer le câble mais toujours pas de joie. J'entendais un bip à l'arrière-plan comme un onduleur sur batterie. Je lui ai demandé s'il pouvait voir une activité sur l'interrupteur, il a dit non. Je lui ai demandé si le bip provenait de l'onduleur, il a dit oui, je lui ai demandé s'il pouvait voir des lumières allumées dans le rack, il a dit non ... Regardez au-delà de votre nez - ça aide!
la source
Je commence par vérifier l'évidence. Y a-t-il un message d'erreur expliquant quel est le problème? Tout est-il correctement connecté? Je n'aime pas perdre plusieurs heures à dépanner quelque chose qui aurait pu être résolu en quelques minutes. Je pense qu'il est possible d'être trop méthodique. J'ai vu des gens perdre une journée entière à reproduire un problème malgré le fait que je leur ai dit précisément quel était le problème. Ce n'est pas pour ça que je les paie.
Si la réponse n'est pas évidente, alignez certains suspects et testez-les d'abord. Ce n'est qu'après avoir testé les suspects probables que vous devez tester les suspects improbables. Ensuite, vous pouvez être aussi scientifique que vous le souhaitez.
la source