Quelle est votre liste de contrôle pour quand tout explose?

40

Les utilisateurs ne peuvent pas accéder à leur courrier électronique, le PDG ne peut pas accéder à la page d'accueil de la société et votre téléavertisseur s'est tout simplement déclenché avec un code "911". Que faites-vous quand tout explose?

Jon Galloway
la source

Réponses:

35

La première réponse est de rester calme! J'ai appris que la panique qui fait souvent paniquer ne fait qu'empirer les choses. Une fois que cela est réalisé, la prochaine étape consiste à déterminer le problème. Les plaintes des utilisateurs et des gestionnaires vont venir à vous sous tous les angles, vous indiquant ce qu’elles ne peuvent pas faire, mais pas quel est le problème.

Une fois que vous connaissez le problème, vous pouvez commencer à planifier et à donner une échelle de temps à vos utilisateurs en colère!

Sam Cogan
la source
3
C'est un plan réactif. Un véritable plan de reprise après sinistre est déjà écrit et testé pour chaque processus métier critique.
Spoulson
3
spaulson sure: mais la première chose à faire est de déterminer si vous devez activer le plan ou si l'activation du disjoncteur résoudra le problème.
pjz
1
C'est en fait la meilleure chose à faire, post parfait! Une fois que vous devez être capable de supporter toute la pression sur votre dos, car comme indiqué dans les commentaires ci-dessus, tout le monde se précipitera à votre bureau pour vous dire qu’il peut aller où il le souhaite. En fait, les utilisateurs sont la plupart du temps très égoïstes à ce moment-là et ne veulent pas du tout comprendre, ils veulent juste que ça marche et qu'ils ne se soucient pas du reste ... Alors je suis tout à fait d'accord avec votre message !
Marc-Andre R.
+1 pour distinguer "le problème" des symptômes.
bmb
59

Reste calme

Ne panique pas. Respirer! (Du diaphragme, ça aide.) Si vous avez étudié la méditation, cela peut aussi vous aider.

Face à un stress extrême, votre corps passe en mode fuite ou combat, car il pense être dans une situation de vie ou de mort. À ce stade, votre corps pompe en réalité moins de sang vers certaines parties de votre cerveau, ce qui diminue les fonctions telles que le raisonnement. Cela réduit efficacement votre QI puisque l'instinct, au lieu de la rationalité, commence à dominer vos fonctions cérébrales. Si vous avez déjà assisté à une discussion animée ou si vous en avez déjà été témoin, vous pourrez peut-être reconnaître ces symptômes, car les émotions de chacun se manifestent et la rationalité prend des vacances. Plus tard, quand les gens auront une chance de se calmer, ils seront plus enclins à accepter d'avoir commis une erreur ou à se tromper, et seront plus capables de voir l'autre côté, mais dans le feu de l'action moins.

Maintenir votre sang-froid et garder votre intelligence à votre sujet assurera le fonctionnement optimal de votre cerveau et vous permettra de prendre des décisions rationnelles fondées sur des preuves et la raison plutôt que sur l'émotion et la peur.

Triage

Une utilisation efficace de ressources limitées pour obtenir le plus grand bénéfice au moindre coût est ici primordiale. Décidez dès que possible des problèmes à résoudre immédiatement, qui peuvent attendre un peu (heures, jours) et qui peuvent attendre indéfiniment. Apprenez également à comprendre quand quelque chose est invivable et ne vaut pas la peine d'être sauvé (par exemple, la moitié du routeur est fondu, même si c'est votre seul routeur, vous ne pouvez pas l'enregistrer, en acheter un nouveau et le récupérer sur le site à la hâte ou trouver quelque chose qui peut combler le vide temporairement).

Conserver la conscience de la situation

Ne laissez pas votre attention être piégée par un problème intéressant ou par quelque chose que vous ne comprenez pas encore très bien. Restez concentré sur la vue d'ensemble et sur le bon fonctionnement des choses les plus importantes.

Utiliser la méthode scientifique

Formuler une hypothèse. Déterminez comment vous testeriez cette hypothèse. Recueillir des données pour tester l'hypothèse. Recherchez également les données non confirmantes. Affinez votre hypothèse et répétez le cycle autant de fois que nécessaire jusqu'à ce que vous ayez suffisamment confiance en votre hypothèse pour agir.

Être pragmatique

Ce n'est pas le moment pour le dogme. Vous pouvez prendre quelques raccourcis ici et là lorsque vous vous remettez d'une catastrophe. Il s’agit essentiellement d’une dette technique à recouvrer. Dans de nombreuses entreprises, une défaillance catastrophique entraîne une perte de revenus catastrophique. Il est préférable de mettre les choses en marche, même sur des bases instables, que de risquer la vie de votre entreprise. Comme toujours, le jugement est extrêmement important ici. Parfois, il est logique de soutenir un ventilateur de boîte pointé sur un rack de serveur, parfois non.

Prends soin de toi

Depuis combien de temps travaillez-vous sur cette urgence? À quand remonte la dernière fois que tu as bu de l'eau? Quand as-tu mangé pour la dernière fois? Depuis combien de temps êtes-vous réveillé? Ne vous épuisez pas simplement en cas d'urgence, prenez le temps de rester hydraté, nourri et reposé (au cas où il s'agirait d'un long travail de plusieurs jours).

Recruter de l'aide

Il y a presque certainement dans votre entreprise de nombreux talents qui sont à la fois motivés et capables de vous aider. Méfiez-vous cependant de faire courir trop de monde et de vous causer des problèmes. Méfiez-vous également des gens ennuyeux en les soumettant à un «coup de feu». Trouvez des personnes qui veulent déjà aider, faites-les travailler sur des tâches ciblées et assurez-vous que les personnes communiquent entre elles.

Communiquer

La communication est critique. Rien n'est aussi effrayant que l'inconnu. Lorsque les gens ne savent rien d'autre que quelque chose est brisé, une déclaration vide qu'il sera remis dans X heures n'est que légèrement rassurante (encore moins rassurante après X heures et que les choses soient encore brisées). Les pressions en jeu peuvent vous amener à donner des estimations de temps trop optimistes pour le GAF, mais c’est une mauvaise solution. Ne dites pas simplement que vous travaillez dessus, ne dites pas simplement que les choses seront réparées dans un délai X. Soyez ouvert, montrez votre processus, détaillez vos progrès et vos échecs. Donnez un aperçu du problème, de votre processus de recherche de celui-ci et de votre plan de résolution des problèmes (même si vous ne noyez pas les gens de manière minutieuse). Montrez que le problème n’est pas insoluble, montrez que les choses seront finalement réglées correctement, montrez qu’il existe des personnes compétentes sur le problème,

Coin
la source
24

Ne paniquez pas.

Jauder Ho
la source
4
En grandes lettres amicales rouges.
Spoike
1
J'ai entendu dire que le rose était une couleur apaisante.
Sophie Alpert
11
Prenez une serviette et laissez un message: "A bientôt, et merci pour tout le poisson".
Jauder Ho
1
Ils disent que le taupe est très apaisant
Glenn Slaven,
C'est la moitié du vote!
Andrew Grimm
22

Étape 0. Vérifiez que ce n'est pas votre système de surveillance qui est en panne

Dave Cheney
la source
LOL! Joli! Cela arrive tellement de fois: P
Marc-Andre R.
12

se connecter à serverfault

Phil Nash
la source
11

Réserver immédiatement un vol vers un pays non extraditionnel

Glenn Slaven
la source
8

Commencez par vérifier les bases, cela semble idiot, mais des choses comme

  1. Le serveur est-il sous tension? (si vous hébergez hors site)
  2. Votre fournisseur d'hébergement est-il en panne?

Je sais que beaucoup de temps peut être perdu à chercher une solution lorsque le problème est en amont

Glenn Slaven
la source
2
ouais - si tout va mal - vérifiez le centre de données - et leurs forums de support. S'il y a 30 personnes en ligne, alors qu'il y en a habituellement 3, cela frappe le fan.
Alister Bulman
6

Je cingle des trucs. Qu'est-ce qui se passe après cela varie considérablement en fonction des résultats du ping.

Dylan Beattie
la source
Utilisé cette méthode aujourd'hui. Beaucoup de PC ne pouvaient pas imprimer. J'ai essayé de faire un ping sur le serveur de base de données, OK. J'ai essayé de faire un ping du serveur de licences d'imprimante, sans réponse. Résultat = Erreur du serveur!
Swinders
Bon point;) Je fais ça beaucoup de fois par jour avant de faire autre chose. C'est en fait un gain de temps considérable: P
Marc-Andre R.
4

Blame le réseau.

(c'est une blague!)

Gars
la source
3

RTFLF - Lire le fichier journal Frakkin '

(Je ne peux pas en accepter le mérite, tout va à Scott Hanselman )

Dillie-O
la source
Cela ne devrait pas être le premier pas, mais ce doit être l’un d’eux.
Marc-Andre R.
2

N'essayez pas de réparer quoi que ce soit pour l'instant.

Assurez-vous de connaître exactement le problème réel et sous-jacent. Maintenant, commence à réparer les choses. S'il y a plusieurs choses à réparer, réfléchissez bien aux choses qui peuvent être retardées (du moins jusqu'au prochain jour ouvrable!) Et qui doivent absolument être corrigées maintenant.

Mais le plus important: une fois que tout fonctionne, demandez pourquoi "tout a explosé"? Qu'allez-vous faire pour que cela ne se reproduise plus? Y a-t- il des mesures qui rendraient plus facile la solution si elle ne se reproduise plus?

Stewart
la source
1

Faites savoir aux gens que vous en êtes et, si possible, donnez-leur une estimation du moment où les choses redeviendront normales.

En ce qui concerne le dépannage, cela dépend évidemment de ce qui ne va pas. Je conserve généralement une collection de scripts de "vérification de l'état" pour différents services.

Brian Rasmussen
la source
Pourquoi cela a-t-il été modifié? Cela me semble être un argument valable.
Adriano Varoli Piazza
Ceci est un excellent point. La prévention est la clé pour éviter un grand désastre;)
Marc-Andre R.
1

Vérifiez le câblage! J'ai perdu des heures à vérifier d'autres choses quand un simple échange de câble Eth0 aurait résolu le problème ...

Adriano Varoli Piazza
la source
En réalité, un câble ne meurt pas sans raison. Si ce n’est pas bien la pile, l’emballage ou toute autre méthode de protection et que tout le monde peut jouer, en fait oui, un câble risque de se briser. Sinon, il n'y a pas de raison.
Marc-Andre R.
0

Vous devriez avoir des plans d'urgence.

Les systèmes essentiels doivent être conçus avec un basculement automatique ou un plan de récupération documenté et testé.

Plus le système est important, plus vous avez besoin de résilience et plus il devrait être automatique.

Si vous n'en avez pas, alors ce n'était pas important, n'est-ce pas!

Gars
la source
0

Assurez-vous que la sauvegarde de votre CV est en sécurité :) Ensuite,

Trouvez les points communs. Ce qui est commun à tous les systèmes affectés.

Trouvez ce qui a changé. Vous devriez avoir une gestion formelle du changement dans votre organisation.

Où est le nouveau gars ... où est le patron ...? Est-ce que l'un d'entre eux a pris un raccourci? (c'est juste un redémarrage rapide du serveur, qu'est-ce que ça pourrait faire mal)

BIBD
la source
0

Il est difficile d'après l'énoncé de fournir un ensemble d'actions spécifiques. Votre premier déménagement sera basé sur:

  • Là où tu es
  • Quelle quantité d'informations pouvez-vous extraire de la personne qui vous a contacté?
  • Quels sont les outils immédiats dont vous disposez pour le dépannage (ou la recherche d'informations)
  • Vos connaissances sur les chemins physiques et logiques de votre réseau
  • Combien d’aide avez-vous (membre d’une équipe? Ou ninja solitaire?)

De toute évidence, vous devez rester calme et alerte sur la question à traiter. Votre expérience en matière de dépannage réseau vous aura appris qu’il pourrait très bien s'agir de quelque chose de trivial, tel que:

  • Un câble déconnecté
  • Une maintenance non annoncée (une autre technologie 'réparant' les choses)
  • Votre PDG a réagi de manière excessive en affirmant que la société était complètement vouée à l'échec après la perte de la connectivité sans fil de son ordinateur portable en raison de la cuisson au micro-ondes d'une pizza au fromage.

Cela dit, cela pourrait aussi être grave dans les catégories suivantes:

  • Transport physique (connectivité)
  • Matériel (routeur \ commutateur \ serveur)
  • Stockage (inaccessible \ compromis \ supprimé)
  • Logiciel (Service> Mauvaise configuration \ Attaqué \ Hors ligne)

L'élément clé est ce que vous SAVEZ sur le problème. Quel est ton point de référence? (de quel point de vue le système est-il en panne?).

l0c0b0x
la source
0

Commencez simple et travaillez vers l'absurde.

Puissance?

Ethernet?

Programme en cours?

...

Extraterrestres?

Robert
la source