Nous avons eu une panne assez grave la semaine dernière affectant plusieurs services qui nous ont mis hors de notre SLA avec les clients. Maintenant que tout a été résolu, je procède à un examen post mortem.
À partir de cette revue, je voudrais proposer un document interne qui décrit la panne, ses effets, notre réponse et la résolution. Je veux proposer un formulaire assez standard pour une réutilisation future. J'ai inclus mes réflexions ci-dessous, mais quels autres éléments devraient être inclus? S'il s'agissait d'un incident lié à la sécurité, qu'apporteriez-vous?
- Résumé Résumé de l'événement au niveau exécutif.
- Services concernés
- Impact Quel a été l'impact sur nos utilisateurs et SLA? Y avait-il un coût en dollars, des transactions manquées, des clients perdus, etc.?
- Durée de l'interruption pour chaque service affecté en cas d'écarts
- Cause Y compris les causes primaires et secondaires
- Résolution
- Chronologie des événements Notifications, contact avec des fournisseurs externes, notifications clients, réponses, etc.
- Problèmes avec notre réponse Les choses ne se sont-elles pas déroulées comme prévu avec notre réponse à la panne? Les bonnes personnes ont-elles été informées? Les fournisseurs ont-ils respecté leurs obligations contractuelles?
- Mesures préventives à prendre Comment éviter que cette panne ne se reproduise ou réduire son impact?
- Méthode de détection Dans quelle mesure avons-nous détecté cette panne et comment pouvons-nous améliorer la détection à l'avenir?
- Modifications à apporter dans les futures réponses aux pannes
Essayez de limiter les messages à un élément et à une explication, et ce message peut être mis à jour avec les meilleures réponses votées.
Cela semble bon. J'ajouterais seulement ce qui suit:
Effets / conséquences : Quelle est la conséquence de la panne - qui a été touché, quels SLA ont été violés (le cas échéant), y a-t-il eu des effets d'entraînement?
la source
Les services concernés et la durée des pannes ne vous indiquent qu'une partie de la gravité d'une panne. Vous voulez également savoir quel a été l'impact sur l'entreprise.
Impact : quel effet cela a-t-il eu sur les utilisateurs et comment a-t-il été perçu? Combien cela nous a-t-il coûté (par manque de SLA, perte de commandes, etc.)?
la source
Version publique et version interne
C'est plus quelque chose que la direction doit décider, mais vous pourriez quoi inclure ce qui devrait être divulgué aux clients à ce sujet ou votre recommandation de toute façon. Dans tous les cas, obtenez la signature de la direction sur le libellé exact de ce qui sera communiqué aux clients avant de publier quoi que ce soit.
La version publique doit être incluse dans le présent afin que toute personne dans l'entreprise sache ce qu'elle est autorisée à dire aux clients.
la source