J'utilise actuellement Request Tracker ( http://www.bestpractical.com/rt )
Tous les événements de maintenance obtiennent un ticket associé dans la file d'attente "systèmes". Les notes sur les problèmes rencontrés, qui a fait quoi, quand, etc. sont toutes inscrites dans le ticket, ainsi que les approbations nécessaires.
Pour le moment, nos tâches récurrentes (correctifs trimestriels, etc.) sont créées manuellement, mais elles pourraient être automatisées assez facilement (cron job + email).
Coordonner qui fait quel travail est relativement facile pour nous car il n'y a que 2 personnes dans notre groupe d'administration, mais au fur et à mesure que nous élargissons le plan, nous créons un ticket principal pour les événements de maintenance et utilisons des tickets enfants attribués aux parties responsables pour déléguer le travail .
Les choses quotidiennes (vérifications des journaux, etc.) sont une autre affaire: j'ai tout cela consacré à des processus automatisés:
- InterMapper garde un œil sur l'état général des serveurs (requêtes SNMP recherchant une charge élevée, un espace disque faible, etc.), la fonctionnalité de nos interfaces Web et diverses autres choses qui pourraient indiquer des problèmes.
- Syslog-NG collecte les journaux de nos hôtes et les alimente à travers un tas de scripts qui vérifient la méchanceté évidente. Je jette un œil sur les journaux de temps en temps pour vérifier la validité des scripts, mais ce n'est pas régulièrement planifié.
Pour le travail de projet, il est chassé de l'application de gestion de projet (courrier électronique et calendrier intégrés avec la possibilité de documenter le travail détaillé et de le planifier pour des personnes particulières).
Pour la maintenance, les mises à niveau, les correctifs, etc., nous avons un système de ticket qui s'intègre plus ou moins à notre processus de gestion des changements pour gérer les demandes et la planification.
Pour un travail entièrement interne et un travail sur de longs cycles (trimestriel, annuel, etc.):
Les rappels de faire les choses sont planifiés. Il existe une documentation informelle / semi-formelle ("wiki") sur ce que pourrait être le calendrier général.
Il existe une certaine quantité de "procédures" et de documentation procédurale sur la façon d'effectuer les tâches et est accessible à l'équipe dans son ensemble, mais les gens ont leurs propres "livres noirs" et journaux administratifs avec des notes et des recettes.
la source
Un système de surveillance peut aider avec ces choses:
Nous documentons chaque cycle de maintenance mensuelle dans un fichier Word avec des cases à cocher. Chaque mois, nous enregistrons le rapport dans un dossier sur notre NAS. Nous surveillons l'âge minimum des fichiers du dossier. Si l'âge minimum du fichier est supérieur à 40 jours, nous obtenons une alarme.
Une partie de notre maintenance de routine consiste à redémarrer les serveurs et les appliances sélectionnés une fois par mois. Nous utilisons des capteurs de «disponibilité du système» (SNMP / WMI) sur notre logiciel de surveillance et si la disponibilité est supérieure à 40 jours, nous obtenons une alarme.
Pour les sauvegardes, nous surveillons l'âge minimum des fichiers dans le dossier de sauvegarde de chaque serveur sur notre NAS. Si l'âge minimum du fichier est supérieur à 10 jours, nous obtenons une alarme.
la source
J'utilise Checkpanel ( https://checkpanel.com ) pour gérer mes tâches de maintenance récurrentes. Il fournit des listes de contrôle réutilisables et une interface facile pour enregistrer les résultats de chaque contrôle.
Après avoir vérifié un article, il n'est pas seulement "terminé" mais reste disponible pour d'autres vérifications. Chaque vérification est enregistrée de sorte que vous pouvez facilement consulter un historique de toutes les vérifications passées d'un article - y compris des détails facultatifs (par exemple, des messages d'erreur pour les vérifications échouées).
Vous pouvez définir un récurrent pour chaque article pour vous assurer de le vérifier au moins une fois par semaine / tous les 2 jours / etc. Il existe une vue consolidée de tous les articles dus. Si vous le souhaitez, vous pouvez également recevoir un e-mail quotidien avec tous les éléments dus.
Il existe un modèle de listes de contrôle de maintenance du serveur que vous pouvez utiliser comme base pour vos propres listes de contrôle. D'autres modèles incluent des listes de contrôle pour les applications Web, WordPress et plus encore.
Divulgation: je suis le fondateur de Checkpanel.
la source