Comment * vous * suivez-vous et documentez-vous l'entretien courant?

10

Quel logiciel ou système utilisez-vous sur les pannes de serveur pour vous rappeler de faire une maintenance de routine? Comment vérifier et consigner les différents éléments que vous êtes censé vérifier? Avez-vous un document de processus interne? Avez-vous cron mail chaque semaine avec des rappels pour vérifier les journaux système?

De plus, travaillez-vous en équipe pour effectuer la maintenance du système, et si oui, comment coordonnez-vous qui fera quelle maintenance?

Si vous utilisez un système de suivi des bogues / problèmes pour saisir des tâches, avez-vous un travail cron pour saisir des tâches récurrentes?

Zak
la source

Réponses:

5

J'utilise actuellement Request Tracker ( http://www.bestpractical.com/rt )
Tous les événements de maintenance obtiennent un ticket associé dans la file d'attente "systèmes". Les notes sur les problèmes rencontrés, qui a fait quoi, quand, etc. sont toutes inscrites dans le ticket, ainsi que les approbations nécessaires.

Pour le moment, nos tâches récurrentes (correctifs trimestriels, etc.) sont créées manuellement, mais elles pourraient être automatisées assez facilement (cron job + email).

Coordonner qui fait quel travail est relativement facile pour nous car il n'y a que 2 personnes dans notre groupe d'administration, mais au fur et à mesure que nous élargissons le plan, nous créons un ticket principal pour les événements de maintenance et utilisons des tickets enfants attribués aux parties responsables pour déléguer le travail .


Les choses quotidiennes (vérifications des journaux, etc.) sont une autre affaire: j'ai tout cela consacré à des processus automatisés:

  • InterMapper garde un œil sur l'état général des serveurs (requêtes SNMP recherchant une charge élevée, un espace disque faible, etc.), la fonctionnalité de nos interfaces Web et diverses autres choses qui pourraient indiquer des problèmes.
  • Syslog-NG collecte les journaux de nos hôtes et les alimente à travers un tas de scripts qui vérifient la méchanceté évidente. Je jette un œil sur les journaux de temps en temps pour vérifier la validité des scripts, mais ce n'est pas régulièrement planifié.
voretaq7
la source
2

Une automatisation correctement implémentée supprime le besoin de tâches et de listes de contrôle. Pourquoi voulez-vous vérifier manuellement les choses lorsque vous avez des ordinateurs qui peuvent faire le travail de manière beaucoup plus efficace et efficiente?

Tout ce qui nécessite une vérification périodique est vérifié par le système de surveillance. Les tâches de routine sont automatisées chaque fois que cela est possible et des rappels sont envoyés pour les quelques tâches qui doivent être effectuées manuellement. La documentation est une autre affaire, mais bien faite, vos ordinateurs peuvent principalement créer leur propre documentation.

Arrêtez de chercher de meilleures méthodes manuelles et commencez à chercher de meilleures façons automatisées de faire n'importe quel travail. Les ordinateurs sont là pour travailler pour nous, pas nous pour travailler pour eux.

John Gardeniers
la source
Bon principe: un administrateur système doit toujours être à la fois compétent et paresseux. Le désir de ne pas travailler amènera de bons administrateurs système à mettre en œuvre une bonne automatisation.
voretaq7
Permettez-moi de donner un exemple spécifique: j'ai besoin de surveiller les correctifs de sécurité pour Apache, puis de générer une nouvelle version et de la tester lorsqu'un correctif sort. La partie de routine surveille une nouvelle version d'Apache. Vous ne pouvez pas simplement mettre à jour directement à partir du référentiel (principal) car il n'aura pas les bons modules compilés. De plus, vous devez effectuer un audit pour vous assurer que les versions ont été vérifiées. Est-ce que ça fait plus de sens?
Zak
De plus, je ne veux pas simplement lancer le dernier lot de n'importe quel logiciel jusqu'à ce que la version ait passé le contrôle qualité. Une grande partie de l'AQ est automatisée, mais pas tout.
Zak
Et y a-t-il une raison qui ne peut pas tous être scénarisés? Vérifications automatisées des mises à jour, vous envoyant une alerte lorsque certaines sont disponibles, suivies d'une compilation et d'une installation scriptées, prêtes à être testées. Laissez la machine faire le gros du travail et dites-vous quand votre attention est requise.
John Gardeniers
1

Pour le travail de projet, il est chassé de l'application de gestion de projet (courrier électronique et calendrier intégrés avec la possibilité de documenter le travail détaillé et de le planifier pour des personnes particulières).

Pour la maintenance, les mises à niveau, les correctifs, etc., nous avons un système de ticket qui s'intègre plus ou moins à notre processus de gestion des changements pour gérer les demandes et la planification.

Pour un travail entièrement interne et un travail sur de longs cycles (trimestriel, annuel, etc.):

Les rappels de faire les choses sont planifiés. Il existe une documentation informelle / semi-formelle ("wiki") sur ce que pourrait être le calendrier général.

Il existe une certaine quantité de "procédures" et de documentation procédurale sur la façon d'effectuer les tâches et est accessible à l'équipe dans son ensemble, mais les gens ont leurs propres "livres noirs" et journaux administratifs avec des notes et des recettes.

damorg
la source
1

Un système de surveillance peut aider avec ces choses:

  • Nous documentons chaque cycle de maintenance mensuelle dans un fichier Word avec des cases à cocher. Chaque mois, nous enregistrons le rapport dans un dossier sur notre NAS. Nous surveillons l'âge minimum des fichiers du dossier. Si l'âge minimum du fichier est supérieur à 40 jours, nous obtenons une alarme.

  • Une partie de notre maintenance de routine consiste à redémarrer les serveurs et les appliances sélectionnés une fois par mois. Nous utilisons des capteurs de «disponibilité du système» (SNMP / WMI) sur notre logiciel de surveillance et si la disponibilité est supérieure à 40 jours, nous obtenons une alarme.

  • Pour les sauvegardes, nous surveillons l'âge minimum des fichiers dans le dossier de sauvegarde de chaque serveur sur notre NAS. Si l'âge minimum du fichier est supérieur à 10 jours, nous obtenons une alarme.

Dirk Paessler
la source
1

J'utilise Checkpanel ( https://checkpanel.com ) pour gérer mes tâches de maintenance récurrentes. Il fournit des listes de contrôle réutilisables et une interface facile pour enregistrer les résultats de chaque contrôle.

Après avoir vérifié un article, il n'est pas seulement "terminé" mais reste disponible pour d'autres vérifications. Chaque vérification est enregistrée de sorte que vous pouvez facilement consulter un historique de toutes les vérifications passées d'un article - y compris des détails facultatifs (par exemple, des messages d'erreur pour les vérifications échouées).

Vous pouvez définir un récurrent pour chaque article pour vous assurer de le vérifier au moins une fois par semaine / tous les 2 jours / etc. Il existe une vue consolidée de tous les articles dus. Si vous le souhaitez, vous pouvez également recevoir un e-mail quotidien avec tous les éléments dus.

Il existe un modèle de listes de contrôle de maintenance du serveur que vous pouvez utiliser comme base pour vos propres listes de contrôle. D'autres modèles incluent des listes de contrôle pour les applications Web, WordPress et plus encore.

Divulgation: je suis le fondateur de Checkpanel.

Florian Sander
la source