J'ai fait des recherches sur les nagios, les opennms et les zenoss mais je ne suis pas sûr d'avoir trouvé ce que je cherche.
La principale force motrice pour moi en ce moment est de pouvoir surveiller les sauvegardes. Cela inclut mysql, mssql et éventuellement certaines sauvegardes du système de fichiers.
Nous avons un outil qui enveloppe le processus de sauvegarde de ces différents systèmes et recueille des statistiques. Ainsi, des éléments comme:
- nombre de bases de données sauvegardées
- taille du fichier de sauvegarde db
- taille du fichier de sauvegarde db compressé
- il est temps de faire une sauvegarde
- temps pour compresser le fichier
Je veux pouvoir A) avoir des notifications si les travaux ne sont pas exécutés selon le calendrier B) être en mesure de définir des seuils sur les statistiques qui déclencheraient des notifications C) Je veux pouvoir suivre et représenter graphiquement les statistiques
Je prévois d'envoyer ces informations à l'application de surveillance via un HTTP POST. Ou, l'application de surveillance peut également l'extraire d'un fichier journal.
Cependant, nous aurons d'autres processus avec d'autres statiques "arbitraires" (du point de vue du système de surveillance) qui voudront surveiller et établir des tendances, donc la flexibilité est très importante.
L'outil ou les outils devraient également être en mesure d'effectuer une surveillance générale et des tendances des interfaces réseau, de la charge du serveur, etc. Une fois la surveillance de sauvegarde en place, nous voudrons également inclure ces éléments.
Merci.
Suivi :
J'ai décidé d'essayer ce qui suit dans l'ordre donné:
- Zabbix: semblait plus un "guichet unique" que les autres et était facile à installer dans Ubuntu Lucid RC
- opsview
- Nagios avec nagvis, pnp4nagios, nagiosgraph
- cacti avec plugin npc
- Munin: un peu marqué de la simplicité, mais cela pourrait s'avérer être une bénédiction à long terme
Je reviendrai une fois que j'ai pris une décision, cela peut prendre un certain temps avant que cela ne se produise.
la source
cela devrait être assez facile à configurer avec zabbix.
la définition de seuils personnalisés (et très puissants) est facile - vous pouvez écrire n'importe quelle expression que vous aimez, donc quelque chose comme "m'avertir si plus de 3 de ces 5 serveurs n'ont pas eu une sauvegarde réussie" est possible. vous pouvez également utiliser 6 niveaux de gravité et escalades différents pour obtenir des notifications et des alertes flexibles.
zabbix a des capacités de stockage et de visualisation de données regroupées - toutes les données sont stockées dans une base de données, et pour représenter graphiquement une métrique unique, vous n'avez besoin d'aucune configuration - vous obtenez juste un graphique pour cela "gratuitement". pour le stockage à long terme et les tendances, des moyennes sur une heure sont calculées.
quant à la saisie de vos données sur les sauvegardes dans zabbix, les possibilités sont multiples. vous pouvez le lire à partir de fichiers, vous pouvez lancer des commandes personnalisées, vous pouvez le pousser depuis la machine surveillée à l'aide de l'utilitaire de ligne de commande zabbix_sender ... et il pourrait y avoir quelques autres approches possibles.
l'extension est facile - toute commande personnalisée qui renvoie des données peut être utilisée pour collecter, stocker et visualiser ces données.
bien sûr, une surveillance générale des systèmes d'exploitation, des applications, des périphériques snmp et ipmi, etc. est possible.
la source
exécution
les sauvegardes sont orchestrées par backupninja . je l'utilise juste comme un wrapper pour mes scripts bash - pour avoir un seul journal de sauvegarde. chaque script commence par
donc j'obtiens une erreur dans les journaux chaque fois que l'une des commandes [par exemple mysqldump ou rsync] échoue.
toutes les sauvegardes se retrouvent dans le référentiel rdiff donc j'ai n jours d'incréments.
toutes les sauvegardes sont transmises à l'aide de rsync au serveur de stockage central.
sur le serveur de stockage, toutes les sauvegardes sont vérifiées quotidiennement et après une vérification réussie des données sur le disque local, elles sont copiées sur un lecteur USB externe.
vérification
backupninja.log sur tous les serveurs est surveillé par nagios. je vérifie s'ils ne contiennent que des messages DEBUG et INFO. toute autre chose déclenche l'alerte.
chaque sauvegarde «touche» un fichier de test, dont la présence et la fraîcheur sont surveillées sur le serveur de référentiel de sauvegarde central avec nagios.
en outre, les vidages sql plus critiques sont vérifiés pour leur taille [pas seulement la fraîcheur] et leur exhaustivité [par exemple, à la fin des vidages mysql, je m'attends à un nouvel horodatage dans
toutes les archives rdiff sont vérifiées quotidiennement avant la synchronisation des données sur la clé USB, puis à nouveau après leur synchronisation. donc même si le transfert nocturne est interrompu, j'aurai un référentiel cohérent uniquement sur le disque USB. le résultat de la vérification est enregistré dans un fichier dont le contenu et la fraîcheur sont vérifiés par les nagios.
les disques usb tournent chaque semaine et sont stockés hors ligne, au cas où. cela peut être exagéré pour de plus grandes quantités de données, mais fonctionne bien pour ~ 300 Go de fichiers / vidages à évolution lente.
les tendances
J'utilise un plugin Munin personnalisé simple pour tracer la taille des diff / données pour chaque référentiel rdiff.
le temps qu'il faut pour exécuter peut être vérifié dans les journaux de backupninja mais pour l'instant je ne m'en soucie pas.
la source
nagios peut faire des tendances, mais vous devez générer des perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) dans votre plugin. Si vous utilisez un pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start, tout sera représenté graphiquement pour vous.
J'ai trouvé que l'utilisation de opsview http://www.opsview.org/ est bien plus facile que de configurer nagios et pnp4nagios. Surtout si vous êtes le seul administrateur averti de Linux au travail. Opsview est nagios avec un excellent webui qui permet presque toutes les actions du navigateur web. Parce qu'il s'agit de nagios, vous pouvez utiliser tous les plugins nagios que vous utilisiez dans le passé. Excellent outil.
la source
Nagios pour les alertes et Cacti pour le graphisme ainsi que certains scripts shell ou perl feront exactement ce que vous voulez. En les combinant ensemble, vous pourriez faire à peu près n'importe quoi, selon la quantité d'efforts que vous êtes prêt à y consacrer.
la source
Je recommande OpenNMS . Le package est entièrement open source, activement pris en charge et régulièrement amélioré. Pour référence, j'ai trouvé sur leurs informations de configuration wiki pour surveiller Symantec Backup Exec .
De leur site Web ..
Divulgation: Je n'ai aucun intérêt commercial ici, mais le propriétaire de The OpenNMS Group , l'organisation de services commerciaux, de formation et de soutien mentionnée ci-dessus est un de mes amis.
la source
Cela pourrait être fait facilement avec Circonus ( http://circonus.com/ ). Nous importons régulièrement des métriques comme celle-ci avec la DTD XML Resmon.
la source