Quelle est la stratégie pour détecter la dérive temporelle dans un centre de données basé sur Linux?

14

Quelle est la stratégie pour détecter la dérive temporelle dans tous les datacenters basés sur Linux? C'est un problème plus difficile qu'il n'y paraît au premier abord.

La dérive du temps peut provoquer de graves problèmes pour certaines applications et souvent, même si NTP est installé, il est possible d'échouer pour les raisons suivantes (et bien d'autres):

  • NTP n'a pas été correctement configuré pour redémarrer automatiquement au redémarrage.
  • Les paramètres d'un serveur sont incorrects, de sorte que le serveur de temps vers lequel il pointe est inaccessible ou inexact.
  • Le serveur de temps maître est inaccessible et tous les serveurs qui se synchronisent avec lui se synchronisent désormais vers une source non fiable.

Je voudrais un moyen de détecter si tous les serveurs individuels sont corrects. Gardez à l'esprit que le serveur avec le script / l'application de test peut ne pas être correct.

Stuart Woodward
la source
6
Je pense que vos raisons sont fausses, le NTP opérationnel est essentiel pour la ferme. Assurez-vous que NTP fonctionne correctement. Déployez également une horloge maître locale.
user539484
NTP fonctionne dès le départ sur de nombreuses distributions Linux avec des valeurs par défaut raisonnables. C'est à peu près un non-problème maintenant.
Matt

Réponses:

20

C'est facile à contrôler. La gestion de la configuration est la clé ...

Assurez-vous que le service ntp est en cours d'exécution et configuré ...

Par exemple, utiliser Monit pour vous assurer qu'il ntpdfonctionne et pour le redémarrer en cas d'échec est une approche facile ... Il peut être judicieux d'ajouter cron et d'autres démons essentiels à ce type de vérification.

Une autre option consiste à utiliser un outil de gestion de configuration comme Puppet pour forcer le même ntpd.conf sur vos serveurs et vous assurer que ntpd est installé, configuré et en cours d'exécution.

Il y a suffisamment de redondances dans le protocole NTP pour traiter l'instance d'un serveur de temps inaccessible. Spécifiez plusieurs sources.

ewwhite
la source
3
Je dois faire écho à ce sentiment. La gestion de la configuration et plusieurs serveurs NTP sont des éléments assez basiques de l'infrastructure dans tout ce qui se rapproche d'un "centre de données". Un centre de données de taille moyenne ou plus grande doit avoir une horloge matérielle. Les sources de temps GPS peuvent être achetées pour quelques centaines, et si vous avez un fer à souder <100 $.
Chris S
cette solution + nagios
ce gars-là de là-bas
4
Notez que la façon dont vous vérifiez ntpdle statut de est assez importante. Vous ne voulez pas simplement dire "ntpd fonctionne. Tout va bien!". Vous devez réellement vérifier que votre système se synchronise et possède un homologue fonctionnel, ou que le décalage horaire est minimal entre l'hôte et le boîtier de surveillance . Nagios a check_ntp_peeret check_ntp_timequi gère cela, si vous souhaitez utiliser Nagios.
voretaq7
ntpq pour vérifier l'état
kubanczyk
10

Il existe une variété de plugins check_ntp pour les nagios .

En voici un:

http://nagiosplugins.org/man/check_ntp

Ajoutez cette vérification à votre hôte nagios et recevez des alertes en cas de problème.

dmourati
la source
Oui, il suffit de configurer votre système de surveillance pour vérifier que l'heure est valide, ou au moins le décalage par rapport au système de surveillance est minime.
Zoredache