Correction d'une imprécision d'horloge normalement distribuée

10

J'ai une expérience qui est exécutée sur des centaines d'ordinateurs répartis dans le monde entier qui mesure les événements de certains événements. Les événements dépendent chacun les uns des autres pour que je puisse les commander dans l'ordre croissant et ensuite calculer la différence de temps.

Les événements doivent être distribués de façon exponentielle, mais lorsque je trace un histogramme, voici ce que j'obtiens:

Histogramme des événements

L'imprécision des horloges sur les ordinateurs fait que certains événements se voient attribuer un horodatage plus tôt que celui de l'événement dont ils dépendent.

Je me demande si la synchronisation d'horloge peut être imputée au fait que le pic du PDF n'est pas à 0 (qu'ils ont déplacé le tout vers la droite)?

Si les différences d'horloges sont normalement réparties, puis-je simplement supposer que les effets se compenseront les uns les autres et utiliseront donc simplement le différentiel de temps calculé?

cdecker
la source

Réponses:

13

Des problèmes de synchronisation d'horloge pourraient en effet entraîner un décalage du pic vers la droite. La simulation suivante dans R montre ce phénomène. J'ai utilisé des temps exponentiels et des différences d'horloge normales pour obtenir une forme qui ressemble à peu près à votre image:

Horloges

La distribution à gauche (les différences réelles, mesurées sans erreur) a son pic à 0, tandis que la distribution à droite (différences mesurées avec erreur) a son pic autour de 100.

Code R:

set.seed(20120904)

# Generate exponential time differences:
x<-rexp(100000,1/900)

# Generate normal clock differences:
y<-rnorm(100000,0,50)

# Resulting observations:
xy<-x+y

# Truncate at 500:
xy<-xy[xy<=500]

# Plot histograms:
par(mfrow=c(1,2))
hist(x[x<=500],breaks=100,col="blue",main="Actual differences")
hist(xy,breaks=100,col="blue",main="Observed differences")
lines(c(0,0),c(0,550),col="red")

Si les différences d'horloge sont normales avec une moyenne de 0, les différences devraient s'annuler dans le sens où la moyenne des différences observées doit être égale à celle des différences réelles. Que ce soit le cas dépend de la différence systématique entre les ordinateurs sur lesquels le premier événement se produit et les ordinateurs sur lesquels le deuxième événement se produit.

MånsT
la source
4
+1 Joliment illustré. Mathématiquement, les données sont tirées de la somme de la distribution d'erreur et de la distribution exponentielle (présumée). Il est tentant d'estimer la distribution des erreurs et de déconvoluer les données pour estimer la vraie distribution.
whuber