Quelle est la distribution de la distance euclidienne entre deux variables aléatoires normalement distribuées?

42

Supposons que deux objets dont l'emplacement exact sont inconnus, mais distribués selon des distributions normales avec des paramètres connus (par exemple, et . Nous pouvons supposer qu'il s'agit de deux normales normales à deux variables, telles que les positions sont décrites par une distribution sur les (c.-à-d. Que et sont les vecteurs contenant les coordonnées attendues pour et respectivement). Nous supposerons également que les objets sont indépendants.b ~ N ( v , t ) ) ( x , y ) m v ( x , y ) un baN(m,s)bN(v,t))(x,y)mv(x,y)ab

Est-ce que quelqu'un sait si la distribution de la distance euclidienne au carré entre ces deux objets est une distribution paramétrique connue? Ou comment dériver analytiquement le PDF / CDF pour cette fonction?

Entaille
la source
4
Vous devriez obtenir un multiple d'une distribution chi-carré non centrale à condition que les quatre coordonnées ne soient pas corrélées. Sinon, le résultat semble beaucoup plus compliqué.
whuber
@whuber tous les détails / indications que vous pourriez fournir sur la relation entre les paramètres de la distribution khi-carrée non centrale résultante et ceux des objets a, b seraient fantastiques
Nick
4
@Nick Les premiers paragraphes de l'article Wikipedia fournissent les détails. En examinant les fonctions caractéristiques, vous pouvez établir qu'un résultat similaire n'est pas disponible lorsque toutes les variances ne sont pas identiques ou qu'il existe des corrélations.
whuber
@ Nick, juste pour clarifier, et sont tous deux des vecteurs aléatoires avec des valeurs dans ? b R 2abR2
Mpiktas
1
@ Nick, si et sont conjointement normaux, la différence est que est normal aussi. Ensuite, votre problème est de trouver la distribution du vecteur normal aléatoire. J'ai trouvé ce lien sur Google . Le document décrit un problème beaucoup plus complexe qui, dans des cas très particuliers, coïncide avec le vôtre. Cela laisse espérer une réponse définitive à votre question. Les références peuvent vous donner d'autres idées de recherche. b a - babab
Mpiktas

Réponses:

24

La réponse à cette question se trouve dans le livre Formes quadratiques en variables aléatoires de Mathai et Provost (1992, Marcel Dekker, Inc.).

Comme les commentaires précisent, vous devez trouver la distribution de z = a - b suit une distribution normale bivariée avec une moyenne μ et de covariance matrice Σ . Il s’agit d’une forme quadratique dans la variable aléatoire bivariée z .Q=z12+z22z=abμΣz

En bref, un bon résultat général pour le cas de dimension où z ~ N p ( μ , Σ ) et Q = p Σ j = 1 z 2 j est que la fonction de génération de moment est E ( e t Q ) = e t Σ p j = 1 b 2 j λ jpzNp(μ,Σ)

Q=j=1pzj2
λ1,...,λpsont les valeurs propres deΣetbest une fonction linéaire deμ. Voirthéorème 3.2a.2 (page 42) dans le livre précité (nous supposons ici queΣest non singulier). Une autre représentation utile est 3.1a.1 (page 29) Q=pj=1
E(etQ)=etj=1pbj2λj12tλjj=1p(12tλj)1/2
λ1,,λpΣbμΣ u 1 , , u p sont iid N ( 0 , 1 ) .
Q=j=1pλj(uj+bj)2
u1,,upN(0,1)

L'ensemble du chapitre 4 du livre est consacré à la représentation et au calcul des densités et des fonctions de distribution, ce qui n'est pas du tout trivial. Je ne connais que superficiellement le livre, mais j’ai l’impression que toutes les représentations générales sont exprimées en termes d’extensions de séries infinies.

λ1,λ2>0b1,b2R

abab

NRH
la source
1
Merci pour la référence, j'ai trouvé le livre et j'essaie lentement de me frayer un chemin
Nick
λj=σ2p=2bj2λjμj2
bjμj2
7

μd=μ1μ2Σd=Σ1+Σ2 Σd=JΣ12JTΣ12=[Σ1Σ2]J=[+I,I]

Deuxièmement, recherchez la distribution de la longueur du vecteur de différence, ou la distance radiale à l'origine, qui est distribuée par Hoyt :

Le rayon autour de la moyenne vraie dans une variable aléatoire normale corrélée à deux variables avec des variances inégales, réécrit en coordonnées polaires (rayon et angle), suit une distribution de Hoyt. Les pdf et cdf sont définis sous forme fermée, la recherche de racine numérique étant utilisée pour trouver cdf ^ −1. Réduit à la distribution de Rayleigh si la corrélation est 0 et les variances sont égales.

Une distribution plus générale se produit si vous autorisez une différence biaisée (origine décalée), de Ballistipedia : Distributions des coordonnées xy et erreur radiale résultante

Felipe G. Nievinski
la source
2
+1, mais je pense que cela vaut la peine de préciser que la question porte sur ce que votre chiffre appelle le "cas général".
amibe dit de réintégrer Monica
1

Pourquoi ne pas le tester?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Parcelle 1 Parcelle 2 Parcelle 3 Parcelle 4

Brandon Bertelsen
la source
2
Les commentaires des whubers sur la question initiale indiquaient déjà à quoi cela ressemblerait si les écarts étaient les mêmes et les variables non corrélées. Peut-être que donner un exemple de ce qui n'est pas le cas serait plus éclairant.
Andy W
Pouvez-vous donner un tel exemple?
Brandon Bertelsen
il vous suffit de générer les valeurs x et y corrélées ou présentant des variances différentes. Les différents écarts pourraient être faits tels quels dans le code. Vous pouvez générer des valeurs à partir d'une matrice de covariance spécifiée à l'aide de mvrnorm à partir du package MASS. Aussi, je ne suis pas sûr de ce que la fonction "dentiste" est dans le code ci-dessus, devrait-il être "densité".
Andy W
1
Cela dit, il est probablement tout aussi éclairant d’explorer les calculs pour comprendre pourquoi (et comment la manipulation de la variance / des covariances modifiera la distribution). Ce n'est pas tout à fait clair pour moi pourquoi c'est le cas juste en regardant la fonction caractéristique mentionnée par Whuber. Il semble qu'une simple compréhension des règles d'ajout, de soustraction et de multiplication de variables aléatoires vous aidera à comprendre pourquoi.
Andy W