Distance de Mahalanobis entre deux distributions bivariées avec différentes covariances

La question est à peu près contenue dans le titre. Quelle est la distance de Mahalanobis pour deux distributions de matrices de covariance différentes? Ce que j'ai trouvé jusqu'à présent suppose la même covariance pour les deux distributions, c'est-à-dire quelque chose de ce genre:

Δ^{T} Σ^{- 1} Δ

$\Delta^T \Sigma^{-1} \Delta$

Que faire si j'ai deux différents ? $\Sigma$

Remarque: - Le problème est le suivant: il y a deux distributions bivariées qui ont les mêmes dimensions mais qui sont tournées et traduites l'une par rapport à l'autre (désolé, je viens d'un arrière-plan purement mathématique, pas statistique). J'ai besoin de mesurer leur degré de chevauchement / distance.

* Mise à jour: * Ce qui pourrait ou non être implicite dans ce que je demande, c'est que j'ai besoin d'une distance entre les moyennes des deux distributions. Je sais où sont les moyens, mais comme les deux distributions sont tournées l'une par rapport à l'autre, j'ai besoin d'attribuer des poids différents à différentes orientations et donc une simple distance euclidienne entre les moyens ne fonctionne pas. Maintenant, comme je l'ai compris, la distance de Mahalanobis ne peut pas être utilisée pour mesurer cette information si les distributions sont de forme différente (apparemment, cela fonctionne avec deux distributions normales multivariées de covariances identiques, mais pas dans le cas général). Existe-t-il une bonne mesure qui code ce souhait de coder des orientations avec des poids différents?

normal-distribution multivariate-analysis distance-functions Kristian D'Amato
la source

La distance de Mahalanobis n'a aucun sens lorsque les distributions diffèrent. (C'est comme dire "Peter vit sur une sphère et Paul vit sur un plan euclidien; comment calculer la distance entre eux?") Peut-être pourriez-vous reculer d'un pas et nous aider à comprendre la motivation de la question: que faites-vous exactement voulez-vous accomplir ici? Quel est le contexte statistique?

whuber

D'accord, je soupçonnais tellement. La raison pour laquelle je pose la question est que j'ai vu l'équation suivante utilisée pour calculer une distance 'Mahalanobis', ou alors elle a affirmé: I ' je ne suis pas trop sûr que ce soit une distance Mahalanobis; Je ne fais que refléter ce qui a été revendiqué. Une distance Bhattacharya fonctionnerait-elle mieux à sa place?

Δ^{T} \(Σ_{1} Σ_{2} {\)}^{- 1} Δ

$\Delta^T $\Sigma_1 \Sigma_2$^{-1} \Delta$

Kristian D'Amato

@ k-damato Mahalanobis distance mesure la distance entre les points, pas les distributions.

vqv

Très bien, est-ce que quelqu'un reconnaît l'équation ci-dessus comme quelque chose de significatif? Les deltas sont des vecteurs de déplacement.

Kristian D'Amato

@Kristian J'ai fusionné vos deux comptes en double. Veuillez utiliser votre compte enregistré à partir de maintenant.

chl

Réponses:

Il existe de nombreuses notions de distance entre les distributions de probabilité. Lequel utiliser dépend de vos objectifs. La distance de variation totale est un moyen naturel de mesurer le chevauchement entre les distributions. Si vous travaillez avec des normales multivariées, la divergence Kullback-Leibler est mathématiquement pratique. Bien qu'il ne s'agisse pas réellement d'une distance (car il ne parvient pas à être symétrique et ne respecte pas l'inégalité du triangle), il limite la distance de variation totale - voir Inégalité de Pinsker .

vqv
la source

quelques discussions récentes ici ont porté sur les modifications de la divergence KL qui aboutissent à une métrique appropriée. Si vous êtes intéressé, voyez ici et ici .

Cardinal

Intro Comme @vqv l'a mentionné La variation totale et Kullback Leibler sont deux distances intéressantes. Le premier est significatif car il peut être directement lié aux erreurs de premier et de second type dans les tests d'hypothèse. Le problème avec la distance de variation totale est qu'elle peut être difficile à calculer. La distance Kullback Leibler est plus facile à calculer et j'y reviendrai plus tard. Il n'est pas symétrique mais peut être rendu symétrique (en quelque sorte un peu artificiellement).

Réponse Quelque chose que je mentionne ici est que si $\mathcal{L}$ est le rapport de vraisemblance logarithmique entre vos deux mesures gaussiennes $P_0,P_1$ (dis que pour $i=0,1$ $P_i$ a signifie $\mu_i$ et covariance $C_i$ ) mesure d'erreur qui est également entrecroisée (dans le cas gaussien, je l'ai trouvé assez central en fait) est

‖ L ‖_{L_{2} (P_{1 / 2})}^{2}

$\|\mathcal{L}\|^2_{L_2(P_{1/2})}$

pour un bien choisi . $P_{1/2}$

En termes simples :

il peut y avoir différentes rotations "directions" intéressantes, qui sont obtenues en utilisant votre formule avec l'une des matrices de covariance "interpolées" ( ou ) défini à la fin de ce post (le chiffre est celui que vous proposez dans votre commentaire à votre question). $\Sigma=C_{i,1/2}$ $i=1,2,3,4$ $5$ $5$
comme vos deux distributions ont des covariances différentes, il ne suffit pas de comparer les moyennes , il faut aussi comparer les covariances.

Permettez-moi de vous expliquer pourquoi c'est mon sentiment, comment vous pouvez calculer cela dans le cas de et comment choisir . $C_1\neq C_0$ $P_{1/2}$

Cas linéaire Si . $C_1=C_0=\Sigma$

σ = Δ Σ^{- 1} Δ = ‖ 2 L ‖_{L_{2} (P_{1 / 2})}^{2}

$\sigma= \Delta \Sigma^{-1} \Delta=\|2\mathcal{L}\|^2_{L_2(P_{1/2})}$

où est l '"interpolation" entre et (gaussien avec covariance et moyenne ). Notez que dans ce cas, la distance Hellinger, la distance de variation totale peut être écrite en utilisant . $P_{1/2}$ $P_1$ $P_0$ $\Sigma$ $(\mu_1+\mu_0)/2$ $\sigma$

Comment calculer dans le cas général $\mathcal{L}$ Une question naturelle qui découle de votre question (et de la mienne ) est de savoir ce qu'est une "interpolation" naturelle entre et lorsque . Ici, le mot naturel peut être spécifique à l'utilisateur, mais par exemple, il peut être lié à la meilleure interpolation pour avoir une limite supérieure étroite avec une autre distance (par exemple, la distance ici ) $P_1$ $P_0$ $C_1\neq C_0$ $L_1$

Écriture ( ) peut aider à voir où est la tâche d'interpolation, mais:

L = ϕ (C_{i}^{- 1 / 2} (x - μ_{i})) - ϕ (C_{j}^{- 1 / 2} (x - μ_{j})) - \frac{1}{2} \log (C_{i} C_{j}^{-})

$\mathcal{L}= \phi (C^{-1/2}_i(x-\mu_i))-\phi (C^{-1/2}_j(x-\mu_j))-\frac{1}{2}\log \left ( C_iC_j^{-}\right )$

i = 0, j = 1

$i=0,j=1$

L (x) = - \frac{1}{2} ⟨ A_{i j} (x - s_{i j}), x - s_{i j} ⟩_{R^{p}} + ⟨ G_{i j}, x - s_{i j} ⟩_{R^{p}} - c_{i j}, [1]

$\mathcal{L}(x)=-\frac{1}{2}\langle A_{ij}(x-s_{ij}),x-s_{ij}\rangle_{\mathbb{R}^p}+\langle G_{ij},x-s_{ij}\rangle_{\mathbb{R}^p}-c_{ij}, \;[1]$

avec

A_{i j} = C_{i}^{-} - C_{j}^{-}, G_{i j} = S_{i j} m_{i j}, S_{i j} = \frac{C_{i}^{-} + C_{j}^{-}}{2},

$A_{ij}=C_i^{-}-C_j^{-},\;\; G_{ij}=S_{ij}m_{ij},\;\; S_{ij}=\frac{C_i^{-}+C_j^{-}}{2},$

c_{i j} = \frac{1}{8} ⟨ A_{i j} m_{i j}, m_{i j} ⟩_{R^{p}} + \frac{1}{2} \log | det (C_{j}^{-} C_{i}) |

$c_{ij}=\frac{1}{8}\langle A_{ij} m_{ij},m_{ij}\rangle_{\mathbb{R}^p}+\frac{1}{2}\log|\det(C_j^{-}C_i)|$

m_{i j} = μ_{i} - μ_{j} a n d s_{i j} = \frac{μ_{i} + μ_{j}}{2}

$m_{ij}=\mu_i-\mu_j \;\; and\;\; s_{ij}=\frac{\mu_i+\mu_j}{2}$

est plus pertinent à des fins de calcul. Pour tout gaussien de moyenne et de covariance le calcul de partir de l'équation est un peu technique mais faisable. Vous pouvez également l'utiliser pour calculer la distance du leibler de Kulback. $P_{1/2}$ $s_{01}$ $C$ $\|\mathcal{L}\|^2_{L_2(P_{1/2})}$ $1$

Quelle interpolation devons-nous choisir (c'est-à-dire comment choisir ) $P_{1/2}$ Il est clairement compris à partir de l'équation qu'il existe de nombreux candidats différents pour (interpoler) dans le cas "quadratique". Les deux candidats que j'ai trouvés "les plus naturels" (subjectifs :)) résultent de la définition de une distribution gaussienne de moyenne : $1$ $P_{1/2}$ $t\in [0,1]$ $P_t$ $t\mu_1+(1-t)\mu_0$

$P^1_t$ comme la distribution de (où est tiré de ) qui a la covariance ). $ξ_{t} = t ξ_{1} + (1 - t) ξ_{0}$ $\xi_t=t\xi_1+(1-t)\xi_0$ $\xi_i$ $P_i$ $i=0,1$ $C_{t,1}=(tC_1^{1/2}+(1-t)C_0^{1/2})^2$
$P^2_t$ avec covariance inverse $C_{t,2}^{-1}=tC_{1}^{-1}+(1-t)C_0^{-1}$
$P^3_t$ avec covariance $C_{t,3}=tC_1+(1-t)C_0$
$P^4_t$ avec covariance inverse $C_{t,4}^{-1}=(tC^{-1/2}_1+(1-t)C^{-1/2}_0)^{2}$

EDIT: Celui que vous proposez dans un commentaire à votre question pourrait être , pourquoi pas ... $C_{t,5}=C_1^{t}C_0^{1-t}$

J'ai mon choix préféré qui n'est pas le premier :) je n'ai pas beaucoup de temps pour en discuter ici. Peut-être que je modifierai cette réponse plus tard ...

Robin Girard
la source

C'est ancien, mais pour ceux qui lisent ceci, la matrice de covariance reflète la rotation des distributions gaussiennes et la moyenne reflète la translation ou la position centrale de la distribution. Pour évaluer la distance mahab, il s'agit simplement de D = ((m2-m1) * inv ((C1 + C2) / 2) * (m2-m1) '). Maintenant, si vous pensez que les deux distributions bivariées sont identiques, mais que vous pensez qu'elles ont été tournées, calculez les deux paires de vecteurs propres et les valeurs propres pour chaque distribution. Les vecteurs propres pointent dans le sens de la propagation des données bivariées le long des axes majeur et mineur et les valeurs propres indiquent la longueur de cette propagation. Si les valeurs propres sont identiques, alors les deux distributions sont identiques mais tournées. Prenez des acos du produit scalaire entre les vecteurs propres pour obtenir l'angle de rotation.

chasseur de tempête
la source