Information mutuelle versus corrélation

51

Pourquoi et quand utiliser les informations mutuelles sur des mesures de corrélation statistique telles que "Pearson", "spearman" ou "Kendall's tau"?

correlation mathematical-statistics mutual-information SaZa
la source

77

Considérons un concept fondamental de corrélation (linéaire), la covariance (qui est le coefficient de corrélation de Pearson "non normalisé"). Pour deux variables aléatoires discrètes et avec des fonctions de masse de probabilité , et joint pmf on a $X$ $Y$ $p(x)$ $p(y)$ $p(x,y)$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{x, y} p (x, y) x y - (\sum_{x} p (x) x) \cdot (\sum_{y} p (y) y)

$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$

\Rightarrow Cov (X, Y) = \sum_{x, y} [p (x, y) - p (x) p (y)] x y

$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$

L'information mutuelle entre les deux est définie comme

I (X, Y) = E (\ln \frac{p (x, y)}{p (x) p (y)}) = \sum_{x, y} p (x, y) [\ln p (x, y) - \ln p (x) p (y)]

$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$

Comparez les deux: chacun contient une "mesure" ponctuelle de "la distance qui sépare les deux véhicules de l'indépendance", exprimée par la distance du joint pmf par rapport au produit du fichier marginal pmf: le a la différence de niveaux, alors que a la différence de logarithmes. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Et que font ces mesures? Dans ils créent une somme pondérée du produit des deux variables aléatoires. Dans ils créent une somme pondérée de leurs probabilités communes. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Donc, avec nous regardons ce que la non-indépendance fait à leur produit, alors que dans nous examinons ce que la non-indépendance fait à leur distribution de probabilité conjointe. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Inversement, est la valeur moyenne de la mesure logarithmique de distance par rapport à l'indépendance, tandis que est la valeur pondérée de la mesure par niveaux de distance par rapport à l'indépendance, pondérée par le produit des deux va. . $I(X,Y)$ $\operatorname{Cov}(X,Y)$

Donc, les deux ne sont pas antagonistes - ils sont complémentaires, décrivant différents aspects de l'association entre deux variables aléatoires. On pourrait dire que l'information mutuelle "n'est pas concernée", que l'association soit linéaire ou non, alors que la covariance peut être nulle et que les variables peuvent toujours être dépendantes stochastiquement. D'autre part, la covariance peut être calculée directement à partir d'un échantillon de données sans qu'il soit nécessaire de connaître réellement les distributions de probabilité impliquées (puisqu'il s'agit d'une expression impliquant des moments de la distribution), tandis que les informations mutuelles nécessitent la connaissance des distributions, dont l'estimation, si inconnu, est un travail beaucoup plus délicat et incertain par rapport à l'estimation de Covariance.

Alecos Papadopoulos
la source

@ Alecos Papadopoulos; Merci pour votre réponse complète.

SaZa

1

Je me posais la même question mais je n'ai pas complètement compris la réponse. @ Alecos Papadopoulos: J'ai compris que la dépendance mesurée n'est pas la même, d'accord. Donc, pour quel type de relations entre X et Y devrions-nous préférer l'information mutuelle I (X, Y) plutôt que Cov (X, Y)? J'ai eu récemment un exemple étrange où Y était presque linéairement dépendant de X (c'était presque une ligne droite dans un nuage de points) et Corr (X, Y) était égal à 0,87 alors que I (X, Y) était égal à 0,45 . Alors, y a-t-il clairement des cas où un indicateur devrait être choisi par rapport à l'autre? Merci pour ton aide!

Gandhi91

X

$X$

H (X)

$H(X)$

C'est une excellente et très claire réponse. Je me demandais si vous avez un exemple facilement disponible où cov est 0, mais pas pmi.

thang

@thang. Pas vraiment. On devrait pouvoir trouver un exemple où la covariance est nulle et avoir en même temps la distribution conjointe disponible pour calculer les informations mutuelles (et la distribution conjointe ne serait pas le produit des marginaux, car nous voulons que les variables ne soient pas indépendant).

Alecos Papadopoulos

7

L'information mutuelle est une distance entre deux distributions de probabilité. La corrélation est une distance linéaire entre deux variables aléatoires.

Vous pouvez avoir une information mutuelle entre deux probabilités quelconques définies pour un ensemble de symboles, alors que vous ne pouvez pas avoir de corrélation entre des symboles qui ne peuvent pas naturellement être mappés dans un espace R ^ N.

D'autre part, les informations mutuelles ne font pas d'hypothèses sur certaines propriétés des variables ... Si vous travaillez avec des variables lisses, la corrélation peut vous en apprendre davantage. par exemple, si leur relation est monotone.

Si vous avez des informations préalables, vous pourrez peut-être passer de l'une à l'autre. Dans les dossiers médicaux, vous pouvez mapper les symboles "a le génotype A" sur 1 et "n'a pas le génotype A" sur les valeurs 0 et 1 et voir si cela présente une forme de corrélation avec une maladie ou une autre. De même, vous pouvez prendre une variable continue (ex: salaire), la convertir en catégories discrètes et calculer les informations mutuelles entre ces catégories et un autre ensemble de symboles.

Pau Vilimelis Aceituno
la source

La corrélation n'est pas une fonction linéaire. Devrait-il dire que la corrélation est une mesure de la relation linéaire entre les variables aléatoires?

Matthew Gunn

1

Je pense que ceci: "Vous pouvez avoir une information mutuelle entre deux probabilités quelconques définies pour un ensemble de symboles, alors que vous ne pouvez pas avoir de corrélation entre des symboles qui ne peuvent pas naturellement être mappés dans un espace R ^ N" est probablement la clé. Corr n'a pas de sens si vous n'avez pas une variable aléatoire complète; Cependant, pmi a un sens même avec juste le pdf et le sigma (l'espace). C'est pourquoi, dans de nombreuses applications où les véhicules récréatifs n'ont pas de sens (par exemple, la PNL), pmi est utilisé.

thang

6

Voici un exemple.

Dans ces deux graphiques, le coefficient de corrélation est égal à zéro. Mais nous pouvons obtenir des informations mutuelles partagées élevées même lorsque la corrélation est nulle.

Dans le premier, je vois que si j'ai une valeur haute ou basse de X, il est probable que j'aurai une valeur élevée de Y. Mais si la valeur de X est modérée, alors j'ai une valeur basse de Y. Le premier graphique contient des informations sur les informations mutuelles partagées par X et Y. Dans le deuxième tracé, X ne me dit rien de Y.

dennislendrem
la source

4

Bien que les deux soient une mesure de la relation entre les caractéristiques, le MI est plus général que le coefficient de corrélation (CE), car le CE ne peut prendre en compte que les relations linéaires, mais le MI peut également gérer des relations non linéaires.

Hossein9
la source

Ce n'est pas vrai. Le coefficient de corrélation de Pearson suppose la normalité et la linéarité de deux variables aléatoires, contrairement aux alternatives non paramétriques de Spearman. Seule la monotonie entre les deux va est assumée.

Miaou

Information mutuelle versus corrélation

Réponses: