Corrélation de distance versus information mutuelle

15

Je travaille avec l'information mutuelle depuis un certain temps. Mais j'ai trouvé une mesure très récente dans le "monde de corrélation" qui peut également être utilisée pour mesurer l'indépendance de distribution, la soi-disant "corrélation de distance" (également appelée corrélation brownienne): http://en.wikipedia.org/wiki/Brownian_covariance . J'ai vérifié les papiers où cette mesure est introduite, mais sans trouver aucune allusion à l'information mutuelle.

Donc, mes questions sont:

  • Résolvent-ils exactement le même problème? Sinon, en quoi les problèmes sont-ils différents?
  • Et si la question précédente peut recevoir une réponse positive, quels sont les avantages d'utiliser l'un ou l'autre?
dsign
la source
Essayez d'écrire explicitement «corrélation de distance» et «information mutuelle» pour un exemple simple. Dans le second cas, vous obtiendrez des logarithmes, tandis que dans le premier - non.
Piotr Migdal
@PiotrMigdal Oui, je suis conscient de cette différence. Pourriez-vous expliquer pourquoi est-ce important? S'il vous plaît, prenez en compte que je ne suis pas un statisticien ...
dsign
Pour ma, un outil standard mesurant la dépendance mutuelle des distributions de probabilité est l'information mutuelle. Il a beaucoup de belles propriétés et son interprétation est simple. Cependant, il peut y avoir des problèmes spécifiques où la corrélation de distance est préférée (mais je ne l'ai jamais utilisée de ma vie). Alors, quel est le problème que vous essayez de résoudre?
Piotr Migdal
2
Ce commentaire est en retard de quelques années, mais le département des statistiques de l'Université de Columbia a fait de l'année universitaire 2013-2014 une année de concentration sur les mesures de la dépendance. En avril-mai 2014, un atelier a été organisé qui a réuni les meilleurs universitaires travaillant dans ce domaine, notamment les frères Reshef (MIC), Gabor Szekely (corrélations de distance), Subhadeep Mukhopadhay pour n'en nommer que quelques-uns. Voici un lien vers le programme qui comprend de nombreux fichiers PDF des présentations. dependence2013.wikischolars.columbia.edu/…
Mike Hunter

Réponses:

9

L'information / information mutuelle ne dépend pas des valeurs possibles, elle ne dépend que des probabilités donc elle est moins sensible. La corrélation de distance est plus puissante et plus simple à calculer. Pour une comparaison, voir

http://www-stat.stanford.edu/~tibs/reshef/comment.pdf

gabor J Szekely
la source
2
Salut, merci pour votre réponse! Le document auquel vous faites référence concerne la MIC, qui est, je crois, un peu plus que la MI. J'ai mis en œuvre la mesure de corrélation de distance et je ne pense pas qu'elle soit plus simple que l'IM pour le cas élémentaire de variables catégorielles discrètes. Là encore, une chose que j'ai apprise est que DCM est bien défini et se comporte bien pour les variables continues, mais avec MI, vous devez faire du binning ou des trucs fantaisistes comme MIC.
dsign
3
Cependant, DCM semble avoir besoin de matrices carrées dont le côté est le nombre d'échantillons. En d'autres termes, la complexité de l'espace est quadratique. Ou du moins c'est mon impression, je voudrais me tromper. MIC fait mieux, car vous pouvez le régler dans une sorte de compromis entre précision et performances.
dsign