L'algorithme MIC pour détecter les corrélations non linéaires peut-il être expliqué intuitivement?

20

Plus récemment, j'ai lu deux articles. Le premier concerne l'historique de la corrélation et le second concerne la nouvelle méthode appelée coefficient d'information maximal (MIC). J'ai besoin de votre aide pour comprendre la méthode MIC pour estimer les corrélations non linéaires entre les variables.

De plus, les instructions pour son utilisation dans R peuvent être trouvées sur le site Web de l'auteur (sous Téléchargements ):

J'espère que ce serait une bonne plateforme pour discuter et comprendre cette méthode. Mon intérêt pour discuter d'une intuition derrière cette méthode et comment elle peut être étendue comme l'a dit l'auteur.

" ... nous avons besoin d'extensions de MIC (X, Y) à MIC (X, Y | Z). Nous voulons savoir combien de données sont nécessaires pour obtenir des estimations stables de MIC, dans quelle mesure elles sont sensibles aux valeurs aberrantes, quels sont les trois - ou des relations de plus grande dimension qui lui manqueront, et plus encore. La CMI est un grand pas en avant, mais il y a beaucoup plus d'étapes à franchir. "

Biostat
la source
La question est intéressante, mais je pense qu'elle ne peut pas répondre. Pouvez-vous s'il vous plaît le rendre plus précis?
mpiktas
3
La discussion sera entravée par le fait que l'article de Science n'est pas en libre accès.
Itamar
7
Voici une copie de l'article publié par l'un des auteurs.
10
En bref, MIC est une fouille de la vieille idée de "plot-all-scatterplots-and-peak-those-with-plus-white-area", donc il produit principalement des faux positifs, a une complexité irréelle de (que les auteurs cachent derrière l'heuristique test-only-some-random-selected-pairs) et by-design rate toutes les interactions à trois variables et plus. O(M2)
4
Pour les détails techniques sur le MIC, le matériel de support en ligne est plus informatif que l'article lui-même.
res

Réponses:

22

N'est-ce pas dire que cela a été publié dans une revue non statistique dont nous ne sommes pas certains de la revue statistique par les pairs? Ce problème a été résolu par Hoeffding en 1948 (Annals of Mathematical Statistics 19: 546) qui a développé un algorithme simple ne nécessitant pas de regroupement ni d'étapes multiples. Le travail de Hoeffding n'était même pas référencé dans l'article Science. Cela fait partie de la hoeffdfonction R du Hmiscpackage depuis de nombreuses années. Voici un exemple (tapez example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdutilise une implémentation Fortran assez efficace de la méthode de Hoeffding. L'idée de base de son test est de considérer la différence entre les rangs conjoints de X et Y et le produit du rang marginal de X et du rang marginal de Y, convenablement mis à l'échelle.

Mise à jour

Depuis, je correspond avec les auteurs (qui sont d'ailleurs très gentils, ouverts à d'autres idées et continuent à rechercher leurs méthodes). Ils avaient à l'origine la référence Hoeffding dans leur manuscrit mais l'ont coupé (avec regrets, maintenant) par manque d'espace. Bien que le test de Hoeffding semble bien performer pour détecter la dépendance dans leurs exemples, il ne fournit pas d'indice qui réponde à leurs critères de classement des degrés de dépendance de la manière dont l'œil humain est capable de le faire.

Dans une prochaine version du Hmiscpackage R , j'ai ajouté deux sorties supplémentaires liées à , à savoir la moyenne et maxqui sont des mesures utiles de la dépendance. Cependant, ces mesures, comme , n'ont pas la propriété que recherchaient les créateurs de MIC.|F(X,y)-g(X)H(y)|

Frank Harrell
la source
6
(+1) L'article de Hoeffding est disponible en ligne.
res
1
Belle trouvaille. Cela pourrait valoir une courte note pour la science comparant les performances de Hoeffding avec les leurs. Il est dommage que de nombreuses bonnes études (dans de nombreux domaines) des années 50 aient été oubliées au fil des ans.
Itamar
6

Mje=H(X)+H(Oui)-H(X,Oui)
H(X)=-jep(zje)Journalp(zje)
H(X,Oui)=-je,jp(Xje,yj)Journalp(Xje,yj)

L' idée principale des auteurs est de discrétiser les données sur de nombreuses grilles bidimensionnelles différentes et de calculer des scores normalisés qui représentent les informations mutuelles des deux variables sur chaque grille. Les scores sont normalisés pour assurer une comparaison équitable entre les différentes grilles et varient entre 0 (non corrélé) et 1 (corrélations élevées).

R2

Itamar
la source
3

J'ai trouvé deux bons articles expliquant plus clairement l'idée de MIC en particulier celui- ci; ici le second .

Comme je l'ai compris à partir de ces lectures, vous pouvez zoomer sur différentes complexités et échelles de relations entre deux variables en explorant différentes combinaisons de grilles; ces grilles sont utilisées pour diviser l'espace bidimensionnel en cellules. En choisissant la grille qui contient le plus d'informations sur la façon dont les cellules partitionnent l'espace, vous choisissez le MIC.

Je voudrais demander à @mbq s'il pouvait étendre ce qu'il a appelé "tracer tous les nuages ​​de points et pics ceux avec la plus grande zone blanche" et la complexité irréelle de O (M2).

pedrosaurio
la source
4
Je m'inquiète de toute méthode statistique qui utilise le binning.
Frank Harrell
@FrankHarrell Pouvez-vous fournir des références ou une intuition qui expliquent pourquoi le binning est mauvais? Intuitivement, je peux voir que vous jetez essentiellement des informations à cause du binning, mais il doit y avoir plus de raisons pourquoi?
Kiran K.
Il y a trop de références pour savoir par où commencer. Aucune méthode statistique basée sur le binning ne survit finalement. L'arbitraire est l'un des nombreux problèmes.
Frank Harrell
@FrankHarrell Appréciez le commentaire. La raison pour laquelle j'ai demandé des références est que je suis un étudiant au doctorat et que j'étudie les concepts de dépendance et de dépendance multivariée en ce moment, et j'aimerais lire ces articles et les citer dans mes propres travaux à l'avenir. Si vous pouviez en mentionner un ou deux, je suis sûr que je peux trouver les autres que vous mentionnez. Je vais également creuser et publier des références ici si j'en trouve de bonnes.
Kiran K.
Commencez par citeulike.org/user/harrelfe/article/13265458 puis consultez d'autres informations sur la dichotomisation sur biostat.mc.vanderbilt.edu/CatContinuous . Pour une mesure de dépendance générale ne nécessitant aucun binning, ne manquez pas citeulike.org/user/harrelfe/article/13264312
Frank Harrell