Plus récemment, j'ai lu deux articles. Le premier concerne l'historique de la corrélation et le second concerne la nouvelle méthode appelée coefficient d'information maximal (MIC). J'ai besoin de votre aide pour comprendre la méthode MIC pour estimer les corrélations non linéaires entre les variables.
De plus, les instructions pour son utilisation dans R peuvent être trouvées sur le site Web de l'auteur (sous Téléchargements ):
J'espère que ce serait une bonne plateforme pour discuter et comprendre cette méthode. Mon intérêt pour discuter d'une intuition derrière cette méthode et comment elle peut être étendue comme l'a dit l'auteur.
" ... nous avons besoin d'extensions de MIC (X, Y) à MIC (X, Y | Z). Nous voulons savoir combien de données sont nécessaires pour obtenir des estimations stables de MIC, dans quelle mesure elles sont sensibles aux valeurs aberrantes, quels sont les trois - ou des relations de plus grande dimension qui lui manqueront, et plus encore. La CMI est un grand pas en avant, mais il y a beaucoup plus d'étapes à franchir. "
Réponses:
N'est-ce pas dire que cela a été publié dans une revue non statistique dont nous ne sommes pas certains de la revue statistique par les pairs? Ce problème a été résolu par Hoeffding en 1948 (Annals of Mathematical Statistics 19: 546) qui a développé un algorithme simple ne nécessitant pas de regroupement ni d'étapes multiples. Le travail de Hoeffding n'était même pas référencé dans l'article Science. Cela fait partie de la
hoeffd
fonction R duHmisc
package depuis de nombreuses années. Voici un exemple (tapezexample(hoeffd)
R):hoeffd
utilise une implémentation Fortran assez efficace de la méthode de Hoeffding. L'idée de base de son test est de considérer la différence entre les rangs conjoints de X et Y et le produit du rang marginal de X et du rang marginal de Y, convenablement mis à l'échelle.Mise à jour
Depuis, je correspond avec les auteurs (qui sont d'ailleurs très gentils, ouverts à d'autres idées et continuent à rechercher leurs méthodes). Ils avaient à l'origine la référence Hoeffding dans leur manuscrit mais l'ont coupé (avec regrets, maintenant) par manque d'espace. Bien que le test de Hoeffding semble bien performer pour détecter la dépendance dans leurs exemples, il ne fournit pas d'indice qui réponde à leurs critères de classement des degrés de dépendance de la manière dont l'œil humain est capable de le faire.ré
Dans une prochaine version duré | F( x , y) - G ( x ) H( y) | ré
Hmisc
package R , j'ai ajouté deux sorties supplémentaires liées à , à savoir la moyenne et maxqui sont des mesures utiles de la dépendance. Cependant, ces mesures, comme , n'ont pas la propriété que recherchaient les créateurs de MIC.la source
L' idée principale des auteurs est de discrétiser les données sur de nombreuses grilles bidimensionnelles différentes et de calculer des scores normalisés qui représentent les informations mutuelles des deux variables sur chaque grille. Les scores sont normalisés pour assurer une comparaison équitable entre les différentes grilles et varient entre 0 (non corrélé) et 1 (corrélations élevées).
la source
J'ai trouvé deux bons articles expliquant plus clairement l'idée de MIC en particulier celui- ci; ici le second .
Comme je l'ai compris à partir de ces lectures, vous pouvez zoomer sur différentes complexités et échelles de relations entre deux variables en explorant différentes combinaisons de grilles; ces grilles sont utilisées pour diviser l'espace bidimensionnel en cellules. En choisissant la grille qui contient le plus d'informations sur la façon dont les cellules partitionnent l'espace, vous choisissez le MIC.
Je voudrais demander à @mbq s'il pouvait étendre ce qu'il a appelé "tracer tous les nuages de points et pics ceux avec la plus grande zone blanche" et la complexité irréelle de O (M2).
la source