J'ai vu quelques discussions de non-statisticiens où ils semblent réinventer des mesures de corrélation en utilisant des informations mutuelles plutôt que de régression (ou des tests statistiques équivalents / étroitement liés).
Je suppose qu'il y a une bonne raison pour laquelle les statisticiens n'adoptent pas cette approche. D'après mon profane, les estimateurs de l'entropie / information mutuelle ont tendance à être problématiques et instables. Je suppose que le pouvoir est également problématique en conséquence: ils essaient de contourner cela en affirmant qu'ils n'utilisent pas de cadre de test paramétrique. Habituellement, ce type de travail ne se soucie pas des calculs de puissance, ni même des intervalles de confiance / crédibles.
Mais pour prendre la position d'un défenseur du diable, la convergence lente est-elle si importante lorsque les ensembles de données sont extrêmement volumineux? De plus, ces méthodes semblent parfois «fonctionner» dans le sens où les associations sont validées par des études de suivi. Quelle est la meilleure critique contre l'utilisation d'informations mutuelles comme mesure d'association et pourquoi n'est-elle pas largement utilisée dans la pratique statistique?
modifier: En outre, existe-t-il de bons articles qui couvrent ces questions?
la source
Réponses:
Je pense que vous devriez faire la distinction entre les données catégorielles (discrètes) et les données continues.
Pour les données continues, la corrélation de Pearson mesure une relation linéaire (monotone), la corrélation de rang une relation monotone.
MI d'autre part "détecte" toute relation. Ce n'est normalement pas ce qui vous intéresse et / ou est susceptible d'être du bruit. En particulier, vous devez estimer la densité de la distribution. Mais comme il est continu, vous devez d'abord créer un histogramme [compartiments discrets], puis calculer l'IM. Mais comme le MI permet toute relation, le MI changera à mesure que vous utilisez de plus petits bacs (c'est-à-dire que vous autorisez plus de mouvements). Vous pouvez donc voir que l'estimation de l'IM sera très instable, ne vous permettant pas de mettre des intervalles de confiance sur l'estimation, etc. [Il en va de même si vous effectuez une estimation de densité continue.] Fondamentalement, il y a trop de choses à estimer avant de réellement calculer le MI.
Les données catégorielles, en revanche, s'intègrent assez bien dans le cadre de l'IM (voir G-test), et il n'y a pas beaucoup de choix entre le G-test et le chi-carré.
la source