Quelles méthodes de corrélation robustes sont réellement utilisées?

18

Je prévois de faire une étude de simulation où je compare les performances de plusieurs techniques de corrélation robustes avec différentes distributions (asymétriques, avec des valeurs aberrantes, etc.). Par robuste , je veux dire le cas idéal d'être robuste contre a) les distributions asymétriques, b) les valeurs aberrantes et c) les queues lourdes.

Parallèlement à la corrélation de Pearson comme référence, je pensais inclure les mesures plus robustes suivantes:

de Spearman $\rho$
Corrélation en pourcentage de courbure (Wilcox, 1994, [1])
Ellipsoïde de volume minimum, déterminant de covariance minimum ( cov.mve/ cov.mcdavec l' cor=TRUEoption)
Probablement, la corrélation winsorisée

Bien sûr, il existe de nombreuses autres options (surtout si vous incluez également des techniques de régression robustes), mais je veux me limiter aux approches les plus utilisées / les plus prometteuses.

Maintenant, j'ai trois questions (n'hésitez pas à ne répondre qu'à une seule):

Existe-t-il d'autres méthodes corrélationnelles robustes que je pourrais / devrais inclure?
Quelles techniques de corrélation robustes sont réellement utilisées dans votre domaine? _{(Parlant de recherche psychologique: à l'exception de Spearman , je n'ai jamais vu de technique de corrélation robuste en dehors d'un document technique. Le bootstrap devient de plus en plus populaire, mais d'autres statistiques robustes sont plus ou moins inexistantes jusqu'à présent). $\rho$}
Y a-t-il déjà des comparaisons systématiques de plusieurs techniques de corrélation que vous connaissez?

N'hésitez pas à commenter la liste des méthodes ci-dessus.

[1] Wilcox, RR (1994). Le pourcentage de coefficient de corrélation de courbure. Psychometrika , 59, 601-616.

r correlation robust spearman-rho winsorizing Felix S
la source

3

Du point de vue de la psychologie, la corrélation de Pearson et Spearman semble être la plus courante. Cependant, je pense que beaucoup de chercheurs en psychologie s'engagent dans diverses procédures de manipulation de données sur les variables constitutives avant d'effectuer la corrélation de Pearson. J'imagine que tout examen de robustesse devrait considérer les effets de:

transformations d'une ou des deux variables afin que les variables se rapprochent d'une distribution normale
ajustement ou suppression des valeurs aberrantes sur la base d'une règle statistique ou connaissance des problèmes avec une observation

Jeromy Anglim
la source

1

Je vous recommanderais cet excellent article publié dans Science en 2011 que j'ai déjà posté ici. Il est proposé une nouvelle mesure robuste ainsi qu'une comparaison exhaustive et excellente avec d'autres. De plus, toutes les mesures sont testées sur la robustesse. À noter que cette nouvelle mesure est également capable d'identifier plus d'une relation fonctionnelle dans les données et également d'identifier les relations non fonctionnelles.

Miroslav Sabo
la source

Génial! Je vais y regarder de très près. Semble très prometteur ...

Felix S

1

Pouvez-vous mettre le nom de l'article s'il vous plaît? Il semble avoir disparu!

Creatron

2

Détection de nouvelles associations dans de grands ensembles de données

Miroslav Sabo

6

Cet article a reçu beaucoup de critiques. Il semble être sur-typé. Beaucoup, beaucoup et beaucoup de médias et de relations publiques, mais cela semble mal échouer sur des exemples triviaux tels que ▄▀ qu'il reconnaît comme "linéaires". IIRC leur étude n'était pas non plus équitable, car ils ont utilisé les rangs pour leur propre méthode; mais par rapport à Pearson au lieu de corrélation de lancier.

Anony-Mousse -Restate Monica

8

Plus précisément, voir les réfutations de cette approche à: statweb.stanford.edu/~tibs/reshef/comment.pdf , ie.technion.ac.il/~gorfinm/files/science6.pdf , arxiv.org/abs/1301.7745v1

métaperture

1

Le tau de Kendall est très largement utilisé dans la théorie de la copule, probablement parce que c'est une chose très naturelle à considérer pour les copules archimédiennes. Genest et Rivest ont introduit des graphiques du tau cumulatif de Kendall comme moyen de choisir un modèle parmi les familles de copules bivariées.

Lien vers l'article de Genest Rivest (1993)

Flet
la source

1

Voici quelques mesures robustes de corrélation:

Coefficient de corrélation de rang de Spearman
Coefficient de corrélation Signum (Blomqvist)
Tau de Kendall
Coefficient de corrélation absolue de Bradley
Coefficient de corrélation de Shevlyakov

Les références:

• Blomqvist, N. (1950) "Sur une mesure de la dépendance entre deux variables aléatoires", Annals of Mathematical Statistics, 21 (4): 593-600. • Bradley, C. (1985) «The Absolute Correlation», The Mathematical Gazette, 69 (447): 12-17. • Shevlyakov, GL (1997) «On Robust Estimation of a Correlation Coefficient», Journal of Mathematical Sciences, 83 (3): 434-438. • Spearman, C. (1904) «La preuve et la mesure de l'association entre deux choses», American Journal of Psychology, 15: 88-93.

Sudhanshu K Mishra
la source

0

Biocorrélation bi-poids implémentée en R (très rapide) via WGCNA et en Python (pas si rapide) via l'astropie . C'est mon go-to pour l'analyse de réseau.

Pour les données de composition clairsemées, il existe également SparCC et FastSpar

O.rka
la source

Quelles méthodes de corrélation robustes sont réellement utilisées?

Réponses: