Je prévois de faire une étude de simulation où je compare les performances de plusieurs techniques de corrélation robustes avec différentes distributions (asymétriques, avec des valeurs aberrantes, etc.). Par robuste , je veux dire le cas idéal d'être robuste contre a) les distributions asymétriques, b) les valeurs aberrantes et c) les queues lourdes.
Parallèlement à la corrélation de Pearson comme référence, je pensais inclure les mesures plus robustes suivantes:
- Ρ de Spearman
- Corrélation en pourcentage de courbure (Wilcox, 1994, [1])
- Ellipsoïde de volume minimum, déterminant de covariance minimum (
cov.mve
/cov.mcd
avec l'cor=TRUE
option) - Probablement, la corrélation winsorisée
Bien sûr, il existe de nombreuses autres options (surtout si vous incluez également des techniques de régression robustes), mais je veux me limiter aux approches les plus utilisées / les plus prometteuses.
Maintenant, j'ai trois questions (n'hésitez pas à ne répondre qu'à une seule):
- Existe-t-il d'autres méthodes corrélationnelles robustes que je pourrais / devrais inclure?
- Quelles techniques de corrélation robustes sont réellement utilisées dans votre domaine? (Parlant de recherche psychologique: à l'exception de Spearman , je n'ai jamais vu de technique de corrélation robuste en dehors d'un document technique. Le bootstrap devient de plus en plus populaire, mais d'autres statistiques robustes sont plus ou moins inexistantes jusqu'à présent).
- Y a-t-il déjà des comparaisons systématiques de plusieurs techniques de corrélation que vous connaissez?
N'hésitez pas à commenter la liste des méthodes ci-dessus.
[1] Wilcox, RR (1994). Le pourcentage de coefficient de corrélation de courbure. Psychometrika , 59, 601-616.
la source
Le tau de Kendall est très largement utilisé dans la théorie de la copule, probablement parce que c'est une chose très naturelle à considérer pour les copules archimédiennes. Genest et Rivest ont introduit des graphiques du tau cumulatif de Kendall comme moyen de choisir un modèle parmi les familles de copules bivariées.
Lien vers l'article de Genest Rivest (1993)
la source
Voici quelques mesures robustes de corrélation:
Coefficient de corrélation de rang de Spearman
Coefficient de corrélation Signum (Blomqvist)
Tau de Kendall
Coefficient de corrélation absolue de Bradley
Coefficient de corrélation de Shevlyakov
Les références:
• Blomqvist, N. (1950) "Sur une mesure de la dépendance entre deux variables aléatoires", Annals of Mathematical Statistics, 21 (4): 593-600. • Bradley, C. (1985) «The Absolute Correlation», The Mathematical Gazette, 69 (447): 12-17. • Shevlyakov, GL (1997) «On Robust Estimation of a Correlation Coefficient», Journal of Mathematical Sciences, 83 (3): 434-438. • Spearman, C. (1904) «La preuve et la mesure de l'association entre deux choses», American Journal of Psychology, 15: 88-93.
la source
Biocorrélation bi-poids implémentée en R (très rapide) via WGCNA et en Python (pas si rapide) via l'astropie . C'est mon go-to pour l'analyse de réseau.
Pour les données de composition clairsemées, il existe également SparCC et FastSpar
la source