Le coefficient de Pearson entre deux variables est assez élevé (r = 0,65). Mais lorsque je classe les valeurs des variables et que j'exécute une corrélation de Spearman, la valeur du café est beaucoup plus faible (r = 0,30).
- Quelle est l'interprétation de cela?
correlation
spearman-rho
user3671
la source
la source
Réponses:
Pourquoi la grande différence
Si vos données sont normalement distribuées ou uniformément distribuées, je pense que la corrélation de Spearman et Pearson devrait être assez similaire.
S'ils donnent des résultats très différents comme dans votre cas (0,65 contre 0,30), je suppose que vous avez des données biaisées ou des valeurs aberrantes, et que les valeurs aberrantes conduisent la corrélation de Pearson à être plus grande que la corrélation de Spearman. C'est-à-dire que des valeurs très élevées sur X peuvent coexister avec des valeurs très élevées sur Y.
questions connexes
Voir également ces questions précédentes sur les différences entre la corrélation de Spearman et Pearson:
Comment choisir entre la corrélation Pearson et Spearman?
Corrélation de Pearson ou Spearman avec des données non normales
Exemple R simple
Voici une simulation simple de la façon dont cela peut se produire. Notez que le cas ci-dessous implique une seule valeur aberrante, mais que vous pouvez produire des effets similaires avec plusieurs valeurs aberrantes ou asymétriques.
Ce qui donne cette sortie
L'analyse de corrélation montre que sans la valeur aberrante Spearman et Pearson sont assez similaires, et avec la valeur aberrante plutôt extrême, la corrélation est assez différente.
Le graphique ci-dessous montre comment le fait de traiter les données comme des rangs supprime l'influence extrême de la valeur aberrante, ce qui conduit Spearman à être similaire à la fois avec et sans la valeur aberrante, tandis que Pearson est assez différent lorsque la valeur aberrante est ajoutée. Cela souligne pourquoi Spearman est souvent appelé robuste.
la source