J'ai un tas d'ensembles de données connexes. Les corrélations Pearson entre des paires d'entre elles sont généralement nettement plus importantes que les corrélations du lancier. Cela suggère que toute corrélation est linéaire, mais on pourrait s'attendre à ce que même si le Pearson et le lancier étaient les mêmes. Qu'est-ce que cela signifie lorsqu'il y a un écart certain entre la corrélation Pearson et le lancier et que le Pearson est plus grand? Cela semble être une fonctionnalité cohérente dans tous mes ensembles de données.
correlation
spearman-rho
pearson-r
John Robertson
la source
la source
Réponses:
La corrélation de Spearman est simplement la corrélation de Pearson utilisant les rangs (statistiques d'ordre) au lieu des valeurs numériques réelles. La réponse à votre question est qu'ils ne mesurent pas la même chose. Pearson: tendance linéaire, Spearman: tendance monotone. Le fait que la corrélation de Pearson soit plus élevée signifie simplement que la corrélation linéaire est plus grande que la corrélation de rang. Cela est probablement dû à des observations influentes dans les queues de la distribution qui ont une grande influence par rapport à leurs valeurs classées. Les tests d'association utilisant la corrélation de Pearson ont une puissance plus élevée lorsque la linéarité tient dans les données.
la source
La corrélation de Pearson suppose plusieurs hypothèses pour qu'elle soit exacte: 1) chaque variable est normalement distribuée; 2) Homoscédasticité, la variance de chaque variable reste constante; et 3) Linéarité, ce qui signifie qu'un nuage de points décrivant la relation montre des points de données regroupés symétriquement autour de la droite de régression.
La corrélation de Spearman est une alternative non paramétrique à celle de Pearson basée sur le rang des observations. La corrélation Spearman vous permet d'assouplir les trois hypothèses sur votre ensemble de données et de dériver des corrélations qui sont encore raisonnablement précises.
Ce que vos données impliquent, c'est qu'elles cassent probablement matériellement une ou plusieurs des hypothèses mentionnées, de sorte que les deux corrélations diffèrent considérablement.
Étant donné que vous avez un grand écart entre les deux corrélations, vous devez vérifier si les variables de votre ensemble de données sont normalement distribuées, homoscédastiques et linéaires dans un nuage de points.
L'enquête ci-dessus vous aidera à décider si le coefficient de corrélation Spearman ou Pearson est le plus représentatif.
la source