Qu'est-ce que cela indique lorsque la corrélation de Spearman est nettement inférieure à Pearson?

12

J'ai un tas d'ensembles de données connexes. Les corrélations Pearson entre des paires d'entre elles sont généralement nettement plus importantes que les corrélations du lancier. Cela suggère que toute corrélation est linéaire, mais on pourrait s'attendre à ce que même si le Pearson et le lancier étaient les mêmes. Qu'est-ce que cela signifie lorsqu'il y a un écart certain entre la corrélation Pearson et le lancier et que le Pearson est plus grand? Cela semble être une fonctionnalité cohérente dans tous mes ensembles de données.

John Robertson
la source
Question très similaire avec une excellente réponse ici
Colin T Bowers

Réponses:

14

La corrélation de Spearman est simplement la corrélation de Pearson utilisant les rangs (statistiques d'ordre) au lieu des valeurs numériques réelles. La réponse à votre question est qu'ils ne mesurent pas la même chose. Pearson: tendance linéaire, Spearman: tendance monotone. Le fait que la corrélation de Pearson soit plus élevée signifie simplement que la corrélation linéaire est plus grande que la corrélation de rang. Cela est probablement dû à des observations influentes dans les queues de la distribution qui ont une grande influence par rapport à leurs valeurs classées. Les tests d'association utilisant la corrélation de Pearson ont une puissance plus élevée lorsque la linéarité tient dans les données.

AdamO
la source
1
Je savais que le lancier n'était que des perles dans les rangs. J'ai besoin de voir s'il peut y avoir d'autres itinéraires qui pourraient également causer cela, mais des observations de queue influentes qui sont plus linéairement corrélées que la majeure partie des données, mais qui perdent leur influence lorsqu'elles sont remplacées par leurs classements causeraient certainement ce que je suis voyant.
John Robertson
0

La corrélation de Pearson suppose plusieurs hypothèses pour qu'elle soit exacte: 1) chaque variable est normalement distribuée; 2) Homoscédasticité, la variance de chaque variable reste constante; et 3) Linéarité, ce qui signifie qu'un nuage de points décrivant la relation montre des points de données regroupés symétriquement autour de la droite de régression.

La corrélation de Spearman est une alternative non paramétrique à celle de Pearson basée sur le rang des observations. La corrélation Spearman vous permet d'assouplir les trois hypothèses sur votre ensemble de données et de dériver des corrélations qui sont encore raisonnablement précises.

Ce que vos données impliquent, c'est qu'elles cassent probablement matériellement une ou plusieurs des hypothèses mentionnées, de sorte que les deux corrélations diffèrent considérablement.

Étant donné que vous avez un grand écart entre les deux corrélations, vous devez vérifier si les variables de votre ensemble de données sont normalement distribuées, homoscédastiques et linéaires dans un nuage de points.

L'enquête ci-dessus vous aidera à décider si le coefficient de corrélation Spearman ou Pearson est le plus représentatif.

Sympa
la source
2
t
4
Incorrect. L'inférence sur la corrélation de Pearson ne requiert aucune de ces hypothèses. On pourrait avoir une relation curviligne avec des données hétéroscédastiques et non normales et le test de corrélation de Pearson (qui équivaut à l'inférence sur un modèle de régression linéaire) est alimenté pour détecter la tendance du premier ordre. L'interprétation de la corrélation de Pearson comme force de la tendance de premier ordre est toujours valable. Il y a peu de circonstances où la tendance de premier ordre mesurée par la corrélation de Pearson n'est pas adéquate pour une analyse.
AdamO