Comment les corrélations gamma Goodman-Kruskal et Kendall tau ou Spearman rho se comparent-elles?

31

Dans mon travail, nous comparons les classements prévus aux classements réels pour certains ensembles de données. Jusqu'à récemment, nous utilisions Kendall-Tau seul. Un groupe travaillant sur un projet similaire a suggéré d'essayer d'utiliser le Goodman-Kruskal Gamma à la place, et qu'ils l'ont préféré. Je me demandais quelles étaient les différences entre les différents algorithmes de corrélation de rang.

Le meilleur que j'ai trouvé était cette réponse , qui prétend que Spearman est utilisé à la place des corrélations linéaires habituelles, et que Kendall-Tau est moins direct et ressemble plus à Goodman-Kruskal Gamma. Les données avec lesquelles je travaille ne semblent pas avoir de corrélations linéaires évidentes, et les données sont fortement asymétriques et non normales.

De plus, Spearman rapporte généralement une corrélation plus élevée que Kendall-Tau pour nos données, et je me demandais ce que cela dit spécifiquement sur les données. Je ne suis pas un statisticien, donc certains des articles que je lis sur ces choses me semblent être du jargon, désolé.

Poik
la source
3
" Spearman rapporte généralement une meilleure corrélation que Kendall-Tau pour nos données, et je me demandais ce que cela dit spécifiquement sur les données " ... probablement rien; Kendall τ est souvent plus proche de 0 que de Spearman ρlorsque les corrélations ne sont pas vraiment proches de 0 ou ±1 - il mesure l'association différemment; le fait qu'il soit généralement de plus petite ampleur ne signifie pas que la corrélation de Spearman est «meilleure»; ils mesurent simplement différentes choses sur les données. Qu'est-ce qui vous amènerait à dire «meilleure corrélation»?
Glen_b -Reinstate Monica
1
C'était indirectement la même que ma question, @Glen_b; sauf que je demandais pourquoi les algorithmes signalaient une corrélation plus élevée et ce qui en résulterait. Je vais changer "mieux" en "plus haut" afin de clarifier un peu mon sens. Vous avez raison de dire qu'ils mesurent des choses différentes et que les chiffres n'ont pas vraiment trop à voir les uns avec les autres, mais je voulais savoir ce que les chiffres signifiaient réellement, ce qui est expliqué en détail ci-dessous.
Poik

Réponses:

29

Spearman rho contre Kendall tau . Ces deux sont tellement différents sur le plan du calcul que vous ne pouvez pas comparer directement leurs ampleurs. Spearman est généralement supérieur de 1/4 à 1/3, ce qui permet de conclure à tort que Spearman est «meilleur» pour un ensemble de données particulier. La différence entre rho et tau réside dans leur idéologie, la proportion de variance pour rho et la probabilité pour tau. Rho est un Pearson r habituel appliqué aux données classées, et comme r, il est plus sensible aux points avec de grands moments (c'est-à-dire les écarts par rapport au centre du nuage) qu'aux points avec de petits moments. Par conséquent, rho est assez sensible à la forme du nuage après le classementfait: le coefficient pour un nuage rhombique oblong sera plus élevé que le coefficient pour un nuage oblong haltère (car les arêtes vives du premier sont de grands moments). Tau est une extension de Gamma et est également sensible à tous les points de données , il est donc moins sensible aux particularités de la forme du nuage classé. Tau est plus "général" que rho, car rho n'est garanti que lorsque vous pensez que la relation sous-jacente (modèle ou fonctionnelle dans la population) entre les variables est strictement monotone. Alors que Tau permet une courbe sous-jacente non monotone et mesure quelle "tendance" monotone, positive ou négative, y règne globalement. Rho est comparable à r en magnitude; tau ne l'est pas.

Kendall tau comme Gamma . Tau est juste une forme standardisée de Gamma. Plusieurs mesures connexes ont toutes le numérateur mais diffèrent par le dénominateur de normalisation :P-Q

  • Gamma: P+Q
  • D de Somers ("x dépendant"): P+Q+TX
  • D de Somers ("dépendant de y"): P+Q+Ty
  • D de Somers ("symétrique"): moyenne arithmétique des deux ci-dessus
  • Tau-b corr de Kendall. (le plus approprié pour les tables carrées): moyenne géométrique de ces deux
  • Tau-c corr de Kendall. (idéal pour les tables rectangulaires): N2(k-1)/(2k)
  • Tau-a corr de Kendall. (ne fait aucun ajustement pour les traverses): N(N-1)/2=P+Q+TX+Ty+TXy

- nombre de paires d'observations avec "concordance", Q - avec "inversion"; T x - nombre de liens par la variable X, T y - par la variable Y, T x y - par les deux variables; N - nombre d'observations, k - nombre de valeurs distinctes dans cette variable où ce nombre est inférieur.PQTXTyTXyNk

Ainsi, le tau est directement comparable en théorie et en magnitude au gamma. Rho est directement comparable en théorie et en ampleur à Pearson . La belle réponse de Nick Stauner ici explique comment il est possible de comparer rho et tau indirectement.r

Voir aussi sur tau et rho.

tnphns
la source
14

Voici une citation d'Andrew Gilpin (1993) préconisant le Maurice Kendall sur le ρ de Spearman pour des raisons théoriques:τρ

[ de Kendall ] approche une distribution normale plus rapidement que ρ , car N , la taille de l'échantillon, augmente; et τ est également plus maniable mathématiquement, en particulier lorsque des liens sont présents. τρNτ

Je ne peux pas ajouter grand-chose sur Goodman-Kruskal , à part qu'il semble produire des estimations toujours plus grandes que τ de Kendall dans un échantillon de données d'enquête avec lesquelles j'ai travaillé récemment ... et bien sûr, de façon notable estimations inférieures au ρ de Spearman . Cependant, j'ai également essayé de calculer quelques estimations γ partielles (Foraita & Sobotka, 2012), et celles-ci se sont révélées plus proches du ρ partiel que du τ partiel ... Cela a cependant pris un certain temps de traitement, donc je vais quitter les tests de simulation ou les comparaisons mathématiques avec quelqu'un d'autre ... (qui saurait les faire ...)γτργρτ

Comme l' indique ttnphns , vous ne pouvez pas conclure que vos estimations sont meilleures que vos estimations τ par la seule ampleur, car leurs échelles diffèrent (même si les limites ne le sont pas). Gilpin cite Kendall (1962) comme décrivant le rapport de ρ à τ à environ 1,5 sur la plupart de la plage de valeurs. Ils se rapprochent progressivement à mesure que leur amplitude augmente, de sorte que les deux approchent 1 (ou -1), la différence devient infinitésimale. Gilpin donne un joli grand tableau de valeurs équivalentes de ρ , r , r 2 , d et Z r au troisième chiffre pour τρτρτρrr2Zrτà chaque incrément de 0,01 dans sa gamme, tout comme vous vous attendez à voir à l'intérieur de la couverture d'un manuel de statistiques d'introduction. Il a basé ces valeurs sur les formules spécifiques de Kendall, qui sont les suivantes: (J'ai simplifié cette formule pourρ àpartir de la forme sous laquelle Gilpin a écrit, qui était en termes derde Pearson.)

r=sin(τπ2)ρ=6π(τarcsin(sin(τπ2)2))
ρr

Il serait peut-être judicieux de convertir votre en ρτρ et de voir comment le changement de calcul affecte votre estimation de la taille de l'effet. Il semble que la comparaison donnerait une indication de la mesure dans laquelle les problèmes auxquels le de Spearman est le plus sensible sont présents, le cas échéant. Il existe certainement des méthodes plus directes pour identifier individuellement chaque problème spécifique; ma suggestion produirait plus d'une taille d'effet omnibus rapide et sale pour ces problèmes. S'il n'y a pas de différence (après correction de la différence d'échelle), on pourrait dire qu'il n'est pas nécessaire de chercher plus loin les problèmes qui ne s'appliquent qu'à ρρρ. S'il y a une différence substantielle, il est probablement temps de sortir la loupe pour déterminer ce qui est responsable.

Je ne sais pas comment les gens rapportent généralement la taille des effets lorsqu'ils utilisent de Kendall (dans la mesure malheureusement limitée où les gens s'inquiètent de signaler la taille des effets en général), mais puisqu'il semble probable que des lecteurs peu familiers essaieraient de l'interpréter à l'échelle de Pearson. r , il pourrait être judicieux de signaler à la fois votre statistique τ et sa taille d'effet sur l'échelle de r en utilisant la formule de conversion ci-dessus ... ou au moins de souligner la différence d'échelle et de remercier Gilpin pour sa table de conversion pratique .τrτr

Les références

Foraita, R. et Sobotka, F. (2012). Validation des modèles graphiques. Package gmvalid, v1.23. Le réseau d'archives R complet. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, AR (1993). Tableau de conversion du Tau de Kendall en Rho de Spearman dans le contexte des mesures de l'ampleur de l'effet pour la méta-analyse. Mesure éducative et psychologique, 53 (1), 87-92.

Kendall, MG (1962). Méthodes de corrélation de rang (3e éd.). Londres: Griffin.

Nick Stauner
la source
9

ρτγγτXYγX1X2YXXXγ

Frank Harrell
la source
2
Frank, pouvez-vous l'expliquer Spearman's ρ is related to the probability of majority concordance among random triplets of observationsplus en détail, pas très dur mathématiquement, si possible? Merci.
ttnphns
1
J'ai lu cela il y a de nombreuses années, probablement dans un texte de statistiques non paramétriques. Je n'ai pas pu trouver la référence.
Frank Harrell
1
Malheureux ... :-( Parce que la déclaration elle-même est très intrigante.
ttnphns