Dans mon travail, nous comparons les classements prévus aux classements réels pour certains ensembles de données. Jusqu'à récemment, nous utilisions Kendall-Tau seul. Un groupe travaillant sur un projet similaire a suggéré d'essayer d'utiliser le Goodman-Kruskal Gamma à la place, et qu'ils l'ont préféré. Je me demandais quelles étaient les différences entre les différents algorithmes de corrélation de rang.
Le meilleur que j'ai trouvé était cette réponse , qui prétend que Spearman est utilisé à la place des corrélations linéaires habituelles, et que Kendall-Tau est moins direct et ressemble plus à Goodman-Kruskal Gamma. Les données avec lesquelles je travaille ne semblent pas avoir de corrélations linéaires évidentes, et les données sont fortement asymétriques et non normales.
De plus, Spearman rapporte généralement une corrélation plus élevée que Kendall-Tau pour nos données, et je me demandais ce que cela dit spécifiquement sur les données. Je ne suis pas un statisticien, donc certains des articles que je lis sur ces choses me semblent être du jargon, désolé.
Réponses:
Spearman rho contre Kendall tau . Ces deux sont tellement différents sur le plan du calcul que vous ne pouvez pas comparer directement leurs ampleurs. Spearman est généralement supérieur de 1/4 à 1/3, ce qui permet de conclure à tort que Spearman est «meilleur» pour un ensemble de données particulier. La différence entre rho et tau réside dans leur idéologie, la proportion de variance pour rho et la probabilité pour tau. Rho est un Pearson r habituel appliqué aux données classées, et comme r, il est plus sensible aux points avec de grands moments (c'est-à-dire les écarts par rapport au centre du nuage) qu'aux points avec de petits moments. Par conséquent, rho est assez sensible à la forme du nuage après le classementfait: le coefficient pour un nuage rhombique oblong sera plus élevé que le coefficient pour un nuage oblong haltère (car les arêtes vives du premier sont de grands moments). Tau est une extension de Gamma et est également sensible à tous les points de données , il est donc moins sensible aux particularités de la forme du nuage classé. Tau est plus "général" que rho, car rho n'est garanti que lorsque vous pensez que la relation sous-jacente (modèle ou fonctionnelle dans la population) entre les variables est strictement monotone. Alors que Tau permet une courbe sous-jacente non monotone et mesure quelle "tendance" monotone, positive ou négative, y règne globalement. Rho est comparable à r en magnitude; tau ne l'est pas.
Kendall tau comme Gamma . Tau est juste une forme standardisée de Gamma. Plusieurs mesures connexes ont toutes le numérateur mais diffèrent par le dénominateur de normalisation :P- Q
où - nombre de paires d'observations avec "concordance", Q - avec "inversion"; T x - nombre de liens par la variable X, T y - par la variable Y, T x y - par les deux variables; N - nombre d'observations, k - nombre de valeurs distinctes dans cette variable où ce nombre est inférieur.P Q TX Ty Tx y N k
Ainsi, le tau est directement comparable en théorie et en magnitude au gamma. Rho est directement comparable en théorie et en ampleur à Pearson . La belle réponse de Nick Stauner ici explique comment il est possible de comparer rho et tau indirectement.r
Voir aussi sur tau et rho.
la source
Voici une citation d'Andrew Gilpin (1993) préconisant le Maurice Kendall sur le ρ de Spearman pour des raisons théoriques:τ ρ
Je ne peux pas ajouter grand-chose sur Goodman-Kruskal , à part qu'il semble produire des estimations toujours plus grandes que τ de Kendall dans un échantillon de données d'enquête avec lesquelles j'ai travaillé récemment ... et bien sûr, de façon notable estimations inférieures au ρ de Spearman . Cependant, j'ai également essayé de calculer quelques estimations γ partielles (Foraita & Sobotka, 2012), et celles-ci se sont révélées plus proches du ρ partiel que du τ partiel ... Cela a cependant pris un certain temps de traitement, donc je vais quitter les tests de simulation ou les comparaisons mathématiques avec quelqu'un d'autre ... (qui saurait les faire ...)γ τ ρ γ ρ τ
Comme l' indique ttnphns , vous ne pouvez pas conclure que vos estimations sont meilleures que vos estimations τ par la seule ampleur, car leurs échelles diffèrent (même si les limites ne le sont pas). Gilpin cite Kendall (1962) comme décrivant le rapport de ρ à τ à environ 1,5 sur la plupart de la plage de valeurs. Ils se rapprochent progressivement à mesure que leur amplitude augmente, de sorte que les deux approchent 1 (ou -1), la différence devient infinitésimale. Gilpin donne un joli grand tableau de valeurs équivalentes de ρ , r , r 2 , d et Z r au troisième chiffre pour τρ τ ρ τ ρ r r2 Zr τ à chaque incrément de 0,01 dans sa gamme, tout comme vous vous attendez à voir à l'intérieur de la couverture d'un manuel de statistiques d'introduction. Il a basé ces valeurs sur les formules spécifiques de Kendall, qui sont les suivantes:
(J'ai simplifié cette formule pourρ àpartir de la forme sous laquelle Gilpin a écrit, qui était en termes derde Pearson.)
Il serait peut-être judicieux de convertir votre en ρτ ρ et de voir comment le changement de calcul affecte votre estimation de la taille de l'effet. Il semble que la comparaison donnerait une indication de la mesure dans laquelle les problèmes auxquels le de Spearman est le plus sensible sont présents, le cas échéant. Il existe certainement des méthodes plus directes pour identifier individuellement chaque problème spécifique; ma suggestion produirait plus d'une taille d'effet omnibus rapide et sale pour ces problèmes. S'il n'y a pas de différence (après correction de la différence d'échelle), on pourrait dire qu'il n'est pas nécessaire de chercher plus loin les problèmes qui ne s'appliquent qu'à ρρ ρ . S'il y a une différence substantielle, il est probablement temps de sortir la loupe pour déterminer ce qui est responsable.
Je ne sais pas comment les gens rapportent généralement la taille des effets lorsqu'ils utilisent de Kendall (dans la mesure malheureusement limitée où les gens s'inquiètent de signaler la taille des effets en général), mais puisqu'il semble probable que des lecteurs peu familiers essaieraient de l'interpréter à l'échelle de Pearson. r , il pourrait être judicieux de signaler à la fois votre statistique τ et sa taille d'effet sur l'échelle de r en utilisant la formule de conversion ci-dessus ... ou au moins de souligner la différence d'échelle et de remercier Gilpin pour sa table de conversion pratique .τ r τ r
Les références
Foraita, R. et Sobotka, F. (2012). Validation des modèles graphiques. Package gmvalid, v1.23. Le réseau d'archives R complet. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf
Gilpin, AR (1993). Tableau de conversion du Tau de Kendall en Rho de Spearman dans le contexte des mesures de l'ampleur de l'effet pour la méta-analyse. Mesure éducative et psychologique, 53 (1), 87-92.
Kendall, MG (1962). Méthodes de corrélation de rang (3e éd.). Londres: Griffin.
la source
la source
Spearman's ρ is related to the probability of majority concordance among random triplets of observations
plus en détail, pas très dur mathématiquement, si possible? Merci.