Kendall Tau ou le rho de Spearman?

69

Dans quels cas doit-on préférer l'un à l'autre?

J'ai trouvé quelqu'un qui revendique un avantage pour Kendall, pour des raisons pédagogiques , y a-t-il d'autres raisons?

Tal Galili
la source
Voir aussi une question connexe stats.stackexchange.com/q/18112/3277 .
ttnphns
1
Malheureusement, le lien dans votre question est mort. Je suppose que vous faites référence à Noether (2007, Teaching Statistics ) . Voulez-vous l'éditer?
S. Kolassa - Réintégrer Monica

Réponses:

40

J'ai constaté que la corrélation de Spearman est principalement utilisée à la place de la corrélation linéaire habituelle lorsque vous travaillez avec des scores à valeurs entières sur une échelle de mesure, lorsqu'il existe un nombre modéré de scores possibles ou lorsque vous ne voulez pas vous fier aux hypothèses concernant les relations à deux variables . Par rapport au coefficient de Pearson, l'interprétation du tau de Kendall me semble moins directe que celle du rho de Spearman, en ce sens qu'elle quantifie la différence entre le% de paires concordantes et discordantes parmi tous les événements par paires possibles. D'après moi, le tau de Kendall ressemble plus à Goodman-Kruskal Gamma .

Je viens de parcourir un article de Larry Winner dans J. Statistics Educ. (2006) qui traite de l'utilisation des deux mesures, Résultats de la Coupe NASCAR Winston pour 1975-2003 .

J'ai également trouvé la réponse de @onestop sur la corrélation de Pearson ou de Spearman avec des données non normales intéressante à cet égard.

Fait à noter, le tau de Kendall (la une version) dispose d'une connexion à Somers de D (et le C de Harrell) utilisé pour la modélisation prédictive (voir par exemple, interprétation de Somers de D en quatre modèles simples par RB Newson et référence 6 dans celle - ci, et les articles de Newson publié dans le Stata Journal 2006). Un aperçu des tests de classement par somme est fourni dans Calcul efficace des intervalles de confiance de Jackknife pour les statistiques de rang , publié dans le JSS (2006).

chl
la source
Merci chl pour la réponse, je l'ai acceptée pour son ampleur. Cordialement, Tal
Tal Galili Le
Spearman utilisait régulièrement sur deux variables entières des informations compalines sur les liens, qui semblent être mieux gérées par le tau de Kendall.
Vinnief
29

Je me réfère l'honorable monsieur à ma réponse précédente : « ... les intervalles de confiance pour r de Spearman de S sont moins fiables et moins interprétables que les intervalles de confiance pour les paramètres de T pour -Kendall », selon Kendall & Gibbons (1990).

un arrêt
la source
1
Je pense que les remerciements vont à Roger Newson, comme je viens de le citer dans son article.
onestop
22

Encore une réponse quelque peu philosophique; La différence fondamentale réside dans le fait que Spearman's Rho tente d'élargir l'idée de R ^ 2 (= "explication de la variance") aux interactions non linéaires, tandis que le test Tau de Kendall est plutôt destiné à être une statistique de test pour le test de corrélation non linéaire. Donc, Tau devrait être utilisé pour tester les corrélations non linéaires, Rho en tant qu'extension R (ou pour les personnes familiarisées avec R ^ 2 - expliquer Tau à un public non méfiant dans un temps limité est douloureux).


la source
6
pourriez-vous s'il vous plaît expliquer "interactions non-linéaires". Le Spearman Rho semble refléter une mesure du coefficient de validité en termes de psychométrie. Je ne connais pas la nature du tau.
Subhash C. Davar
Je ne comprends pas la psychométrie de votre commentaire.
Léo Léopold Hertz
1
"interactions non linéaires" car tout ce qui compte est l’ordre, pas la corrélation linéaire. Par exemple, et ont une corrélation de Pearson de 0 alors que le tau de Kendall ou le rho du lancier aura un score de 1.x 2xx2
Yohan Obadia
1
Cela n’est vrai que lorsque x est non négatif.
aocall
17

Voici une citation d'Andrew Gilpin (1993) qui prône le τ de Kendall sur le ρ de Spearman pour des raisons théoriques:

"Le [Kendall ] approche une distribution normale plus rapidement que , puisque , la taille de l'échantillon augmente; et est aussi plus facile à calculer d'un point de vue mathématique, en particulier lorsque des liens sont présents." τρNτ

Référence

Gilpin, AR (1993). Tableau de conversion du Tau de Kendall en Rho de Spearman dans le contexte des mesures de l'ampleur de l'effet pour la méta-analyse. Mesure éducative et psychologique, 53 (1), 87-92.

Nick Stauner
la source
3

FWIW, une citation de Myers & Well (plan de recherche et analyses statistiques, deuxième édition, 2003, p. 510). Si vous vous souciez encore des valeurs p;

Seigel et Castellan (1988, Statistiques non paramétriques pour les sciences du comportement) soulignent que, bien que et Spearman aient généralement des valeurs différentes lorsqu’ils sont calculés pour le même ensemble de données, lorsque les tests de signification pour et Spearman sont basés sur leurs distributions d'échantillonnage, ils donneront les mêmes p- valeurs.τρτρ

Burak Aydin
la source
Savez-vous s'ils offrent un quelconque soutien à cette demande? Je ne vois pas comment cela peut être vrai en général (ils peuvent être assez souvent similaires, mais je ne vois vraiment pas en quoi l'affirmation selon laquelle ils seront identiques peut tenir). [Je me demande si Siegel et Castellan ont vraiment dit exactement cela, ou quelque chose de légèrement différent.]
Glen_b
J'ai vérifié Siegel & Castellan (2ed p253). Ils disent quelque chose de légèrement différent ... mais c'est en fait légèrement pire que la paraphrase ci-dessus, même avec l'ajout d '"environ" (pire car ils le restreignent à la valeur null, mais puisqu'ils conditionnent les données Quoi qu’il en soit, pour un ordre fixe de , tous les ordres de rang possibles de sont également probables sous H0.) Le fait qu’ils pensent penser à conditionner sur le zéro après avoir conditionné sur les questions de données est un sujet de préoccupation. Je me demande s'ils avaient l'intention de dire autre chose ou s'ils ont vraiment mal comprisxy
Glen_b
En contre-exemple, prenons n = 7 et les valeurs p exactes. Soit x = 1,2,3,4,5,6,7 et y = 2,1,4,3,7,6,5 ... Spearman donne p = 0,048, Kendall donne 0,136 ... qui sont pas du tout pareil. Un arrangement différent donne la même valeur pour kendall mais spearman a p = 0,302. Il existe de nombreux exemples et tailles d’échantillons variés
Glen_b
3
Voici un graphique pour le cas n = 8. Comme vous pouvez le constater, il existe de nombreuses variations entre les valeurs p des deux mesures de corrélation: i.stack.imgur.com/5JMbj.png ... je pourrais écrire un article sur ce sujet
Glen_b le
1
Voici deux exemples de jeux de données (après classement) montrant deux cas (cette fois avec n = 9) dans lesquels les valeurs p de corrélation de Spearman sont identiques, mais les valeurs p de corrélation de Kendall sont très différentes: i.stack.imgur. com / 3ILD8.png
Glen_b