Test de signification sur la différence du coefficient de corrélation de Spearman

13

(Merci beaucoup pour les réponses rapides! J'ai mal fait de poser la question, alors laissez-moi réessayer.)

Je ne sais pas comment déterminer si la différence entre deux corrélations de Spearman est statistiquement significative. J'aimerais savoir comment le découvrir.

La raison pour laquelle je voulais le savoir est que dans l'article suivant: Interprétation sémantique basée sur Wikipedia pour le traitement du langage naturel , par Gabrilovich et Markovitch ( Journal of Artificial Intelligence Research 34 (2009) 443-498).

Dans le tableau 2 (p. 457), les auteurs montrent que leur méthode (ESA-Wikipedia) atteint une corrélation de Spearman plus élevée et statistiquement significative que les autres méthodes, et je voudrais faire de même pour montrer que ma méthode est meilleure que la précédente méthodes pour certains problèmes.

Je ne sais pas comment ils ont calculé la signification statistique, et j'aimerais savoir. L'auteur de l'article a déclaré que la corrélation de rang de Spearman était traitée comme la corrélation de Pearson. Je ne sais pas si c'est la bonne façon de procéder. J'ai deux corrélations de Spearman et j'aimerais savoir si la différence entre elles est statistiquement significative ou non.

Je suis conscient que les sites Web, tels que http://faculty.vassar.edu/lowry/rdiff.html , fournissent une calculatrice en ligne pour obtenir la différence entre deux corrélations de Pearson. Je n'arrive pas à trouver une calculatrice en ligne similaire pour la différence entre deux corrélations de Spearman.

Une solution à partir du lien fourni par Peter Flom

REMARQUE: les procédures prennent uniquement en charge les corrélations de Spearman inférieures à 0,6.

  1. Soit = la transformée de Fisher de la corrélation observée de série A , z B = la transformée de Fisher la corrélation observée ensemble B .zAAzBB

  2. Pour , soit y A i = n z A - ( n - 1 ) z A i , où z A i est la transformée de Fisher de l'ensemble A de la corrélation à gauche obtenue par suppression ( x i , y i ) , reclassement et recalcul de la corrélation. (Chaque z A i est basé sur n -i=1,,nyAi=nzA(n1)zAizAiA(xi,yi)zAi paires; chaque suppression est temporaire, pour que je,non permanent.) Répéter pour voir B .n1B

  3. est la transformée de Fisher avec jackknif. Répétezopération pour ensembleB.y¯A=yAi/nB

  4. est la variance de ˉ y A . Répétezopération pour ensemble B .vy¯A=(yAiy¯A)2/(n(n1))y¯AB

  5. Utilisez un test hétéroscédastique (Welch-Satterthwaite) pour comparer les deux estimations jackknifed:t

nAetnBsont le nombre d'échantillons de l'ensembleAetBrespectivement.

t=y¯Ay¯Bvy¯A+vy¯B,df=(vy¯A+vy¯B)2vy¯A2nA1+vy¯B2nB1
nAnBAB

Avant la première modification

J'ai un ensemble de classement humain (HUMAN-RANKING), un ensemble de classement généré par la méthode populaire actuellement utilisée (PRESENT-RANKING), et enfin un ensemble de classement généré par ma méthode proposée (MY-RANKING) .

J'ai calculé la corrélation de Spearman entre HUMAN-RANKING et PRESENT-RANKING. Permettez-moi d'appeler cela: HUMAN-PRESENT-SPEARMAN.

J'ai ensuite découvert la corrélation du Spearman entre HUMAN-RANKING et MY-RANKING. Permettez-moi d'appeler cela: HUMAN-MY-SPEARMAN.

Comment savoir si la différence entre HUMAN-MY-SPEARMAN et HUMAN-PRESENT-SPEARMAN est statistiquement significative?

Patrick Chan
la source
2
Bienvenue Patrick. Je me bats avec le même problème mais avec Pearson r. Si vous vérifiez mes entrées, vous aurez une idée de ce que vous pouvez faire.
Adhesh Josh
Bien que vous ayez du mal à formuler cette question en termes statistiques - il serait utile de savoir exactement ce qui vous intéresse. Êtes-vous intéressé par la proximité de la corrélation (à quel point les scores se prédisent-ils) ou par l'existence d'une relation plus que du hasard. Étant donné que vous semblez avoir classé les données, répétées dans le temps, il peut être utile de faire quelques lectures sur les coefficients de corrélation intra-classe. J'espère avoir raison, la question n'est pas complètement claire.
Ross
Merci Adhesh et Rosser. Je suis désolé pour ma mauvaise description de ma question. Je l'ai réécrit. J'espère que c'est devenu une question compréhensible.
Patrick Chan
Salut! Je suis actuellement aux prises avec le même problème. Avez-vous par hasard un code prêt à mettre en œuvre votre suggestion? De plus, pourquoi cela ne fonctionne-t-il que pour les valeurs de corrélation inférieures à 0,6?
fsociety

Réponses:

1

L'article que vous citez explique la méthode dans les termes suivants:

[...] nous montrons la signification statistique de la différence entre les performances de la version ESA-Wikipedia (26 mars 2006) et celle d'autres algorithmes en utilisant la transformation z de Fisher (Press, Teukolsky, Vetterling, & Flannery, Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, 1997, section 14.5).

Je vous suggère de suivre cette référence ou de consulter la page Wikipedia sur le coefficient Spearman pour plus de détails.

Guillermo G.
la source
1
Merci Guillermo. Je soupçonnais qu'ils avaient traité la corrélation de rang de Spearman comme la corrélation de Pearson et calculé la différence de deux corrélations de Pearson. Cependant, il me semble que ce n'est pas la bonne façon de le faire, et donc je fais un post ici.
Patrick Chan
Connaissez-vous peut-être une implémentation fonctionnelle (de préférence en ligne) parce que c'est ce que le PO recherche?
chl