Y a-t-il des limites à la corrélation de Spearman d'une somme de deux variables?

8

Étant donné vecteurs tels que le coefficient de corrélation de Spearman de et est , existe-t-il des limites connues sur le coefficient de Spearman de avec , en termes de (et , sans doute)? Autrement dit, peut-on trouver des fonctions (non triviales) telles que nx,y1,y2xyiρi=ρ(x,yi)xy1+y2ρinl(ρ1,ρ2,n),u(ρ1,ρ2,n)

l(ρ1,ρ2,n)ρ(x,y1+y2)u(ρ1,ρ2,n)

edit : selon l'exemple de @ whuber dans le commentaire, il apparaît que dans le cas général, seules les bornes triviales peuvent être faites. Je voudrais donc imposer davantage la contrainte:l=1,u=1

  • y1,y2 sont des permutations des entiers .1n
shabbychef
la source
2
En connaissant seulement , l'intervalle contenant doit inclure et : pour chaque pourrait avoir de très petites valeurs (tout en ayant n'importe quel ordre de classement), et donc simplement "gigue" les valeurs de lorsqu'il est ajouté à . Ainsi, l'ordre de classement de ne serait pas affecté. Je ne sais pas si l'intervalle peut dépasser le . ρ1,ρ2ρ(x,y1+y2)ρ1ρ2y1,y2y1y1y1ρi
caracal
2
@caracal Bonnes observations. L'intervalle peut certainement être plus large que le : il suffit de considérer le cas où les deux corrélations sont nulles. La corrélation avec la somme peut facilement être non nulle - elle peut aller de -1 à 1. Par exemple, x = (1,2,3,4,5); y1 = (3, -10,2,10,1); y2 = (-8,9, -2, -9,4); y1 + y2 = (-5, -1,0,1,5) a mais . ρiρ1=ρ2=0ρ=1
whuber
@whuber: cela semble impliquer que seules des limites triviales existent (ie ). Je dois peut-être jeter une autre contrainte au problème. l=1,u=1
shabbychef
@shabbychef Non, vous avez posé un joli problème: ce n'est pas anodin. Dans le cas où , par exemple, la seule possibilité est . Je soupçonne que les limites ne sont pas triviales sauf lorsque ; ils doivent se rétrécir comme et approche . ρ1=ρ2=1ρ=1ρ1=ρ2=0ρ1ρ2±1
whuber
1
Voici un autre cas pathologique. Supposons que et . Alors , mais et . Il peut être éclairant de penser à une version plus simple et probabiliste du problème. Soit , et des variables aléatoires, chacune avec des distributions légèrement uniformes. Soit maintenant le CDF de . Que pouvons-nous dire à propos de sur la base de et ? x=y1y1=y2ρ(x,y1+y2)=0ρ1=1ρ2=1XY1Y2GY1+Y2Cov(X,G(Y1+Y2))Cov(X,Y1)Cov(X,Y2)
vqv

Réponses:

4

La corrélation de rang de Spearman n'est que la corrélation produit-moment de Pearson entre les rangs des variables. La contrainte supplémentaire de Shabbychef signifie que et sont les mêmes que leurs rangs et qu'il n'y a pas de liens, ils ont donc un écart type égal (disons). Si nous remplaçons également x par ses rangs, le problème devient le problème équivalent pour la corrélation produit-moment de Pearson. Par définition de la corrélation produit-moment de Pearson, y1y2σy

ρ(x,y1+y2)=Cov(x,y1+y2)σxVar(y1+y2)=Cov(x,y1)+Cov(x,y2)σxVar(y1)+Var(y2)+2Cov(y1,y2)=ρ1σxσy+ρ2σxσyσx2σy2+2σy2ρ(y1,y2)=ρ1+ρ22(1+ρ(y1,y2))1/2.
Pour tout ensemble de trois variables, si nous connaissons deux de leurs trois corrélations, nous pouvons fixer des limites à la troisième corrélation (voir par exemple Vos 2009 , ou à partir de la formule de corrélation partielle ):
ρ1ρ21ρ121ρ22ρ(y1,y2)ρ1ρ2+1ρ121ρ22
Par conséquent if ; si vous devez changer les limites.
ρ1+ρ22(1+ρ1ρ2+1ρ121ρ22)1/2ρ(x,y1+y2)ρ1+ρ22(1+ρ1ρ21ρ121ρ22)1/2
ρ1+ρ20ρ1+ρ20
un arrêt
la source
Mais le vrai problème est que les rangs ne s'ajoutent pas. Voir mon commentaire sur la question.
vqv
@vqv mais si et sont des permutations des entiers alors ils sont exactement les mêmes que leurs rangs. y1y21n
2010
la moitié de la somme des permutations n'est pas nécessairement une permutation; Mais cela est très proche et répond à la question pour Pearson, je crois.
shabbychef
Les valeurs classées de sont en général une fonction non linéaire de - même si et sont chacun une permutation des entiers . Voici un exemple: et . Alors et . Tracez rapport au et vous verrez qu'il n'y a pas de relation linéaire entre les deux. L'affirmation ci-dessus selon laquelle est en général fausse , même en supposant quey1+y2y1+y2y1y21,,ny1=(1,2,3,4)y2=(2,3,1,4)y1+y2=(3,5,4,8)rank(y1+y2)=(1,3,2,4)y1+y2rank(y1+y2)ρ(x,y1+y2)=Cov(x,y1+y2)/ y1et sont des permutations des entiers. y2
vqv
@vqv Vous avez tout à fait raison. J'étais trop pressé pour tenter une réponse avant de partir pour les vacances de Noël. Je n'avais jamais rencontré cette inégalité concernant la corrélation de Pearson de trois variables auparavant. Voici une autre référence complète avec des visualisations 3D: jstor.org/stable/2684832 . Je pense toujours que cela pourrait avoir une certaine pertinence, donc je ne supprimerai pas ma réponse, même si je ne vois pas comment y remédier non plus.
2010