Corrélation significative dans chaque groupe mais non significative dans l'ensemble?

9

Supposons que l' on teste la corrélation de Pearson entre les variables et y dans les groupes A et B . Est-il possible que la corrélation ( x , y ) soit significative dans chacun de A et B , mais non significative lorsque les données des deux groupes sont combinées? Dans ce cas, pourriez-vous s'il vous plaît fournir une explication à cela.XyUNEB(X,y)UNEB

qed
la source

Réponses:

21

Oui, c'est possible et cela pourrait se produire de toutes sortes de façons. Un exemple évident est lorsque l'appartenance à A et B est choisie d'une manière qui reflète les valeurs de x et y. D'autres exemples sont possibles, par exemple le commentaire de @ Macro suggère une possibilité alternative.

Considérez l'exemple ci-dessous, écrit en R. x et y sont des variables normales standard iid, mais si je les alloue à des groupes en fonction des valeurs relatives de x et y, j'obtiens la siutation que vous nommez. Au sein du groupe A et du groupe B, il existe une forte corrélation statistiquement significative entre x et y, mais si vous ignorez la structure de regroupement, il n'y a pas de corrélation.

entrez la description de l'image ici

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)
Peter Ellis
la source
+1. Ceci est un exemple très intelligent qui ne m'était pas venu à l'esprit.
Macro
13

Une possibilité est que les effets vont dans des directions différentes dans chaque groupe et soient annulés lorsque vous les agrégez . Cela est également lié à la façon dont, lorsque vous omettez un terme d'interaction important dans un modèle de régression, les principaux effets peuvent être trompeurs.

UNEyjeXje

E(yje|Xje,group UNE)=1+Xje

B

E(yje|Xje,group B)=1-Xje

P(group UNE)=1-P(group B)=p
E(yje|Xje)

E(yje|Xje)=E(E(yje|Xje,group))=p(1+Xje)+(1-p)(1-Xje)=p+pXje+1-Xje-p+pXje=1-Xje(2p-1)

p=1/2E(yje|Xje)=1XjeXjeyje

p

Remarque: Avec des erreurs normales, la signification d'un coefficient de régression linéaire est équivalente à la signification de la corrélation de Pearson, donc cet exemple met en évidence une explication de ce que vous voyez.

Macro
la source