Pourquoi la dépendance est-elle un problème?

8

Je m'intéresse aux raisons pour lesquelles les observations dépendantes sont un problème en statistiques. Disons que vous voulez savoir s'il existe une différence dans les résultats moyens aux examens entre deux écoles. Vous collectez 50 observations dans chaque école. Ces 50 observations sont dérivées de 5 classes différentes dans chaque école et il y a une dépendance au sein des classes. Dans ce cas, comment les résultats du test t seraient-ils affectés et comment pourraient-ils conduire à des conclusions inexactes?

luciano
la source

Réponses:

5

La valeur de p pour le test t est calculée en supposant que toutes les observations sont indépendantes. Le calcul des probabilités (telles que la valeur de p) est beaucoup plus difficile lorsque vous traitez avec des variables dépendantes, et il n'est pas toujours facile de voir mathématiquement où les choses tournent mal avec le test en présence de dépendance. On peut cependant facilement illustrer le problème avec une simulation.

Prenons par exemple le cas où il y a 5 salles de classe dans chacune des deux écoles, avec 10 élèves dans chaque classe. Dans l'hypothèse de normalité, la valeur de p du test devrait être uniformément répartie sur l'intervalle s'il n'y a pas de différence dans les scores moyens aux tests entre toutes les classes. Autrement dit, si nous avons effectué de nombreuses études comme celle-ci et tracé un histogramme de toutes les valeurs de p, il devrait ressembler à la distribution uniforme en forme de boîte .(0,1)

Cependant, s'il existe une corrélation en classe entre les résultats des élèves, les valeurs de p ne se comportent plus comme elles le devraient. Une corrélation positive (comme on pourrait s'y attendre ici) conduira souvent à des valeurs de p qui sont trop petites, de sorte que l'hypothèse nulle sera rejetée trop souvent lorsqu'elle est en fait vraie. Une simulation R illustrant cela peut être trouvée ci-dessous. 1000 études de deux écoles sont simulées pour différentes corrélations intra-classe. Les valeurs de p du test t correspondant sont indiquées dans les histogrammes de la figure. Ils sont uniformément distribués lorsqu'il n'y a pas de corrélation, mais pas autrement. Dans la simulation, on suppose qu'il n'y a pas de différence moyenne entre les classes et que toutes les classes ont la même corrélation intra-classe.

La conséquence de ce phénomène est que le taux d'erreur de type I du test t sera très éloigné s'il existe des corrélations intra-classe. Par exemple, un test t au niveau de 5% est en fait approximativement au niveau de 25% si la corrélation intra-classe est de 0,1! En d'autres termes, le risque de rejeter faussement l'hypothèse nulle augmente considérablement lorsque les observations sont dépendantes .


Simulation Notez que les axes diffèrent quelque peu entre les histogrammes.

Code R:

library(MASS) 
B1<-1000

par(mfrow=c(3,2))

for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)

# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
    # Generate observations of 50 students from school A
    A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    # Generate observations of 50 students from school B
    B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    p.value[i]<-t.test(A,B)$p.value
}

# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}
MånsT
la source
MånsT votre réponse est le genre de réponse que j'espérais obtenir (+1). Cependant, pourriez-vous expliquer comment il est possible de calculer une corrélation intra-classe? Chacune des 5 salles de classe dans chacune des 2 écoles a 10 observations mesurées chacune sur une seule variable. Ma compréhension des corrélations est qu'elles auraient besoin d'observations mesurées sur deux variables.
luciano
@luciano: Calculer ou plutôt estimer cette corrélation pourrait en effet s'avérer délicat! Il est cependant facile à inclure dans le modèle utilisé dans la simulation: lorsque les résultats pour les 10 élèves de la classe sont générés, ils sont générés de manière corrélée. Les deux variables qui ont une corrélation sont le résultat de l'élève et le résultat de l'élève pour toutes les combinaisons de et . Fondamentalement, cela signifie que si un élève de la classe réussit bien (par rapport à la moyenne de l'école), les autres sont plus susceptibles de réussir également. ρXiiXjji=1,,10j=1,,10
MånsT
3

Le problème serait que la comparaison des deux écoles de cette façon mélange les effets au niveau universitaire avec les effets au niveau de la classe. Un modèle mixte vous permettrait de les démêler. Si vous n'êtes pas intéressé à les démêler, vous devez toujours tenir compte de l'échantillonnage en grappes (bien que beaucoup de gens ne le fassent pas).

Le commentaire de @Nico ci-dessus concerne un problème ici: supposons qu'un enseignant dans une école soit vraiment bon, et qu'il / elle se trouve être l'un des enseignants choisis?

Mais un autre problème est que les étudiants de chaque classe seront plus similaires les uns aux autres qu'ils ne le seront aux autres étudiants de la même université de toutes sortes de manières: différentes matières attirent différents types d'étudiants par âge, sexe, expérience, force académique et faiblesse etc.

Peter Flom
la source
1

Il n'y a rien de mal avec le test que vous avez décrit parce que vous avez prélevé un échantillon des deux écoles de manière équitable. Les observations dépendantes entrent en jeu lorsqu'il existe une autre variable dont dépendent les échantillons. C'est-à-dire que dans l'une des écoles, une seule classe s'est présentée et vous avez décidé de prendre les résultats de 50 personnes dans cette classe en pensant que tout irait bien. Mais au sein de l'école, le résultat dépend d'une classe, donc vous ne pouvez pas le faire comme ça et cela donnera un mauvais résultat que vous ne pourrez pas détecter par un test statistique ... c'est juste une mauvaise conception expérimentale.

Mais je pense que les gens parlent généralement d'observations dépendantes d'un point de vue différent. C'est lorsque vous pensez que vous pouvez dériver des distributions et des erreurs de vos échantillons sur la base d'hypothèses d'indépendance (la plupart des formules standard le supposent), tandis que lorsque vos résultats dépendent les uns des autres, ces règles ne sont pas du tout exactes ...

sashkello
la source
3
Que se passe-t-il si une seule classe dans l'une des deux écoles a un enseignant extrêmement bon pour que les enfants de cette classe soient tous au-dessus de la moyenne des autres classes? Le score moyen global de cette école peut être plus élevé mais uniquement à cause de cette classe, et non pas parce que la population générale de cette école est meilleure.
nico
Et alors? Cette école est en moyenne meilleure, et oui, aussi grâce à cet enseignant. Si vous essayez de comparer des enfants de différents domaines, oui, cela entrera en jeu. Sinon, il n'y a rien de mal à cela.
sashkello
Eh bien, on peut arriver à la conclusion erronée que toutes les classes de cette école sont meilleures (parce que, disons, des politiques du directeur), quand vraiment vous regardez l'effet d'une valeur aberrante. La correction de «l'effet enseignant», par exemple en le modélisant comme facteur de nuisance, peut corriger ce problème.
nico
1
Je ne pense pas que ce soit pertinent. Dans un contexte de "quelle école est meilleure", l'école avec un résultat moyen plus élevé est meilleure, quelle qu'en soit la raison. Le résultat d'une telle expérience n'est pas faux, il suffit de l'interpréter correctement. De plus, 1 classe sur 5 n'est pas une valeur aberrante. Je pourrais également faire valoir qu'il n'y a en fait pas de «valeur aberrante» du tout, car peu importe à quel point c'est moyen, c'est une question de définition de l'école que vous considérez la meilleure - celle qui a la moyenne meilleure ou celle qui a médiane mieux ou celui ayant de meilleurs 5 meilleurs étudiants ou autre.
sashkello