Stratégies d'enseignement de la distribution d'échantillonnage

30

La version tl; dr Quelles stratégies réussies utilisez-vous pour enseigner la distribution d'échantillonnage (d'une moyenne d'échantillon, par exemple) au niveau de l'introduction au premier cycle?

L'arrière-plan

En septembre, j'enseignerai un cours d'introduction aux statistiques pour les étudiants de deuxième année en sciences sociales (principalement les sciences politiques et la sociologie) en utilisant The Basic Practice of Statistics de David Moore. Ce sera la cinquième fois que j'enseignerai ce cours et un problème que j'ai toujours eu est que les étudiants ont vraiment du mal avec la notion de distribution d'échantillonnage . Il est couvert comme arrière-plan pour l'inférence et suit une introduction de base à la probabilité avec laquelle ils ne semblent pas avoir de problèmes après quelques hoquets initiaux (et par base, je veux dire de base- après tout, beaucoup de ces étudiants ont été auto-sélectionnés dans un flux de cours spécifique parce qu'ils essayaient d'éviter quoi que ce soit avec une vague touche de "math"). Je suppose que probablement 60% quittent le cours sans aucune compréhension minimale, environ 25% comprennent le principe mais pas les liens avec d'autres concepts, et les 15% restants comprennent parfaitement.

Le principal problème

Les étudiants semblent avoir des problèmes avec l'application. Il est difficile d'expliquer quel est le problème précis autrement que de dire qu'ils ne comprennent tout simplement pas. D'après un sondage que j'ai effectué le semestre dernier et d'après les réponses aux examens, je pense qu'une partie de la difficulté est la confusion entre deux phrases similaires et similaires (distribution d'échantillonnage et distribution d'échantillons), donc je n'ai pas utilisé l'expression "distribution d'échantillons" plus, mais c'est sûrement quelque chose qui, bien que déroutant au début, est facilement saisi avec un petit effort et de toute façon il ne peut pas expliquer la confusion générale du concept d'une distribution d'échantillonnage.

(Je me rends compte que c'est peut-être moi et mon enseignement qui est en cause ici! Cependant, je pense qu'il est raisonnable d'ignorer cette possibilité inconfortable car certains étudiants semblent l'obtenir et dans l'ensemble, tout le monde semble se débrouiller assez bien ...)

Ce que j'ai essayé

J'ai dû discuter avec l'administrateur de premier cycle de notre département pour introduire des sessions obligatoires dans le laboratoire informatique en pensant que des démonstrations répétées pourraient être utiles (avant de commencer à enseigner ce cours, il n'y avait pas d'informatique impliquée). Bien que je pense que cela aide à la compréhension globale du matériel de cours en général, je ne pense pas que cela ait aidé avec ce sujet spécifique.

Une idée que j'ai eue est simplement de ne pas l'enseigner du tout ou de ne pas lui donner beaucoup de poids, une position préconisée par certains (par exemple Andrew Gelman ). Je ne trouve pas cela particulièrement satisfaisant car il a le sens d'enseigner au plus petit dénominateur commun et, plus important encore, refuse aux étudiants forts et motivés qui veulent en savoir plus sur l'application statistique de vraiment comprendre comment les concepts importants fonctionnent (pas seulement la distribution d'échantillonnage! ). D'un autre côté, l'étudiant médian semble saisir des valeurs de p par exemple, alors peut-être qu'il n'a pas besoin de comprendre la distribution d'échantillonnage de toute façon.

La question

Quelles stratégies utilisez-vous pour enseigner la distribution d'échantillonnage? Je sais qu'il y a du matériel et des discussions disponibles (par exemple ici et ici et ce document qui ouvre un fichier PDF ) mais je me demande simplement si je peux obtenir des exemples concrets de ce qui fonctionne pour les gens (ou je suppose que même ce qui ne fonctionne pas) donc je saurai ne pas l'essayer!). Mon plan maintenant, alors que je planifie mon cours pour septembre, est de suivre les conseils de Gelman et de "désaccentuer" la distribution d'échantillonnage. Je vais l'enseigner, mais je vais assurer aux étudiants que c'est une sorte de sujet réservé à FYI et n'apparaîtra pas à un examen (sauf peut-être comme question bonus?!). Cependant, je suis vraiment intéressé d'entendre d'autres approches que les gens ont utilisées.

smillig
la source
Vous pouvez également le faire avec des distributions de population non normales pour afficher le théorème de la limite centrale
user41270
désolé, cela aurait dû être un commentaire sur ma réponse ci-dessous.
user41270

Réponses:

23

À mon avis, les distributions d'échantillonnage sont l'idée clé de la statistique 101. Vous pourriez aussi bien sauter le cours que sauter ce problème. Cependant, je connais très bien le fait que les étudiants ne comprennent tout simplement pas, apparemment quoi que vous fassiez. J'ai une série de stratégies. Celles-ci peuvent prendre beaucoup de temps, mais je recommande de sauter / abréger d'autres sujets, afin de s'assurer qu'ils aient une idée de la distribution d'échantillonnage. Voici quelques conseils:

  • Dites-le clairement: je mentionne d'abord explicitement qu'il y a 3 distributions différentes qui nous intéressent: la distribution de la population, la distribution de l'échantillon et la distribution de l'échantillonnage. Je le dis encore et encore tout au long de la leçon, puis encore et encore tout au long du cours. Chaque fois que je dis ces termes je souligne la fin distinctive: Sam- ple , samp- ling . (Oui, les étudiants en ont assez; ils comprennent également le concept.)
  • Utiliser des images (figures): J'ai un ensemble de figures standard que j'utilise chaque fois que j'en parle. Il a les trois distributions illustrées distinctement et généralement étiquetées. (Les étiquettes qui accompagnent cette figure sont sur la diapositive PowerPoint et incluent de brèves descriptions, donc elles n'apparaissent pas ici, mais évidemment c'est: la population en haut, puis les échantillons, puis la distribution d'échantillonnage.)
    entrez la description de l'image ici
  • Donnez aux élèves des activités: la première fois que vous introduisez ce concept, apportez un rouleau de nickles (certains quartiers peuvent disparaître) ou un tas de dés à 6 faces. Demandez aux élèves de former de petits groupes, de générer un ensemble de 10 valeurs et de les faire la moyenne. Ensuite, vous pouvez faire un histogramme sur le tableau ou avec Excel.
  • Utiliser des animations (simulations): j'écris du code (comiquement inefficace) en R pour générer des données et les afficher en action. Cette partie est particulièrement utile lorsque vous passez à l'explication du théorème de la limite centrale. (Remarquez les Sys.sleep()déclarations, ces pauses me donnent un moment pour expliquer ce qui se passe à chaque étape.)
N = 10
number_of_samples = 1000


iterations  = c(3, 7, number_of_samples)  
breakpoints = seq(10, 91, 3)  
meanVect    = vector()  
x           = seq(10, 90)  
height      = 30/dnorm(50, mean=50, sd=10)  
y           = height*dnorm(x, mean=50, sd=10)  

windows(height=7, width=5)  
par(mfrow=c(3,1), omi=c(0.5,0,0,0), mai=c(0.1, 0.1, 0.2, 0.1))  

for(i in 1:iterations[3]) {  
  plot(x,y, type="l", col="blue", axes=F, xlab="", ylab="")  
  segments(x0=20, y0=0, x1=20, y1=y[11], col="lightgray")  
  segments(x0=30, y0=0, x1=30, y1=y[21], col="gray")  
  segments(x0=40, y0=0, x1=40, y1=y[31], col="darkgray")  
  segments(x0=50, y0=0, x1=50, y1=y[41])  
  segments(x0=60, y0=0, x1=60, y1=y[51], col="darkgray")  
  segments(x0=70, y0=0, x1=70, y1=y[61], col="gray")  
  segments(x0=80, y0=0, x1=80, y1=y[71], col="lightgray")  
  abline(h=0)  

  if(i==1) {  
    Sys.sleep(2)  
  }  
  sample = rnorm(N, mean=50, sd=10)  
  points(x=sample, y=rep(1,N), col="green", pch="*")  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  xhist1 = hist(sample, breaks=breakpoints, plot=F)  
  hist(sample, breaks=breakpoints, axes=F, col="green", xlim=c(10,90),  
       ylim=c(0,N), main="", xlab="", ylab="")  
  if(i==iterations[3]) {  
    abline(v=50)  
  }  

  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
  sampleMean = mean(sample)  
  segments(x0=sampleMean, y0=0, x1=sampleMean,   
           y1=max(xhist1$counts)+1, col="red", lwd=3)  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  meanVect = c(meanVect, sampleMean)  
  hist(meanVect, breaks=x, axes=F, col="red", main="",   
       xlab="", ylab="", ylim=c(0,((N/3)+(0.2*i))))  
  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
}  

Sys.sleep(2)  
xhist2 = hist(meanVect, breaks=x, plot=F)  
xMean  = round(mean(meanVect), digits=3)  
xSD    = round(sd(meanVect), digits=3)  
histHeight = (max(xhist2$counts)/dnorm(xMean, mean=xMean, sd=xSD))  
lines(x=x, y=(histHeight*dnorm(x, mean=xMean, sd=xSD)),   
      col="yellow", lwd=2)  
abline(v=50)  

txt1 = paste("population mean = 50     sampling distribution mean = ",  
             xMean, sep="")  
txt2 = paste("SD = 10     10/sqrt(", N,") = 3.162     SE = ", xSD,  
            sep="")  
mtext(txt1, side=1, outer=T)  
mtext(txt2, side=1, line=1.5, outer=T)  
  • Réinstaurer ces concepts tout au long du semestre: je soulève l'idée de la distribution d'échantillonnage chaque fois que nous parlons du sujet suivant (bien que généralement très brièvement). L'endroit le plus important pour cela est lorsque vous enseignez l'ANOVA, car dans le cas de l'hypothèse nulle, il y a vraiment la situation dans laquelle vous avez échantillonné plusieurs fois à partir de la même répartition de la population, et votre ensemble de moyennes de groupe est vraiment une distribution d'échantillonnage empirique. (Pour un exemple de cela, voir ma réponse ici: Comment fonctionne l'erreur standard?. )
gung - Réintégrer Monica
la source
1
C'est une bonne réponse (+1). Je pense surtout que les activités et les simulations sont très utiles pour enseigner cette matière. Dans un cours d'introduction que j'ai enseigné à quelques reprises, nous avons utilisé une applet Web qui a permis aux étudiants de visualiser comment la statistique est calculée à partir de l'échantillon et comment l'histogramme de la distribution d'échantillonnage commence à prendre forme lorsque vous le répétez plusieurs fois. Je pense que cette activité a aidé bien plus que tout ce que j'ai dit aux étudiants en ce qui concerne la compréhension des distributions d'échantillonnage :)
Macro
+1 Merci Gung, c'est une excellente réponse! Merci aussi de "m'envoyer le code" (nb. Les utilisateurs Mac remplacent windows(...)par quartz(...)). Votre point sur le renforcement du concept tout au long du semestre est particulièrement utile. Je pense que suivre ces directives sera vraiment utile.
smillig
(+1) pour le mantra "3-distributions", et pour l'image relationnelle. Personne ne peut comprendre un concept sans d'abord comprendre qu'il s'agit bien d'un concept distinct .
Alecos Papadopoulos
J'ai trouvé la page " Livre de statistiques en ligne " de l'Université Rice sur la distribution d'échantillonnage très utile pour cela. La version originale, vieille de plusieurs années, comportait une applet Java, mais je suis ravi qu'ils l'aient récemment refaite en Javascript. La façon dont cela fonctionne est essentiellement identique à votre diagramme.
Silverfish
8

J'ai eu de la chance en rappelant aux élèves que la distribution d'échantillonnage est la distribution de la statistique de test basée sur un échantillon aléatoire . J'ai des étudiants qui pensent que ce qui se passerait dans le processus d'échantillonnage lui-même était biaisé - en se concentrant sur les cas extrêmes. Par exemple, à quoi ressemblerait la «distribution d'échantillonnage» si notre processus d'échantillonnage choisissait toujours le même sous-ensemble (spécial). Ensuite, je considérerais à quoi ressemblerait la "distribution d'échantillonnage" si notre processus d'échantillonnage ne choisissait que deux sous-ensembles spécifiques (spéciaux) (chacun avec une probabilité 1/2). Celles-ci sont assez simples à calculer avec la moyenne de l'échantillon (en particulier pour des choix particuliers de "spécial" pour la population sous-jacente).

Je pense que pour certains (clairement pas tous) les élèves, cela semble les aider à penser que la distribution d'échantillonnage peut être très différente de la distribution de la population. J'ai également utilisé l'exemple du théorème de la limite centrale que Michael Chernick a mentionné avec un certain succès - en particulier avec des distributions qui ne sont clairement pas normales (les simulations semblent vraiment aider).

shoda
la source
Graham Cookson a un bon exercice en classe qui est affiché comme réponse dans "Quelle est l'explication de votre profane préféré pour un concept statistique difficile?" - un wiki communautaire.
shoda
+1, parler de la distribution d'échantillonnage des échantillons non aléatoires est une bonne idée.
gung - Réintègre Monica
+1 Excellente idée de la sélection de sous-ensembles! Je pense que c'est le lien auquel vous faites référence à @shoda: stats.stackexchange.com/a/554/9249
smillig
7

Je recommence avec l'enseignement des probabilités. Je n'entre pas dans beaucoup de définitions et de règles formelles (mais pas assez de temps), mais je montre la probabilité par simulation. Le problème de Monty Hall est un excellent exemple à utiliser, je montre à travers la simulation (puis le suivi avec la logique) que la stratégie de changement donne une plus grande probabilité de gagner. Je souligne que par simulation, nous avons pu jouer le jeu plusieurs fois (sans risque ni récompense) pour évaluer les stratégies et cela nous permet de choisir la meilleure stratégie (si jamais nous sommes dans cette situation). Choisir la meilleure stratégie ne garantit pas une victoire, mais cela nous donne une meilleure chance et aide à choisir entre les stratégies. Je souligne ensuite que comment cela s'appliquera au reste du cours, cela nous aidera à choisir des stratégies où il y a une composante aléatoire,

Ensuite, lorsque je présente la distribution d'échantillonnage, je recommence avec la simulation et je dis que nous voulons développer des stratégies. Tout comme avec le problème de Monty Hall, dans la vraie vie, nous ne pourrons prendre qu'un seul échantillon, mais nous pouvons simuler un tas d'échantillons pour nous aider à développer une stratégie. Je montre ensuite des simulations de nombreux échantillons de la même population (population connue dans ce cas) et montre les relations que nous apprenons des simulations (histogramme des moyennes de l'échantillon), c'est-à-dire des moyennes de l'échantillon regroupées autour de la vraie moyenne (la moyenne des moyennes est la moyenne) , écart-type plus petit de la distribution d'échantillonnage pour les échantillons plus gros, plus normal pour les échantillons plus gros. Pendant tout ce temps, je parle de répéter les idées de la simulation pour choisir des stratégies, exactement la même idée que le problème de Monty Hall appliqué maintenant aux échantillons de moyens au lieu des jeux télévisés. Je montre ensuite les règles officielles et dis qu'en plus des simulations elles peuvent être prouvées mathématiquement, mais je n'infligerai pas les preuves à toute la classe. Je leur propose que s'ils veulent vraiment voir les preuves mathématiques, ils peuvent venir à une heure de bureau et je leur montrerai les mathématiques (personne des cours d'introduction ne m'a encore abordé ce sujet).

Ensuite, lorsque nous arrivons à l'inférence, je dis que nous ne pourrons prendre qu'un échantillon dans le monde réel, tout comme nous ne pourrions jouer au jeu qu'une seule fois (au plus), mais nous pouvons utiliser les stratégies que nous avons apprises en simulant de nombreux échantillons pour développer une stratégie (z-test, t-test ou formule CI) qui nous donnera les propriétés choisies (chance d'être correct). Tout comme avec le jeu, nous ne savons pas avant de commencer si notre conclusion finale sera correcte (et généralement nous ne savons toujours pas après), mais nous savons par les simulations et la distribution d'échantillonnage ce que la probabilité à long terme utilise cette stratégie.

100% des étudiants ont-ils une parfaite compréhension? non, mais je pense que plus d'entre eux ont l'idée générale que nous pouvons utiliser des règles de simulation et de mathématiques (qu'ils sont heureux de ne pas avoir à regarder, faites simplement confiance au livre / instructeur) pour choisir une stratégie / formule qui a le propriétés souhaitées.

Greg Snow
la source
+1 Merci d'avoir partagé ce conseil. Je pense que vous avez résolu le problème en faisant le lien entre ce que nous pouvons enseigner sur la distribution d'échantillonnage et la façon dont cela peut être extrapolé pour l'inférence à partir d'un seul échantillon. Comme vous (et d'autres ici) l'avez suggéré, continuer à réitérer le concept encore et encore tout au long du cours est important, mais pas souvent fait (du moins pas par moi, probablement parce que je trouve déjà assez difficile de s'adapter à tout ce que je veux, sans parler de revenir à des concepts déjà couverts!).
smillig
3

C'est un problème très important et bien pensé de votre part. Je pense que le concept de distribution d'échantillonnage est fondamental pour comprendre l'inférence et devrait certainement être enseigné.

J'ai donné de nombreux cours d'introduction à la statistique, notamment en biostatistique. J'enseigne le concept de distribution d'échantillonnage et j'ai des approches qui me semblent bonnes, mais je n'ai pas vraiment de bons commentaires pour déterminer à quel point j'ai réussi avec eux. Quoi qu'il en soit, voici ce que je fais.

J'essaie d'abord de donner une définition simple. La distribution d'échantillonnage est la distribution que la statistique de test aurait si le processus d'échantillonnage était répété plusieurs fois. Cela dépend de la répartition de la population à partir de laquelle les données sont supposées être générées.

Bien que je pense qu'il s'agit d'une définition aussi simple que je peux donner, je me rends compte que ce n'est pas très simple et la compréhension du concept ne viendra pas immédiatement dans la plupart des cas. Continuez donc avec un exemple de base qui renforce ce qui est dit avec la définition.

22

Ensuite, je poursuivrais avec une application importante, le théorème de la limite centrale. Dans les termes les plus simples, le théorème de la limite centrale dit que pour de nombreuses distributions qui ne sont pas normales, la distribution d'échantillonnage pour la moyenne de l'échantillon sera proche d'une distribution normale lorsque la taille de l'échantillon n est grande. Pour illustrer cela, prendre des distributions comme l'uniforme (une distribution bimodale serait également bonne à regarder) et montrer à quoi ressemble la distribution d'échantillonnage pour la moyenne pour des tailles d'échantillon de 3, 4, 5, 10 et 100. L'élève peut voir comment la forme de la distribution passe de quelque chose qui ne semble pas du tout normal pour le petit n à quelque chose qui ressemble beaucoup à une distribution normale pour le grand n.

Pour convaincre l'élève que ces distributions d'échantillonnage ont réellement ces formes, les élèves doivent effectuer des simulations générant de nombreux échantillons de différentes tailles et calculer les moyennes de l'échantillon. Demandez-leur ensuite de générer des histogrammes pour ces estimations de la moyenne. Je suggérerais également d'appliquer une démonstration physique montrant comment cela fonctionne en utilisant une planche en quinconce. En faisant cela, vous montrez comment l'appareil génère des échantillons de la somme des essais de Bernoulli indépendants où la probabilité d'aller à gauche ou à droite à chaque niveau est égale à 1/2. Les empilements résultants en bas représentent un histogramme pour cette distribution d'échantillonnage (le binôme) et sa forme peut être considérée comme normale après qu'un grand nombre de billes atterrissent au bas du quinconce,

Michael R. Chernick
la source
Merci pour les précieuses suggestions. J'aime vraiment l'idée d'une démonstration physique réelle et j'essaierai certainement d'implémenter quelque chose comme ça (en supposant que je puisse les distraire de Facebook assez longtemps ...), bien que le lien avec la somme des essais indépendants de Bernoulli soit probablement un peu plus que leur têtes! Merci.
smillig
1
Mais voir la forme de distribution normale de l'expérience est vraiment révélateur. J'ai vu pour la première fois l'une d'entre elles au Science Museum de Chicago lorsque j'étais enfant (environ 10 ans). Je ne connaissais alors rien aux statistiques, mais je n'ai jamais oublié la courbe.
Michael R. Chernick
1

Je pense qu'il serait bon de mettre une «population» de nombres dans un sac (allant par exemple de 1 à 10). Vous pouvez créer vos propres tuiles ou utiliser des pièces de monnaie, des cartes à jouer, etc.

Demandez aux élèves de s'asseoir en groupes (5 ou plus) et chacun choisit un numéro dans le sac. Chaque groupe calcule ensuite la valeur moyenne pour son groupe. Dites-leur que plus tôt vous avez calculé la moyenne de la population, tracez-la sur un histogramme et demandez à un membre de chaque groupe de venir tracer leur moyenne d'échantillon sur un historgramme autour de cela. Demandez-leur de faire cet exercice plusieurs fois pour «construire l'histogramme».

Vous pourrez alors montrer graphiquement la variation des moyennes d'échantillonnage autour de la moyenne de la population. Calculez la variation des moyennes de l'échantillon par rapport à la moyenne de la population. Je pense que les étudiants se souviennent clairement d'avoir fait un exercice aussi pratique et le concept de variation d'échantillonnage leur reviendra plus facilement en conséquence. Cela peut sembler un peu enfantin, mais les étudiants aiment parfois juste un changement pour faire quelque chose d'actif ... il n'y a pas beaucoup d'occasions de le faire dans les statistiques.

user41270
la source