La version tl; dr Quelles stratégies réussies utilisez-vous pour enseigner la distribution d'échantillonnage (d'une moyenne d'échantillon, par exemple) au niveau de l'introduction au premier cycle?
L'arrière-plan
En septembre, j'enseignerai un cours d'introduction aux statistiques pour les étudiants de deuxième année en sciences sociales (principalement les sciences politiques et la sociologie) en utilisant The Basic Practice of Statistics de David Moore. Ce sera la cinquième fois que j'enseignerai ce cours et un problème que j'ai toujours eu est que les étudiants ont vraiment du mal avec la notion de distribution d'échantillonnage . Il est couvert comme arrière-plan pour l'inférence et suit une introduction de base à la probabilité avec laquelle ils ne semblent pas avoir de problèmes après quelques hoquets initiaux (et par base, je veux dire de base- après tout, beaucoup de ces étudiants ont été auto-sélectionnés dans un flux de cours spécifique parce qu'ils essayaient d'éviter quoi que ce soit avec une vague touche de "math"). Je suppose que probablement 60% quittent le cours sans aucune compréhension minimale, environ 25% comprennent le principe mais pas les liens avec d'autres concepts, et les 15% restants comprennent parfaitement.
Le principal problème
Les étudiants semblent avoir des problèmes avec l'application. Il est difficile d'expliquer quel est le problème précis autrement que de dire qu'ils ne comprennent tout simplement pas. D'après un sondage que j'ai effectué le semestre dernier et d'après les réponses aux examens, je pense qu'une partie de la difficulté est la confusion entre deux phrases similaires et similaires (distribution d'échantillonnage et distribution d'échantillons), donc je n'ai pas utilisé l'expression "distribution d'échantillons" plus, mais c'est sûrement quelque chose qui, bien que déroutant au début, est facilement saisi avec un petit effort et de toute façon il ne peut pas expliquer la confusion générale du concept d'une distribution d'échantillonnage.
(Je me rends compte que c'est peut-être moi et mon enseignement qui est en cause ici! Cependant, je pense qu'il est raisonnable d'ignorer cette possibilité inconfortable car certains étudiants semblent l'obtenir et dans l'ensemble, tout le monde semble se débrouiller assez bien ...)
Ce que j'ai essayé
J'ai dû discuter avec l'administrateur de premier cycle de notre département pour introduire des sessions obligatoires dans le laboratoire informatique en pensant que des démonstrations répétées pourraient être utiles (avant de commencer à enseigner ce cours, il n'y avait pas d'informatique impliquée). Bien que je pense que cela aide à la compréhension globale du matériel de cours en général, je ne pense pas que cela ait aidé avec ce sujet spécifique.
Une idée que j'ai eue est simplement de ne pas l'enseigner du tout ou de ne pas lui donner beaucoup de poids, une position préconisée par certains (par exemple Andrew Gelman ). Je ne trouve pas cela particulièrement satisfaisant car il a le sens d'enseigner au plus petit dénominateur commun et, plus important encore, refuse aux étudiants forts et motivés qui veulent en savoir plus sur l'application statistique de vraiment comprendre comment les concepts importants fonctionnent (pas seulement la distribution d'échantillonnage! ). D'un autre côté, l'étudiant médian semble saisir des valeurs de p par exemple, alors peut-être qu'il n'a pas besoin de comprendre la distribution d'échantillonnage de toute façon.
La question
Quelles stratégies utilisez-vous pour enseigner la distribution d'échantillonnage? Je sais qu'il y a du matériel et des discussions disponibles (par exemple ici et ici et ce document qui ouvre un fichier PDF ) mais je me demande simplement si je peux obtenir des exemples concrets de ce qui fonctionne pour les gens (ou je suppose que même ce qui ne fonctionne pas) donc je saurai ne pas l'essayer!). Mon plan maintenant, alors que je planifie mon cours pour septembre, est de suivre les conseils de Gelman et de "désaccentuer" la distribution d'échantillonnage. Je vais l'enseigner, mais je vais assurer aux étudiants que c'est une sorte de sujet réservé à FYI et n'apparaîtra pas à un examen (sauf peut-être comme question bonus?!). Cependant, je suis vraiment intéressé d'entendre d'autres approches que les gens ont utilisées.
la source
Réponses:
À mon avis, les distributions d'échantillonnage sont l'idée clé de la statistique 101. Vous pourriez aussi bien sauter le cours que sauter ce problème. Cependant, je connais très bien le fait que les étudiants ne comprennent tout simplement pas, apparemment quoi que vous fassiez. J'ai une série de stratégies. Celles-ci peuvent prendre beaucoup de temps, mais je recommande de sauter / abréger d'autres sujets, afin de s'assurer qu'ils aient une idée de la distribution d'échantillonnage. Voici quelques conseils:
Sys.sleep()
déclarations, ces pauses me donnent un moment pour expliquer ce qui se passe à chaque étape.)la source
windows(...)
parquartz(...)
). Votre point sur le renforcement du concept tout au long du semestre est particulièrement utile. Je pense que suivre ces directives sera vraiment utile.J'ai eu de la chance en rappelant aux élèves que la distribution d'échantillonnage est la distribution de la statistique de test basée sur un échantillon aléatoire . J'ai des étudiants qui pensent que ce qui se passerait dans le processus d'échantillonnage lui-même était biaisé - en se concentrant sur les cas extrêmes. Par exemple, à quoi ressemblerait la «distribution d'échantillonnage» si notre processus d'échantillonnage choisissait toujours le même sous-ensemble (spécial). Ensuite, je considérerais à quoi ressemblerait la "distribution d'échantillonnage" si notre processus d'échantillonnage ne choisissait que deux sous-ensembles spécifiques (spéciaux) (chacun avec une probabilité 1/2). Celles-ci sont assez simples à calculer avec la moyenne de l'échantillon (en particulier pour des choix particuliers de "spécial" pour la population sous-jacente).
Je pense que pour certains (clairement pas tous) les élèves, cela semble les aider à penser que la distribution d'échantillonnage peut être très différente de la distribution de la population. J'ai également utilisé l'exemple du théorème de la limite centrale que Michael Chernick a mentionné avec un certain succès - en particulier avec des distributions qui ne sont clairement pas normales (les simulations semblent vraiment aider).
la source
Je recommence avec l'enseignement des probabilités. Je n'entre pas dans beaucoup de définitions et de règles formelles (mais pas assez de temps), mais je montre la probabilité par simulation. Le problème de Monty Hall est un excellent exemple à utiliser, je montre à travers la simulation (puis le suivi avec la logique) que la stratégie de changement donne une plus grande probabilité de gagner. Je souligne que par simulation, nous avons pu jouer le jeu plusieurs fois (sans risque ni récompense) pour évaluer les stratégies et cela nous permet de choisir la meilleure stratégie (si jamais nous sommes dans cette situation). Choisir la meilleure stratégie ne garantit pas une victoire, mais cela nous donne une meilleure chance et aide à choisir entre les stratégies. Je souligne ensuite que comment cela s'appliquera au reste du cours, cela nous aidera à choisir des stratégies où il y a une composante aléatoire,
Ensuite, lorsque je présente la distribution d'échantillonnage, je recommence avec la simulation et je dis que nous voulons développer des stratégies. Tout comme avec le problème de Monty Hall, dans la vraie vie, nous ne pourrons prendre qu'un seul échantillon, mais nous pouvons simuler un tas d'échantillons pour nous aider à développer une stratégie. Je montre ensuite des simulations de nombreux échantillons de la même population (population connue dans ce cas) et montre les relations que nous apprenons des simulations (histogramme des moyennes de l'échantillon), c'est-à-dire des moyennes de l'échantillon regroupées autour de la vraie moyenne (la moyenne des moyennes est la moyenne) , écart-type plus petit de la distribution d'échantillonnage pour les échantillons plus gros, plus normal pour les échantillons plus gros. Pendant tout ce temps, je parle de répéter les idées de la simulation pour choisir des stratégies, exactement la même idée que le problème de Monty Hall appliqué maintenant aux échantillons de moyens au lieu des jeux télévisés. Je montre ensuite les règles officielles et dis qu'en plus des simulations elles peuvent être prouvées mathématiquement, mais je n'infligerai pas les preuves à toute la classe. Je leur propose que s'ils veulent vraiment voir les preuves mathématiques, ils peuvent venir à une heure de bureau et je leur montrerai les mathématiques (personne des cours d'introduction ne m'a encore abordé ce sujet).
Ensuite, lorsque nous arrivons à l'inférence, je dis que nous ne pourrons prendre qu'un échantillon dans le monde réel, tout comme nous ne pourrions jouer au jeu qu'une seule fois (au plus), mais nous pouvons utiliser les stratégies que nous avons apprises en simulant de nombreux échantillons pour développer une stratégie (z-test, t-test ou formule CI) qui nous donnera les propriétés choisies (chance d'être correct). Tout comme avec le jeu, nous ne savons pas avant de commencer si notre conclusion finale sera correcte (et généralement nous ne savons toujours pas après), mais nous savons par les simulations et la distribution d'échantillonnage ce que la probabilité à long terme utilise cette stratégie.
100% des étudiants ont-ils une parfaite compréhension? non, mais je pense que plus d'entre eux ont l'idée générale que nous pouvons utiliser des règles de simulation et de mathématiques (qu'ils sont heureux de ne pas avoir à regarder, faites simplement confiance au livre / instructeur) pour choisir une stratégie / formule qui a le propriétés souhaitées.
la source
C'est un problème très important et bien pensé de votre part. Je pense que le concept de distribution d'échantillonnage est fondamental pour comprendre l'inférence et devrait certainement être enseigné.
J'ai donné de nombreux cours d'introduction à la statistique, notamment en biostatistique. J'enseigne le concept de distribution d'échantillonnage et j'ai des approches qui me semblent bonnes, mais je n'ai pas vraiment de bons commentaires pour déterminer à quel point j'ai réussi avec eux. Quoi qu'il en soit, voici ce que je fais.
J'essaie d'abord de donner une définition simple. La distribution d'échantillonnage est la distribution que la statistique de test aurait si le processus d'échantillonnage était répété plusieurs fois. Cela dépend de la répartition de la population à partir de laquelle les données sont supposées être générées.
Bien que je pense qu'il s'agit d'une définition aussi simple que je peux donner, je me rends compte que ce n'est pas très simple et la compréhension du concept ne viendra pas immédiatement dans la plupart des cas. Continuez donc avec un exemple de base qui renforce ce qui est dit avec la définition.
Ensuite, je poursuivrais avec une application importante, le théorème de la limite centrale. Dans les termes les plus simples, le théorème de la limite centrale dit que pour de nombreuses distributions qui ne sont pas normales, la distribution d'échantillonnage pour la moyenne de l'échantillon sera proche d'une distribution normale lorsque la taille de l'échantillon n est grande. Pour illustrer cela, prendre des distributions comme l'uniforme (une distribution bimodale serait également bonne à regarder) et montrer à quoi ressemble la distribution d'échantillonnage pour la moyenne pour des tailles d'échantillon de 3, 4, 5, 10 et 100. L'élève peut voir comment la forme de la distribution passe de quelque chose qui ne semble pas du tout normal pour le petit n à quelque chose qui ressemble beaucoup à une distribution normale pour le grand n.
Pour convaincre l'élève que ces distributions d'échantillonnage ont réellement ces formes, les élèves doivent effectuer des simulations générant de nombreux échantillons de différentes tailles et calculer les moyennes de l'échantillon. Demandez-leur ensuite de générer des histogrammes pour ces estimations de la moyenne. Je suggérerais également d'appliquer une démonstration physique montrant comment cela fonctionne en utilisant une planche en quinconce. En faisant cela, vous montrez comment l'appareil génère des échantillons de la somme des essais de Bernoulli indépendants où la probabilité d'aller à gauche ou à droite à chaque niveau est égale à 1/2. Les empilements résultants en bas représentent un histogramme pour cette distribution d'échantillonnage (le binôme) et sa forme peut être considérée comme normale après qu'un grand nombre de billes atterrissent au bas du quinconce,
la source
Je pense qu'il serait bon de mettre une «population» de nombres dans un sac (allant par exemple de 1 à 10). Vous pouvez créer vos propres tuiles ou utiliser des pièces de monnaie, des cartes à jouer, etc.
Demandez aux élèves de s'asseoir en groupes (5 ou plus) et chacun choisit un numéro dans le sac. Chaque groupe calcule ensuite la valeur moyenne pour son groupe. Dites-leur que plus tôt vous avez calculé la moyenne de la population, tracez-la sur un histogramme et demandez à un membre de chaque groupe de venir tracer leur moyenne d'échantillon sur un historgramme autour de cela. Demandez-leur de faire cet exercice plusieurs fois pour «construire l'histogramme».
Vous pourrez alors montrer graphiquement la variation des moyennes d'échantillonnage autour de la moyenne de la population. Calculez la variation des moyennes de l'échantillon par rapport à la moyenne de la population. Je pense que les étudiants se souviennent clairement d'avoir fait un exercice aussi pratique et le concept de variation d'échantillonnage leur reviendra plus facilement en conséquence. Cela peut sembler un peu enfantin, mais les étudiants aiment parfois juste un changement pour faire quelque chose d'actif ... il n'y a pas beaucoup d'occasions de le faire dans les statistiques.
la source