Depuis plus d'un an, je donne un cours d'une heure sur le goût des statistiques. Chaque fois que je reçois un groupe d'enfants différent, je leur donne le cours.
Le thème de la classe est que nous menons une expérience dans laquelle 10 enfants (qui aiment boire du coca-cola) reçoivent deux tasses (non marquées), une avec du coca-cola et une avec du pepsi. Les enfants sont invités à détecter, en fonction du goût et de l'odeur, quelle tasse contient la boisson au coca-cola.
Je dois ensuite leur expliquer comment décider si les enfants font des suppositions, ou s'ils (ou du moins, assez d'entre eux) ont vraiment la capacité de goûter la différence. 10 succès sur 10 sont-ils suffisants? qu'en est-il de 7 sur 10?
Même après avoir donné à cette classe des dizaines de fois (dans différentes variantes), je n'ai toujours pas l'impression de savoir comment faire passer le concept de manière à ce que la plupart des classes le comprennent.
Si vous avez des idées sur la façon dont le concept de test d'hypothèse, d'hypothèse nulle, d'hypothèse alternative, de régions de rejet, etc. peut être expliqué de manière simple (!) Et intuitive - j'aimerais savoir comment.
la source
Réponses:
Je pense que vous devriez commencer par leur demander ce qu'ils pensent vraiment que dire d'une personne qu'elle est capable de faire la différence entre le coca-cola et le pepsi. Que peut faire une telle personne que les autres ne peuvent pas faire?
La plupart d'entre eux n'auront pas une telle définition et ne seront pas en mesure d'en produire une si cela leur est demandé. Cependant, un sens de cette phrase est ce que les statistiques nous donnent, et c'est ce que vous pouvez apporter avec votre classe "un goût pour les statistiques".
L'un des points des statistiques est de donner une réponse exacte à la question: "qu'est-ce que cela signifie de dire à quelqu'un qu'il est capable de faire la différence entre le coca-cola et le pepsi"
La réponse est: il ou elle est mieux qu'une machine à deviner pour classer les tasses dans un test à l'aveugle. La machine à deviner ne peut pas faire la différence, elle devine tout le temps. La machine à deviner est une invention utile pour nous parce que nous savons pas la capacité. Les résultats de la machine à deviner sont utiles car ils montrent ce que nous devons attendre de quelqu'un qui n'a pas la capacité que nous testons.
Pour tester si une personne est capable de faire la différence entre le coca-cola et le pepsi, il faut comparer sa classification des tasses dans un test à l'aveugle à la classification que ferait une machine à deviner. Ce n'est que s'il est meilleur que la machine à deviner qu'il peut faire la différence.
Comment, alors, déterminez-vous si un résultat est meilleur qu'un autre? Et s'ils sont presque les mêmes?
Si deux personnes classent un petit nombre de tasses, il n'est pas vraiment juste de dire que l'une est meilleure que l'autre si les résultats sont presque les mêmes. Peut-être que le gagnant s'est avéré être chanceux aujourd'hui, et les résultats auraient été inversés si la compétition avait été répétée demain?
Si nous voulons avoir un résultat digne de confiance, il ne peut pas être basé sur un petit nombre de classifications, car le hasard peut alors décider du résultat. Rappelez-vous, vous n'avez pas besoin d'être parfait pour avoir la capacité, vous devez simplement être meilleur que la machine à deviner. En fait, si le nombre de classifications est trop petit, même une personne qui identifie toujours correctement le coca-cola ne pourra pas montrer qu'elle est meilleure que la machine à deviner. Par exemple, s'il n'y a qu'une seule tasse à classer, même la machine à deviner aura 50% de chances de classer complètement correctement. Ce n'est pas bon, car cela signifie que dans 50% des essais, nous conclurions à tort qu'un bon identificateur de coca-cola n'est pas meilleur que la machine à deviner. C'est vraiment injuste.
Plus il y a de tasses à classer, plus il y a d'opportunités pour que l'incapacité de la machine à deviner soit révélée et plus d'occasions pour le bon identifiant de coca-cola de se montrer.
10 tasses pourraient être un bon point de départ. Combien de bonnes réponses un humain doit-il alors avoir pour montrer qu'il est meilleur que la machine?
Demandez-leur ce qu'ils devineraient.
Ensuite, laissez-les utiliser la machine et découvrez à quel point elle est bonne, c'est-à-dire laissez tous les élèves générer une série de dix suppositions, par exemple. en utilisant un dé ou un générateur aléatoire sur le smartphone. Pour être pédagogique, vous devez préparer une série de dix bonnes réponses, contre lesquelles les suppositions doivent être évaluées.
Enregistrez tous les résultats au tableau. Imprimez les résultats triés sur le tableau. Expliquez qu'un humain devrait être meilleur que 95% de ces résultats avant qu'un statisticien reconnaisse sa capacité à faire la différence entre le coca-cola et le pepsi. Tracez la ligne qui sépare les pires résultats à 95% des meilleurs résultats à 5%.
Ensuite, laissez quelques élèves essayer de classer 10 tasses. Désormais, les élèves devraient savoir de combien de droits ils ont besoin pour prouver qu'ils peuvent faire la différence.
Mais tout cela n'est pas vraiment réalisable en 10 minutes.
la source
Travailler avec du soda semble amusant, et le test pour savoir si les adolescents peuvent réellement faire la différence entre les sodas est logique une fois que vous avez une connaissance raisonnable du test d'hypothèse. Le problème pourrait être que cette question: "pouvez-vous réellement faire la différence entre les sodas?" est compliqué par beaucoup d'autres choses dans l'esprit des adolescents, comme "qui est bon et qui est mauvais pour tester les sodas?", "y a-t-il réellement une différence entre les sodas?"
Je n'ai jamais enseigné les statistiques aux adolescents, mais j'ai toujours rêvé d'utiliser un dé chargé ou une pièce biaisée. Mourir plus intéressant, mais statistiquement plus difficile. Avec l'exemple de la pièce, une pièce est ou n'est pas juste. Il n'est pas bon de lancer des pièces. Il n'y a pas à décider si c'est la tête ou la queue.
Si nous lançons une pièce pour qui gagne 100 $, et que cela monte la tête (vous gagnez!), Je pourrais dire: "Hé. Comment puis-je savoir si cette pièce est juste? Je parie que vous avez truqué la compétition!". Vous dites "Oh ouais? Prouvez-le." La solution assez évidente consiste à retourner la pièce encore et encore pour voir si elle sort plus de têtes que de queues. On le retourne, et ça monte les têtes. "Ahha! Je dis. Seee! C'est biaisé envers les têtes!" Etc.
Les bonnes pièces biaisées n'existent pas, mais les dés biaisés existent - vous pouvez en acheter un sur Amazon. Vous pourriez offrir aux étudiants un prix s'ils peuvent gagner un certain nombre de rouleaux. Mais vous savez que vous gagnerez. Ils seront fâchés. Vous dites, OK, je vous donnerai le prix si vous pouvez prouver que ce dé est biaisé, avec par exemple une confiance de 95%.
Passez ensuite au soda. Le prix pourrait même être une soirée soda! "Hé, je me demande si vous pouvez faire la différence entre le coke et le pepsi ..."
la source
Imaginez quelqu'un qui pratique la cible avec un fusil de chasse, qui tire des rafales de plombs en direction du canon.
Hypothèse nulle: je suis un bon tireur et mon canon est parfaitement sur la cible. Pas à gauche, pas à droite, mais tout droit. Mon erreur est 0.
Hypothèse alternative: je suis un mauvais tireur et mon canon est hors cible. Juste à gauche ou juste à droite de la cible. Mon erreur est e> 0 ou e <0.
Étant donné que toute mesure a une certaine erreur moyenne (c'est-à-dire une erreur standard), une mesure qui dit "hors cible" est possible, même si je tire droit. Je n'aurai pas besoin de "frapper" ma cible (du tout, même avec chaque tir étant une rafale / propagation) un certain nombre de fois, avant de pouvoir m'appeler un mauvais tireur et choisir l'hypothèse alternative.
la source
Supposez que les enfants ne peuvent pas faire la différence et décidez par hasard. Ensuite, chaque enfant a 50% de chances de le deviner. Donc, vous vous attendez (valeur attendue) que dans ce cas, 5 enfants le font correctement et 5 enfants se trompent. Bien sûr, comme c'est par hasard, il est également possible que 6 enfants se trompent et 4 obtiennent les bons résultats, et ainsi de suite. De l'autre côté, même si les enfants peuvent faire la différence, il est possible que par hasard l'un d'eux se trompe.
Intuitivement, il est clair que si les enfants devinent par hasard, il est plutôt improbable que tous enfants donnent la bonne réponse. Dans ce cas, on pourrait plutôt croire que les enfants pourraient réellement goûter la différence entre les deux boissons. En d'autres termes, nous ne nous attendons pas à ce que des événements improbables soient observés. Donc, si nous avons observé un événement improbable sous le scénario 50-50, nous pensons plutôt que ce scénario est faux et que les enfants peuvent distinguer Coke et Pepsi.
C'est le moment où vous menez l'expérience. Faites-le soigneusement avec les 10 élèves, même si vous venez de calculer que vous pourriez vous arrêter après la deuxième erreur. Enregistrez ensuite les résultats et conservez-les. Vous aurez besoin des résultats si vous voulez leur expliquer des méta-analyses.
(Soit dit en passant, l'exemple historique concerne la dégustation si le lait ou le thé a été versé en premier dans la tasse. La dégustatrice de thé.)
la source
Montrez cette vidéo qui est l'explication la plus intuitive des tests d'hypothèses que j'ai jamais vue - https://www.youtube.com/watch?v=UApFKiK4Hi8
la source
L'expérience de dégustation de coke par les enfants est un bon exemple pour introduire des tests d'hypothèse, comme l'a montré son équivalent, l'expérience de dégustation de thé par une dame. Cependant, l'évaluation de ces expériences n'est pas très intuitive car l'hypothèse nulle implique la distribution binomiale avec p = 0,5, et elle n'est pas simple.
Dans mon introduction habituelle au test d'hypothèse, j'essaie de surmonter cet inconvénient en utilisant uniquement le cas de tous les succès dans la distribution binomiale, dont la probabilité peut être calculée comme p ^ n même par des personnes qui ne connaissent pas la probabilité binomiale.
Dans mon exemple préféré, j'aime les châtaignes grillées et j'en achète une poignée chez un marchand ambulant. Je les reçois à un prix réduit car ils proviennent d'un gros sac où 10% des châtaignes ont un trou de ver - ici j'essaie de préciser que le sac a été bien mélangé pour que ma poignée de châtaignes soit un échantillon aléatoire des châtaignes dans le sac et la déclaration du vendeur signifie que chaque châtaignier a une probabilité indépendante de 10% d'avoir un trou de ver.
Alors que je commence à apprécier mes châtaignes grillées, je les prends une par une et je les vérifie pour les trous de vers avant de les manger.
Lorsque je vérifie le premier châtaignier, je vois un trou de ver, et je me demande si le vendeur m'a menti - j'explique ici que me demander cela définit mon hypothèse nulle p = 10% et mon hypothèse alternative p> 10%, et je mets les dans le tableau noir. Ai-je une raison de douter que p = 10% lorsque j'ai obtenu un mauvais châtaignier sur un? Eh bien, 10% des personnes effectuant la même expérience obtiendraient le même résultat, donc je peux penser que je n'ai pas eu de chance.
Ensuite, je prends le deuxième châtaignier et il a aussi un trou de ver. Deux sur deux ont une probabilité de seulement 1% si le vendeur ne m'a pas menti. J'aurais pu avoir une très mauvaise chance, mais je me méfie beaucoup du vendeur.
Le troisième châtaignier a également un trou de ver. Il ne serait pas impossible d'obtenir les trois châtaignes avec vers sur trois en supposant que le vendeur est juste et p = 10%, mais ce serait très peu probable (probabilité = 0,1%). Par conséquent, j'ai maintenant une bonne raison de douter du travail du vendeur et je dépose une plainte et demande à être remboursé.
Bien sûr, ce genre de test successif a quelques problèmes théoriques, mais peu importe de montrer l'idée d'un test d'hypothèse. En fait, l'idée la plus importante qui n'est pas couverte dans cet exemple est que dans les tests d'hypothèse, nous calculons la probabilité des résultats que nous obtenons ou de quelque chose de pire - dans mon exemple, cela a été évité en obtenant simplement le pire résultat possible.
J'ai utilisé cet exemple plusieurs fois avec des étudiants de première année à l'université - qui sont encore techniquement des adolescents - mais je pense que cela pourrait bien fonctionner avec des adolescents plus jeunes.
la source