J'aide mes garçons, actuellement au lycée, à comprendre les statistiques et je songe à commencer par quelques exemples simples, sans pour autant négliger quelques aperçus de la théorie.
Mon objectif serait de leur donner l’approche la plus intuitive et pourtant la plus instrumentale pour apprendre les statistiques à partir de zéro, afin de stimuler leur intérêt pour la poursuite de la statistique et l’apprentissage quantitatif.
Avant de commencer, cependant, j’ai une question particulière aux implications très générales:
Devrions-nous commencer à enseigner les statistiques en utilisant un cadre bayésien ou fréquentiste?
En faisant des recherches, j'ai constaté qu'une approche commune commençait par une brève introduction sur les statistiques fréquentistes, suivie d'un examen approfondi des statistiques bayésiennes (par exemple, Stangl ).
Réponses:
Les statistiques bayésiennes et les statistiques fréquentistes reposent toutes deux sur la théorie des probabilités, mais je dirais que la première repose davantage sur la théorie dès le départ. D'autre part, le concept d'intervalle crédible est sûrement plus intuitif que celui d'intervalle de confiance, une fois que l'étudiant a bien compris le concept de probabilité. Donc, quoi que vous choisissiez, je préconise tout d’abord de renforcer leur compréhension des concepts de probabilité, avec tous ces exemples basés sur les dés, les cartes, la roulette, le paradoxe de Monty Hall, etc.
Je choisirais l'une ou l'autre approche selon une approche purement utilitaire: ont-ils plus de chances d'étudier les statistiques fréquentistes ou bayésiennes à l'école? Dans mon pays, ils apprendraient certainement le cadre fréquentiste en premier (et en dernier: jamais entendu parler de statistiques bayésiennes aux élèves du secondaire, la seule chance est à l’université ou après, en autoformation). Peut-être que dans le vôtre, c'est différent. Gardez à l’esprit que s’ils doivent traiter avec NHST (Test de signification d’hypothèse nulle), cela se produit plus naturellement dans le contexte de la statistique fréquentiste, OMI. Bien sûr, vous pouvez également tester des hypothèses dans le cadre bayésien, mais de nombreux statisticiens bayésiens de premier plan préconisent de ne pas utiliser de NHST, dans le cadre fréquentiste ou bayésien (par exemple, Andrew Gelman de l'Université Columbia).
Enfin, je ne connais pas le niveau des étudiants du secondaire dans votre pays, mais dans le mien, il serait vraiment difficile pour un étudiant d’assimiler (les bases de la théorie des probabilités) et le calcul intégral en même temps. Donc, si vous décidez d’utiliser les statistiques bayésiennes, j’éviterai vraiment le cas des variables aléatoires continues et vous en tiendrez aux variables aléatoires discrètes.
la source
Bayésien et fréquentiste posent des questions différentes. Bayesian demande quelles valeurs de paramètre sont crédibles, compte tenu des données observées. Frequentist demande quelle est la probabilité de données simulées imaginaires si certaines valeurs de paramètres hypothétiques sont vraies. Les décisions fréquentistes sont motivées par des erreurs de contrôle, les décisions bayésiennes par des incertitudes dans la description des modèles.
Alors, qui devriez-vous enseigner en premier? Eh bien, si l'une ou l'autre de ces questions est ce que vous voulez poser en premier, c'est votre réponse. Mais en termes d'approche et de pédagogie, je pense que le bayésien est beaucoup plus facile à comprendre et beaucoup plus intuitif. L’idée de base de l’analyse bayésienne est de réaffecter la crédibilité à toutes les possibilités, tout comme l’a dit Sherlock Holmes, que des millions de lecteurs ont intuitivement compris. Mais l'idée de base de l'analyse fréquentiste est très difficile: l'espace de tous les ensembles de données possibles qui auraient pu se produire si une hypothèse particulière était vraie, et la proportion de ces ensembles de données imaginaires ayant une statistique résumée aussi ou plus extrême que le résumé statistique qui a été réellement observée.
Un chapitre d'introduction gratuit sur les idées bayésiennes est ici . Un article qui met en parallèle les concepts fréquentistes et bayésiens se trouve ici . L'article explique les approches fréquentistes et bayésiennes du test d'hypothèses et de l'estimation (et beaucoup d'autres choses). Le cadre de l'article pourrait être particulièrement utile aux débutants qui souhaitent avoir une vue du paysage.
la source
Cette question risque d'être basée sur l'opinion, alors je vais essayer d'être très bref avec mon opinion, puis de vous donner une suggestion de livre. Parfois, il vaut la peine d’adopter une approche particulière parce que c’est l’approche adoptée par un livre particulièrement performant.
Je conviens que les statistiques bayésiennes sont plus intuitives. La distinction entre intervalle de confiance et intervalle crédible le résume assez bien: les gens pensent naturellement en termes de "quelle est la probabilité que ..." plutôt que l'approche d'intervalle de confiance. L’approche par intervalle de confiance ressemble beaucoup à la même chose que l’intervalle crédible, sauf qu'en principe, vous ne pouvez pas passer de "95% du temps" à "95% de chance", ce qui semble très fréquentiste, mais vous ne peut pas le faire. Ce n'est pas incohérent, mais pas intuitif.
Le fait que la plupart des cours de niveau collégial suivront utilisent l'approche fréquentiste moins intuitive est un bon compromis.
Cela dit, j'aime beaucoup le livre intitulé Repenser la statistique: un cours bayésien avec des exemples en R et Stan de Richard McElreath. Ce n'est pas bon marché, alors s'il vous plaît lisez à ce sujet et fouillez-le sur Amazon avant d'acheter. Je trouve que c'est une approche particulièrement intuitive qui tire parti de l'approche bayésienne et qui est très pratique. (Et comme R et Stan sont d'excellents outils pour les statistiques bayésiennes et qu'ils sont gratuits, c'est un apprentissage pratique.)
EDIT: Un couple de commentaires ont mentionné que le livre est probablement au-delà d'un lycéen, même avec un tuteur expérimenté . Je vais donc devoir faire une mise en garde encore plus grande: il a une approche simple au début, mais accélère rapidement. C'est un livre étonnant, mais il faudrait vraiment l'examiner sur Amazon pour avoir une idée de ses hypothèses initiales et de sa rapidité. De belles analogies, un excellent travail pratique en R, un flux et une organisation incroyables, mais peut-être pas utile pour vous.
Il suppose une connaissance de base de la programmation et de R (logiciel statistique gratuit), ainsi qu'une certaine exposition aux bases de la probabilité et des statistiques. Ce n'est pas un accès aléatoire et chaque chapitre s'appuie sur les chapitres précédents. Cela commence très simplement, bien que la difficulté augmente au milieu - elle se termine par une régression à plusieurs niveaux. Vous pouvez donc en visionner un aperçu sur Amazon et décider si vous pouvez couvrir facilement les bases ou s’il saute un peu trop loin dans l’avenir.
EDIT 2: La ligne de fond de ma contribution ici et tenter de la détourner de l'opinion pure est qu'un bon manuel peut décider de l'approche que vous allez adopter. Je préférerais une approche bayésienne, et ce livre le fait bien, mais peut-être à un rythme trop rapide.
la source
On m'a d'abord enseigné l'approche fréquentiste, puis l'approche bayésienne. Je ne suis pas un statisticien professionnel.
Je dois admettre que ma connaissance préalable de l'approche fréquentiste n'était pas vraiment utile pour comprendre l'approche bayésienne.
J'oserais dire que cela dépend des applications concrètes que vous montrerez ensuite à vos élèves et du temps et des efforts que vous y consacrerez.
Cela dit, je commencerais par Bayes.
la source
Le cadre bayésien est étroitement associé aux compétences générales en matière de pensée critique. C'est ce dont vous avez besoin dans les situations suivantes:
En outre, cela est beaucoup plus intéressant que de mémoriser la formule d'un test t à deux échantillons: p. Ce qui augmente les chances que les étudiants restent intéressés assez longtemps pour se préoccuper de matériel de plus en plus technique.
la source
Personne n'a mentionné la probabilité, qui est fondamentale pour les statistiques bayésiennes. Un argument en faveur de l'enseignement de Bayes en premier lieu est que le flux de probabilité, à probabilité, à Bayes, est assez transparent. Bayes peut être motivé par la vraisemblance en notant que (i) la fonction de vraisemblance ressemble (et agit) à une fonction de distribution de probabilité, mais ne correspond pas au fait que l'aire sous la courbe n'est pas 1,0, et que (ii) le brut brut couramment utilisé les intervalles supposent une fonction de vraisemblance proportionnelle à une distribution normale, mais les méthodes bayésiennes surmontent facilement cette limitation.
Un autre argument en faveur de Bayes en premier lieu est que les préoccupations de P (A | B) par rapport à P (B | A) concernant les valeurs de p peuvent être plus facilement expliquées, comme mentionné par d'autres.
Un autre argument en faveur de «Bayes d’abord» est qu’il oblige les étudiants à réfléchir plus attentivement aux modèles de probabilité conditionnelle, ce qui est utile ailleurs, par exemple dans l’analyse de régression.
Désolé pour l'auto-promotion, mais comme il est entièrement dans le sujet, cela ne me dérange pas de dire que c'est précisément l'approche que Keven Henning et moi avons adoptée dans notre livre "Understanding Advanced Statistical Methods" ( https: // peterwestfall. wixsite.com/book-1 ) dont le public cible est les non-statisticiens.
la source
Etes-vous enseigner pour le plaisir et la perspicacité ou pour une utilisation pratique? S'il s'agit d'enseigner et de comprendre, j'irais à Bayes. Si pour des raisons pratiques, je serais certainement Frequentist.
Dans de nombreux domaines - et je suppose que la plupart des domaines - des sciences naturelles, les gens ont l'habitude de publier leurs articles avec une valeur p. Vos "garçons" devront lire les journaux des autres avant de pouvoir écrire les leurs. Pour lire les journaux d'autres personnes, du moins dans mon domaine, elles doivent comprendre les hypothèses nulles et les valeurs p, aussi stupides qu'elles puissent paraître après des études bayésiennes. Et même lorsqu'ils seront prêts à publier leur premier article, ils auront probablement des scientifiques chevronnés à la tête de l'équipe et les chances sont, ils préfèrent le frequentism.
Ceci étant dit, je voudrais partager l’avis de @Wayne, en ce sens que le fait de repenser la statistique montre une voie très claire vers la statistique bayésienne en tant que première approche et non pas sur la connaissance existante du frequentism. C'est formidable de voir que ce livre n'essaie pas de vous convaincre dans un combat contre les statistiques meilleures ou pires. L’argument déclaré de l’auteur pour Bayes est (IIRC) qu’il enseignait les deux types et que Bayes était plus facile à enseigner.
la source
Je resterais loin de Bayesian, suivrais les géants.
Les Soviétiques avaient une excellente série de livres pour les étudiants du secondaire, traduite grossièrement en anglais par "Petite bibliothèque". Kolmogorov a rédigé un livre avec des co-auteurs intitulé "Introduction à une théorie des probabilités". Je ne suis pas sûr qu'il ait déjà été traduit en anglais, mais voici le lien vers son original russe.
Ils abordent l’explication des probabilités par la combinatoire, ce qui, à mon avis, est un excellent moyen de commencer. Le livre est très accessible pour un élève du secondaire ayant une mathématique décente. Notez que les Soviétiques ont beaucoup enseigné les mathématiques, de sorte que les collégiens occidentaux moyens ne sont peut-être pas aussi bien préparés, mais avec assez d’intérêt et de volonté, ils peuvent quand même gérer le contenu, à mon avis.
Le contenu est très intéressant pour les étudiants. Il comporte des marches aléatoires, des distributions limites, des processus de survie, la loi des grands nombres, etc. Si vous combinez cette approche avec des simulations sur ordinateur, cela devient encore plus amusant.
la source