Je vais enseigner les statistiques en tant qu'assistant d'enseignement pour la seconde moitié de ce semestre aux étudiants de premier cycle orientés CS. La plupart des étudiants qui ont suivi le cours ne sont pas incités à apprendre le sujet et ne l'ont suivi que pour des exigences importantes. Je veux rendre le sujet intéressant et utile, pas seulement un cours qu'ils apprennent à réussir un B +.
En tant que doctorant en mathématiques pures, je savais peu de choses sur la réalité appliquée. Je veux demander des applications réelles des statistiques de premier cycle. Les exemples que je recherche sont ceux (en esprit) comme:
1) L'affichage du théorème de la limite centrale est utile pour certaines données de grands échantillons.
2) Fournir un contre-exemple que le théorème central limite n'est pas applicable (par exemple, ceux qui suivent la distribution de Cauchy).
3) Montrer comment fonctionne le test d'hypothèse dans des exemples célèbres de la vie réelle en utilisant le test Z, le test t ou quelque chose.
4) Montrer comment un surapprentissage ou une mauvaise hypothèse initiale pourrait donner de mauvais résultats.
5) Montrer comment la valeur de p et l'intervalle de confiance ont fonctionné dans des cas réels (bien connus) et où ils ne fonctionnent pas aussi bien.
6) De même, les erreurs de type I, de type II, la puissance statistique, le niveau de rejet , etc.
Mon problème est que même si j'ai de nombreux exemples du côté des probabilités (tirage au sort, lancer de dés, ruine du joueur, martingales, marche aléatoire, paradoxe des trois prisonniers, problème de monty hall, méthodes de probabilité dans la conception d'algorithmes, etc.), je ne sais pas comme de nombreux exemples canoniques du côté des statistiques. Ce que je veux dire, ce sont des exemples sérieux et intéressants qui ont une certaine valeur pédagogique et qui ne sont pas fabriqués de manière extrêmement artificielle et qui semblent très détachés de la vie réelle. Je ne veux pas donner aux étudiants la fausse impression que le test Z et le test T sont tout. Mais à cause de mes connaissances en mathématiques, je ne connais pas suffisamment d'exemples pour rendre la classe intéressante et utile pour eux. Je cherche donc de l'aide.
Le niveau de mon élève est autour du calcul I et du calcul II. Ils ne peuvent même pas montrer que la variance de la normale normale est 1 par définition car ils ne savent pas comment évaluer le noyau gaussien. Donc, tout ce qui est légèrement théorique ou pratique (comme la distribution hypergéométrique, la loi de l'arcsin dans la marche aléatoire 1D) ne fonctionnera pas. Je veux montrer quelques exemples qu'ils peuvent comprendre non seulement "comment", mais aussi "pourquoi". Sinon, je ne sais pas si je prouverai ce que j'ai dit par intimidation.
la source
Réponses:
Une bonne façon peut être d'installer R ( http://www.r-project.org/ ) et d'utiliser ses exemples pour l'enseignement. Vous pouvez accéder à l'aide de R avec les commandes "? T.test", etc. À la fin de chaque fichier d'aide se trouvent des exemples. Pour t.test, par exemple:
la source
Je suggère une application du théorème de la limite centrale pour la prédétermination d'une taille d'échantillon et la recherche d'une réponse à des questions comme "ai-je envoyé suffisamment de questionnaires", etc.
http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf fournit un bel exemple concret de la façon d'appliquer le théorème de la limite centrale. Une stratégie didactique pourrait être:
Une théorie
* clarifier la différence entre une distribution d'échantillonnage et la distribution d'une estimation, par exemple par la distribution "plate" du lancer d'un dé par rapport à la distribution de la moyenne de N dés (utilisez R ou laissez les élèves même jouer avec le dessin Excel seul) des distributions de valeurs par rapport à la distribution des moyennes)
* montrer le calcul basé sur une formule des centiles pour la distribution de la moyenne (comme vous êtes en profondeur dans les mathématiques, vous voudrez peut-être dériver la formule) - ce point correspond aux diapositives 10-17 dans la présentation liée ci-dessus
puis (comme dans la diapositive 20 de la présentation liée ci-dessus):
B) demande
* montrer comment le théorème de la limite centrale aide à déterminer la taille des échantillons pour une exactitude souhaitée dans les estimations de la moyenne
Cette application B) est ce que d'après mon expérience les non-statisticiens attendent d'un statisticien - répondant à des questions du type "ai-je assez de données?"
la source
Puisque vous enseignez aux étudiants CS, une bonne application du théorème central limite peut être d'estimer la moyenne à partir d'un ensemble de données massives (c'est-à-dire> 100 millions d'enregistrements). Il peut être instructif de montrer qu'il n'est pas nécessaire de calculer la moyenne de l'ensemble de données, mais plutôt d'échantillonner à partir de l'ensemble de données et d'utiliser la moyenne de l'échantillon pour estimer la moyenne de l'ensemble de données / base de données. Vous pouvez aller plus loin si vous le souhaitez et simuler un ensemble de données qui a des valeurs radicalement différentes pour différents sous-groupes. Vous pourriez ensuite demander aux élèves d'explorer l'échantillonnage stratifié pour obtenir des estimations plus précises.
Encore une fois, comme il y a des étudiants CS, vous voudrez peut-être faire un amorçage pour obtenir également des intervalles de confiance ou pour estimer les variances de statistiques plus complexes. C'est une belle intersection des statistiques et de l'informatique car, à mon avis, cela pourrait conduire à un plus grand intérêt pour le sujet.
la source
J'ai commencé par taper un commentaire mais c'est devenu trop long ...
Donc, à mon avis, ils apprécieront si vous présentez l'inférence d'un point de vue "d'apprentissage", et si vous présentez des tests d'un point de vue "théorie de la décision" ou "classification" - en bref, ils sont supposés aimer les algorithmes. Pour grok algorithmes!
Essayez également de trouver des ensembles de données liés à CS; Par exemple, la durée des connexions et le nombre de demandes par unité de temps à un serveur html peuvent aider à illustrer de nombreux concepts.
Ils adoreront apprendre les techniques de simulation. Les générateurs Lehmer sont faciles à mettre en œuvre. Montrez-leur comment simuler d'autres distributions en inversant le cdf. Si vous êtes dans le coup, montrez-leur l'algorithme Ziggurat de Marsaglia. Oh, et le générateur MWC256 de Marsaglia est un petit bijou. Les tests Diehard de Marsaglia (tests d'équité des générateurs d'uniformes) peuvent aider à illustrer de nombreux concepts de probabilité et de statistiques. Vous pouvez même choisir de présenter une théorie des probabilités basée sur "des flux (indépendants) de doubles aléatoires, oups, je veux dire des réels" - c'est un peu effronté, mais cela peut être grand.
Si vous maîtrisez suffisamment votre sujet, n'hésitez pas à être original. Les conférences "classiques" sont acceptables lorsque vous enseignez quelque chose que vous ne connaissez pas bien. Bonne chance, et si vous publiez des notes de cours, faites-le moi savoir!
la source
Vous dites que ce sont des étudiants en informatique. Quels sont leurs intérêts, est-ce principalement l'informatique théorique, ou les étudiants sont-ils principalement motivés par la préparation à l'emploi? Vous pouvez également nous dire quelle est la description du cours!
Mais, quelle que soit votre réponse à ces questions, vous pouvez commencer par des statistiques pratiques survenant dans des contextes informatiques, comme (par exemple) la conception de sites Web. Ce site a de temps en temps des questions à ce sujet, telles que les taux de conversion au fil du temps ou /stats/96853/comparing-sales-person-conversion-rates ou AB Test d'autres facteurs en plus du taux de conversion .
Il y a beaucoup de questions ici comme celles-ci, apparemment de personnes impliquées dans la conception de sites Web. La situation est que vous avez une page Web (par exemple, vous vendez quelque chose). Le "taux de conversion", si je comprends bien, est le pourcentage de visiteurs qui passent à une tâche préférée (comme l'achat, ou un autre objectif que vous avez pour vos visiteurs). Ensuite, vous, en tant que concepteur Web, demandez si votre disposition de la page influence ce comportement. Vous programmez donc deux (ou plus) versions de la page Web, choisissez au hasard la version à présenter à un nouveau client, et pouvez ainsi comparer les taux de conversion, et enfin choisissez d'implémenter la version avec le taux de conversion le plus élevé.
Il s'agit d'un problème de conception d'une expérience de comparaison, et vous avez besoin de méthodes statistiques pour comparer les pourcentages, ou peut-être directement le tableau de contingence des conceptions par rapport à convertir / pas de conversion. Cet exemple pourrait leur montrer que les statistiques pourraient en fait leur être utiles dans certains travaux de développement Web! Et, du côté statistique, cela ouvre de nombreuses questions intéressantes sur la validité des hypothèses ...
Pour vous connecter à ce que vous dites sur le théorème de la limite centrale, vous pouvez demander combien d'observations vous avez besoin avant de pouvoir traiter les pourcentages comme normalement distribués, et les faire étudier cela en utilisant la simulation ...
Vous pouvez rechercher sur ce site d'autres questions de statistiques posées par les types de programmeurs ...
la source
Je suggère qu'avant tout bon exemple, il vaut mieux se concentrer sur des définitions claires. D'après mon expérience, les probabilités et les statistiques de premier cycle sont un cours rempli de mots qu'aucun étudiant ne comprend. À titre d'expérience, demandez aux élèves qui viennent de terminer un cours de probabilité ce qu'est une «variable aléatoire». Ils pourraient vous donner des exemples, mais je doute que la plupart vous en donnent une définition claire. Qu'est-ce que la "probabilité" exactement? Qu'est-ce qu'une "distribution"? La terminologie en statistique est encore plus confuse. La plupart des livres de premier cycle que j'ai vus expliquent cela très mal. Les exemples et les calculs sont agréables, mais sans définitions claires, ce n'est pas aussi utile qu'on pourrait le penser. D'après mon expérience, c'est exactement pourquoi je détestais la théorie des probabilités en tant que premier cycle. Même si mes intérêts sont aussi éloignés de la probabilité que l'on peut avoir, j'apprécie maintenant le sujet, car j'ai finalement appris par moi-même ce que toute la terminologie signifie vraiment. Je m'excuse que ce n'est pas exactement ce que vous avez demandé, mais étant donné que vous enseignez une telle classe, j'ai pensé que ce serait un conseil utile.
la source