Utiliser des simulations informatiques pour mieux comprendre les concepts statistiques au niveau universitaire

11

Salut, je prends un cours d'études supérieures en statistique et nous avons couvert les statistiques de test et d'autres concepts.

Cependant, je suis souvent en mesure d'appliquer les formules et de développer une sorte d'intuition sur le fonctionnement des choses, mais j'ai souvent le sentiment que si je soutenais mon étude avec des expériences simulées, je développerais une meilleure intuition des problèmes à résoudre. .

J'ai donc pensé à écrire des simulations simples pour mieux comprendre certains des concepts dont nous discutons en classe. Maintenant, je pourrais utiliser disons Java pour:

  1. Produire une population aléatoire avec une moyenne et un écart-type normaux.
  2. Ensuite, prenez un petit échantillon et essayez d'essayer de calculer empiriquement les erreurs de type I et de type II.

Maintenant, les questions que j'ai sont:

  1. Est-ce une approche légitime pour développer l'intuition?
  2. Existe-t-il un logiciel pour le faire ( SAS?, R?)
  3. est-ce une discipline en statistique qui traite de tels programmes: statistiques expérimentales?, statistiques computationnelles? simulation?
user1172468
la source
1
J'utilise la simulation tout le temps pour essayer de mieux comprendre ce qui se passe. Vous pouvez utiliser à peu près n'importe quel langage de programmation ou programme statistique pour effectuer ce type d'expériences (même Excel).
John
1
+1, les simulations et les figures sont 2 des techniques les plus utiles pour construire l'intuition. Je les ai utilisés couramment pour aider les autres et moi-même à comprendre les choses. Il y a beaucoup de réponses aux questions de CV qui utilisent des sims pour illustrer des choses. Si vous voulez des liens, je pourrais facilement lister certaines de mes propres réponses qui ont utilisé des sims de cette manière. Vous pouvez également poser une question ici sur CV dans cette veine; par exemple: «J'essaie de comprendre _____, mais j'ai des difficultés, quelqu'un peut-il fournir une explication avec une simulation qui le rendra plus clair? ou, "J'ai fait cette simulation et cela suggère que cela fonctionne de cette façon, n'est-ce pas?"
gung - Rétablir Monica
4
Afin de répondre aux normes et attentes élevées de ce site, j'utilise la simulation (ainsi que les dérivations théoriques et les illustrations) dans chaque réponse qui en bénéficierait. Une grande partie de mes réponses récentes comprendra une certaine forme de simulation, en particulier presque toutes les réponses à une question avec la balise r . Pour des exemples, vous pouvez les parcourir à partir de la page de recherche si vous êtes intéressé.
whuber
2
Vous en trouverez de nombreuses en consultant les réponses de @ whuber. Étant donné que mes réponses (et mes capacités de programmation) ont tendance à être moins sophistiquées, elles pourraient faire une bonne première étape. J'utilise une simulation pour montrer qu'il est difficile d'utiliser l'ajustement de modèle pour choisir le meilleur lien dans un GLiM ici: les modèles de différence entre logit et probit . Ici , j'utilise une carte SIM pour montrer comment la puissance diminue à mesure que la taille des groupes deviennent inégales dans le t-test: comment doit - on interpréter la comparaison des moyennes de différentes tailles d'échantillon .
gung - Réintégrer Monica
2
Cette question CV: explication-de-simulation-statistique , peut également intéresser les lecteurs de ce fil.
gung - Rétablir Monica

Réponses:

7

J'aime votre question mais je n'ai pas de réponses spécifiques aux 2 et 3? J'imagine que des progiciels comme SAS (au sens large des produits SAS et pas seulement SAS / STAT) peuvent avoir des outils qui facilitent la simulation mais je ne peux pas le dire avec certitude. Je ne pense pas que ce genre de chose soit une branche des mathématiques ou des statistiques.

Maintenant, la question 1 est ce sur quoi je voudrais me concentrer. La simulation peut aider à l'apprentissage des statistiques à tous les niveaux et peut aider à la recherche statistique en général. En effet, il existe des revues spécialisées dans la simulation et le calcul. Même la FDA reconnaît l'importance de la simulation dans la conception des essais cliniques et pour aider à prévoir les résultats.

Dans les années 1960, Julian Simon a enseigné les statistiques d'introduction en utilisant la simulation comme facteur de motivation. Bien que controversé, il a affirmé plus tard qu'il faisait du rééchantillonnage (permutation et bootstrap) avant Efron. Il a publié un livre utilisant ces idées en 1969. Il manquait certainement de théorie et n'était qu'un outil pédagogique et non une nouvelle approche de l'estimation statistique. Il n'a développé aucune des propriétés mathématiques fournies avec et après Efron.

Je pense que pour les statistiques d'introduction, il est utile de faire une simulation pour démontrer les distributions d'échantillonnage, de montrer comment le théorème de la limite centrale se produit et la simulation physique à travers le quinconce montre la version DeMoivre - Laplace du théorème de la limite centrale.

Parfois, cela améliore l'intuition. Je pense que le problème de Monty Hall est déroutant et semble paradoxal même pour des mathématiciens comme Paul Erdos. Mais la simulation du jeu est souvent très convaincante. Il y a beaucoup de problèmes de probabilité qui sont contre-intuitifs et la simulation peut, je pense, aider.

En 1978, alors que je travaillais sur mon doctorat en théorie des valeurs extrêmes, j'ai eu une idée intuitive d'un théorème limite que j'essayais de prouver. J'ai eu du mal avec les mathématiques. J'ai alors décidé de simuler le processus stochastique et la simulation a "confirmé" mon résultat. Cela m'a donné la confiance nécessaire pour continuer à le prouver.

Ainsi, même au niveau des études supérieures et au-delà de la simulation peut être utile de deux façons.

  1. Pour aider à développer l'intuition comme vous le suggérez à la question 1 mais aussi

  2. Pour confirmer l'intuition comme je l'ai fait dans ma thèse

Michael R. Chernick
la source
J'ai trouvé quelqu'un qui a résolu le problème de Monty Hall dans SAS et R ici sas-and-r.blogspot.com/2010/01/… - profitez
user1172468
Susan Holmes de l'Université de Stanford a mis la simulation du jeu Monty Hall sur son site Web il y a plusieurs années. Merci de nous rappeler @ user1172468 que beaucoup de gens peuvent et probablement mettent des simulations sur des sites Web théoriques.
Michael R. Chernick
Problème de Monty Hall avec R (très facile à suivre): bodowinter.com/tutorial/bw_doodling_monty_hall.pdf
vasili111
8
  1. Oui. Après tout, il s'agit de votre intuition.
  2. R vous conviendrait très bien. Le codage sera assez facile pour vous si vous connaissez déjà Java (ou tout autre "langage de programmation standard" d'ailleurs).
  3. Les statistiques computationnelles traitent de la conception d'algorithmes pour la mise en œuvre de méthodes statistiques, qui est probablement la plus proche de ce que vous essayez de décrire ici.

Amusez-vous avec votre cours!

usεr11852
la source
Je pense que votre réponse complète la mienne. J'ai donné une réponse détaillée à 1 et vous avez fourni une réponse plus définitive aux 2 et 3. Vous semblez répondre à la question à quelques minutes de la mienne. Nous nous sommes probablement chevauchés. Quoi qu'il en soit, vous avez donné 2 bonnes réponses et je vous ai donné des votes positifs pour eux!
Michael R. Chernick
Merci pour le coup de pouce! Il semble que vous ayez une longueur d'avance sur moi pour répondre. :)
usεr11852
Continuez à répondre. Je vais me reposer. J'ai déjà presque atteint ma limite de représentants quotidiens.
Michael R. Chernick
Les gars, je pensais que les deux réponses étaient bonnes. J'ai choisi la réponse de @Michael car je ne peux sélectionner qu'une seule réponse correcte et je me suis senti à l'abri de certaines des questions les plus fondamentales à portée de main.
user1172468
1
@ user1172468 Vous n'avez vraiment pas besoin d'expliquer mais c'est bien que vous l'ayez fait.
Michael R. Chernick
4

Le package TeachingDemos pour R est né d'un processus de pensée similaire au vôtre, essayant de visualiser et de comprendre les concepts de différentes manières. Le package contient des fonctions qui utilisent la simulation pour vous aider à comprendre certains concepts clés. La version de développement (R-forge, mais pas encore sur CRAN) comprend une fonction "simfun" qui peut être utilisée pour créer des fonctions de simulation pour aider davantage avec les simulations.

Greg Snow
la source
1
Déjà au CRAN: cran.r-project.org/package=TeachingDemos
vasili111
1
Liste également d'autres liens d'enseignement et d'apprentissage pour les statistiques avec R: cran.r-project.org/web/views/TeachingStatistics.html
vasili111