Comment transmettez-vous la beauté du théorème de la limite centrale à un non-statisticien?

33

Mon père est un passionné de mathématiques mais peu intéressé par les statistiques. Il serait judicieux d' essayer d'illustrer quelques-unes des merveilleuses statistiques, et le CLT est un candidat de choix. Comment pourriez-vous transmettre la beauté mathématique et l'impact du théorème de la limite centrale à un non-statisticien?

Vince
la source
Une idée rapide consiste à introduire la règle 68-95-99.7 ( fr.wikipedia.org/wiki/68-95-99.7_rule ) dans la discussion.
Raegtin

Réponses:

16

Ce que j'ai le plus aimé avec le CLT, ce sont les cas où cela ne s'applique pas - cela me donne l'espoir que la vie est un peu plus intéressante que la courbe de Gauss ne le suggère. Alors montrez-lui la distribution de Cauchy.

utilisateur88
la source
quelle relation existe-t-il entre la distribution de Cauchy et le CLT ou le failling du CLT?
robin girard
Le CLT exige que les fonctions MGF existent dans un voisinage de 0. La distribution de Cauchy ne possède pas cette propriété. CLT Win. Cauchy ne satisfait même pas les exigences les plus faibles d’une version plus forte du CLT, dans laquelle il ne manque que la moyenne et la variance. La distribution de Cauchy montre que la moyenne est nécessaire à l’existence du CLT. Cela ne fait pas échouer le CLT.
Baltimark
@Baltimark Vous avez mal compris mon message - il est évident que Cachy n'est pas couvert par le CLT en raison d'hypothèses relatives au CLT, sinon il serait impossible de prouver le CLT. J'ai donné cet exemple parce que les gens croient que le CLT fonctionne pour toutes les distributions; probablement "échec" n'est pas un mot parfait, mais je ne pense toujours pas que ce soit une raison pour une vote défavorable. Ok, je l'ai même changé pour non applicable.
Je préfère ton montage. La distribution de Cauchy est vraiment très cool.
Baltimark
14

Pour bien apprécier le CLT, il faut le voir.

D'où la notion de machine à haricot et de nombreuses vidéos youtube pour illustration.

Suis-je
la source
Je pensais que cela montre la distribution binomiale; Je ne pense pas que ses asymptotiques aient un lien direct avec le CLT.
2
Machine à haricots de l'auteur du paquet d'animation ... yihui.name/en/wp-content/uploads/2010/07/…
robin girard
1
@mbq jetez un oeil à en.wikipedia.org/wiki/…
robin girard
@Robin j'ai écrit à ce sujet, quel est le problème?
1
@ShreevatsaR Le fait est qu'une bonne illustration devrait montrer le "noyau" de quelque chose, et (au moins à l'OMI) le "noyau" de CLT réside dans le fait qu'il fusionne de nombreuses variables issues de distributions étranges différentes en un gaussien, non juste une limite d'une distribution binomiale.
7

Souvent, lorsque les mathématiciens parlent de probabilité, ils commencent par une distribution de probabilité connue, puis parlent de probabilité d’événements. La vraie valeur du théorème central limite est qu'il nous permet d'utiliser la distribution normale comme approximation dans les cas où nous ne connaissons pas la distribution vraie. Vous pouvez poser à votre père une question statistique standard (mais sous forme mathématique) sur la probabilité que la moyenne d'un échantillon soit supérieure à une valeur donnée si les données proviennent d'une distribution avec moyenne mu et sd sigma, puis voir si il suppose une distribution (que vous dites ensuite que nous ne savons pas) ou dit qu'il a besoin de connaître la distribution. Ensuite, vous pouvez montrer que nous pouvons approximer la réponse en utilisant le CLT dans de nombreux cas.

Pour comparer les mathématiques aux statistiques, j'aime utiliser le théorème d'intégration de la valeur moyenne (qui dit que pour une intégrale de a à b, il existe un rectangle de a à b de même surface et que la hauteur du rectangle est la moyenne des courbe). Le mathématicien examine ce théorème et dit "cool, je peux utiliser une intégration pour calculer une moyenne", tandis que le statisticien examine le même théorème et dit "cool, je peux utiliser une moyenne pour calculer une intégrale".

En fait, j'ai dans mon bureau des tentures murales aux points de croix représentant le théorème de la valeur moyenne et le CLT (ainsi que le théorème de Bayes).

Greg Snow
la source
Hmmm. Je pense que la plupart des mathématiciens utilisent le MVT pour approximer une intégrale sous la forme d'un rectangle.
Cardinal
5

J'aime montrer la variation de l'échantillonnage et essentiellement le théorème de la limite centrale au moyen d'un exercice "en classe". Tous les élèves de la classe de 100 étudiants écrivent leur âge sur un bout de papier. Tous les morceaux de papier ont la même taille et sont pliés de la même manière après avoir calculé la moyenne. C'est la population et je calcule l'âge moyen. Ensuite, chaque élève choisit au hasard 10 morceaux de papier, note les âges et les remet dans le sac. Il calcule la moyenne et passe le sac à l'élève suivant. Finalement, nous avons 100 échantillons de 10 étudiants, chacun estimant la moyenne de la population que nous pouvons décrire à l'aide d'un histogramme et de statistiques descriptives.

Nous répétons ensuite la démonstration cette fois en utilisant un ensemble de 100 "opinions" qui reproduisent certaines questions Oui / Non de récents sondages, par exemple, si l'élection (du général britannique) était appelée demain, envisageriez-vous de voter pour le Parti national britannique. Les étudiants échantillonnent 10 de ces opinions.

À la fin, nous avons démontré la variation d'échantillonnage, le théorème central de limite, etc. avec des données continues et binaires.

Graham Cookson
la source
4

Jouer avec le code suivant, faire varier la valeur Met choisir des distributions autres que l’uniforme peut être une illustration amusante.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 
The Eremite
la source
2

Si vous utilisez Stata, vous pouvez utiliser la commande -clt- qui crée des graphiques de distributions d'échantillonnage, voir

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm

Michael Mitchell
la source
On dirait que cela pourrait être très agréable, mais je viens d'essayer de l'installer et de l'exécuter dans Stata 11.1 (c'est-à-dire la dernière version) et il continue de me donner une erreur r (3000) en cliquant sur "Terminé" dans la boîte de dialogue, même si je tape - version 6: clt-.
onestop
2

D'après mon expérience, le CLT est moins utile qu'il n'y paraît. Au milieu d'un projet, on ne sait jamais si n est suffisamment grand pour que l'approximation soit adaptée à la tâche. Et pour les tests statistiques, le CLT vous aide à protéger l’erreur de type I, mais ne fait rien pour enrayer l’erreur de type II. Par exemple, le test t peut avoir une puissance arbitrairement basse pour n grand lorsque la distribution des données est extrêmement asymétrique.

Frank Harrell
la source