Quelle est l'explication de votre profane préféré pour un concept statistique difficile?

36

J'aime beaucoup entendre des explications simples sur des problèmes complexes. Quelle est votre analogie ou anecdote préférée qui explique un concept statistique difficile?

Mon préféré est l' explication de Murray sur la cointégration utilisant un ivrogne et son chien. Murray explique comment deux processus aléatoires (une personne ivre errante et son chien, Oliver) peuvent avoir des racines unitaires tout en restant apparentés (co-intégrés) puisque leurs premières différences communes sont stationnaires.

L'ivrogne part du bar, sur le point de se promener sans but, de manière aléatoire. Mais périodiquement elle entonne "Oliver, où es-tu?", Et Oliver interrompt son errance sans but pour aboyer. Il l'entend; elle l'entend. Il pense: "Oh, je ne peux pas la laisser aller trop loin, elle va m'enfermer." Elle pense: "Oh, je ne peux pas le laisser aller trop loin; il me réveillera au milieu de la nuit avec ses aboiements." Chacun évalue à quelle distance se trouve l’autre et s’efforce de combler partiellement cet écart.

brotchie
la source

Réponses:

18

Une valeur de p est une mesure de la façon dont les données sont gênantes pour l'hypothèse nulle

Nicholas Maxwell, Data Matters: Statistiques conceptuelles pour un monde aléatoire Emeryville CA: Key College Publishing, 2004.

Frank Harrell
la source
15
  1. Si vous avez sculpté votre distribution (histogramme) dans du bois et avez essayé de l’équilibrer sur votre doigt, le point d’équilibre serait la moyenne, quelle que soit la forme de la distribution.

  2. Si vous placez un bâtonnet au milieu de votre diagramme de dispersion et que vous le fixez à chaque point de données avec un ressort, le point de repos du bâtonnet sera votre ligne de régression. [1]

[1] il s’agirait techniquement d’une régression en composantes principales. il faudrait forcer les ressorts à ne se déplacer que "verticalement" pour être des moindres carrés, mais l'exemple est illustratif dans les deux cas.

Neil McGuigan
la source
2
La force du ressort est proportionnelle à la déformation, il ne s’agit donc pas d’une régression des moindres carrés!
shabbychef
1
Bien essayé! Cela dépend du printemps. Par exemple, si la constante de printemps est 1 / sigma, fonctionne très bien;)
Neil McGuigan
2
L1y
L1L1
12

J'ai déjà utilisé la promenade de l'ivrogne pour une promenade aléatoire, et l'ivresse et son chien pour la cointégration; ils sont très utiles (en partie parce qu'ils sont amusants).

L'un de mes exemples préférés est le Birthday Paradox ( entrée de Wikipédia ), qui illustre certains concepts importants de probabilité. Vous pouvez simuler cela avec une pièce remplie de monde.

Incidemment, je recommande fortement le livre "Enseigner les statistiques: quelques astuces" de Andrew Gelman pour quelques exemples de méthodes créatives pour enseigner les concepts statistiques (voir la table des matières ). Regardez également son article sur le cours qu’il enseigne sur l’enseignement des statistiques: "Un cours sur l’enseignement des statistiques au niveau universitaire" . Et sur "Enseigner Bayes aux étudiants diplômés en sciences politiques, sociologie, santé publique, éducation, économie, ..." .

Pour décrire les méthodes bayésiennes, utiliser une pièce injuste et la retourner plusieurs fois est une approche plutôt commune / efficace.

Shane
la source
1
Une pièce de monnaie injuste n'existe pas
Tim
11

J'aime montrer la variation de l'échantillonnage et essentiellement le théorème de la limite centrale au moyen d'un exercice "en classe". Tous les élèves de la classe de 100 étudiants écrivent leur âge sur un bout de papier. Tous les morceaux de papier ont la même taille et sont pliés de la même façon après avoir calculé la moyenne. Ceci est la population et je calcule l'âge moyen. Ensuite, chaque élève choisit au hasard 10 morceaux de papier, note les âges et les remet dans le sac. Il calcule la moyenne et passe le sac à l'élève suivant. Finalement, nous avons 100 échantillons de 10 étudiants, chacun estimant la moyenne de la population que nous pouvons décrire à l'aide d'un histogramme et de statistiques descriptives.

Nous répétons ensuite la démonstration cette fois en utilisant un ensemble de 100 "opinions" qui reproduisent certaines questions Oui / Non de récents sondages, par exemple, si l'élection (du général britannique) était appelée demain, envisageriez-vous de voter pour le Parti national britannique. Les étudiants échantillonnent 10 de ces opinions.

À la fin, nous avons démontré la variation d'échantillonnage, le théorème central de limite, etc. avec des données continues et binaires.

Graham Cookson
la source
10

Certainement le problème de Monty Hall. http://en.wikipedia.org/wiki/Monty_Hall_problem

Stephen Turner
la source
1
+1 ce problème m'a tordu le cerveau lorsque j'ai lu et pensé pour la première fois - et la solution est assez simple mais en apprend beaucoup sur les probabilités.
Sharpie
1
Je trouve que le problème de Monty Hall est tout sauf une simple explication de la probabilité par un profane. Je le comprends, mais j’ai toujours du mal à le comprendre, et encore moins à le comprendre suffisamment pour l’expliquer à une personne qui n’a pas de statistiques et lui demander de tirer quelque chose de cette expérience ... De toute façon, vous ne précisez pas si le problème est votre concept difficile , ou l'explication de votre profane . -1 jusqu'à ce que vous le fassiez.
naught101
2
Le moyen le plus simple d’expliquer le problème de Monty Hall est d’imaginer le même problème, mais avec 1 000 portes: 999 d’entre elles ont une chèvre derrière elles et seulement 1 d’entre elles ont une voiture derrière elles. Supposons que vous choisissiez une porte et que l'animateur du jeu ouvre 998 autres portes et vous demande si vous souhaitez modifier votre décision pour la porte qu'il n'a pas ouverte. Sachant qu'il n'aurait pas pu ouvrir la portière avec la voiture derrière, vous devrez passer à l'autre portière (ou être ridiculement confiant dans le choix initial).
Berk U.
10

1) Une bonne démonstration de la façon dont le "hasard" doit être défini afin de calculer la probabilité de certains événements:

Quelle est la probabilité qu’une ligne aléatoire tirée d’un cercle soit plus longue que le rayon?

La question dépend totalement de la façon dont vous tracez votre ligne. Les possibilités que vous pouvez décrire de manière réelle pour un cercle dessiné sur le sol peuvent inclure:

Tracez deux points aléatoires dans le cercle et tracez une ligne à travers ceux-ci. (Voir où tombent deux mouches / pierres ...)

Choisissez un point fixe sur la circonférence, puis un point aléatoire ailleurs dans le cercle et rejoignez ceux-ci. (En fait, il s’agit de placer un bâton en travers du cercle à un angle variable en passant par un point donné et aléatoire, par exemple, lorsqu’une pierre tombe.)

Dessine un diamètre. Choisissez au hasard un point le long de celle-ci et tracez une perpendiculaire à travers celle-ci. (Faites rouler un bâton en ligne droite de manière à ce qu'il repose sur le cercle.)

Il est relativement facile de montrer à quelqu'un qui est capable de faire de la géométrie (mais pas nécessairement des statistiques) que la réponse à la question peut varier assez largement (d'environ 2/3 à environ 0,866).

(1210)

3) Expliquer pourquoi un diagnostic médical peut sembler vraiment imparfait. Un test de dépistage de la maladie détectant avec précision 99,9% des personnes qui en sont atteintes mais un diagnostic de diagnostic faussement positif chez ceux qui ne le sont pas réellement peut sembler être très souvent faux lorsque la prévalence de la maladie est très faible ( par exemple 1 sur 1000), mais de nombreux patients en font l’objet.

C’est celui qui s’explique le mieux avec des chiffres réels - imaginons 1 million de personnes testées, donc 1 000 personnes ont la maladie, 999 sont correctement identifiées, mais 0,1% des 999 000 sont 999 à qui on dit qu’elles l’ont mais ne les ont pas. Donc, la moitié de ceux à qui on dit qu'ils l'ont, ne le font pas, malgré le haut niveau de précision (99,9%) et le faible nombre de faux positifs (0,1%). Un deuxième test (idéalement différent) séparera ensuite ces groupes.

[Incidemment, j'ai choisi les chiffres parce qu'ils sont faciles à utiliser. Bien entendu, ils ne doivent pas totaliser 100%, car les taux de précision / faux positif sont des facteurs indépendants du test.]

AdamV
la source
2
Je pense que votre premier exemple fait référence au paradoxe de Bertrand. Très belle illustration des différentes manières de définir un espace probabiliste!
chl
9

Le livre de Sam Savage, Flaw of Averages, contient de bonnes explications profanes de concepts statistiques. En particulier, il a une bonne explication de l'inégalité de Jensen. Si le graphique de votre retour sur investissement est convexe, c'est-à-dire qu'il vous «sourit», alors le hasard est en votre faveur: votre rendement moyen est supérieur à votre rendement moyen.

John D. Cook
la source
6

Behar et al. Ont une collection de 25 analogies pour l'enseignement des statistiques. Voici deux exemples:

2.9 Tous les modèles sont théoriques: Il n'y a pas de sphères parfaites dans l'univers Il semble que la forme géométrique la plus répandue dans l'univers soit la sphère. Mais combien de sphères mathématiquement parfaites y a-t-il dans l'univers? La réponse est non. Ni la Terre, ni le Soleil, ni une boule de billard n'est une sphère parfaite. Donc, s’il n’ya pas de véritables sphères, à quoi servent les formules permettant de déterminer l’aire ou le volume d’une sphère? Il en va de même pour les modèles statistiques en général et, en particulier, avec une distribution normale. Bien que l’un des exemples les plus courants soit la distribution de hauteur, si nous disposions de la taille de chaque adulte de la planète, le profil de l’histogramme ne correspondrait pas à une courbe en cloche de Gauss, même si les données étaient stratifiées par sexe, race ou toute autre caractéristique.

2.25 Les données résiduelles ne doivent pas contenir d'informations: sac poubelle Les données résiduelles restent après la suppression de toutes les informations des données. Comme ils ne doivent contenir aucune information, nous les considérons comme des «déchets». Il est nécessaire de veiller à ne pas jeter de déchets ayant une valeur (information) et pouvant être exploités pour mieux expliquer le comportement de la variable dépendante.

D'autres exemples incluent

  • "Effet de la taille de l'échantillon sur la comparaison des traitements: magnification des jumelles"
  • "La taille de l'échantillon par rapport à la taille de la population: une cuillère pour goûter à la soupe"

Les références

  • Behar, R., Grima, P. et Marco-Almagro, L. (2012). Vingt-cinq analogies pour expliquer les concepts statistiques. Le statisticien américain, (juste accepté).
Jeromy Anglim
la source
3

Question amusante.

Quelqu'un a découvert que je travaillais dans la biostatistique et ils m'ont demandé (en gros) "Les statistiques ne sont-elles pas un moyen de mentir?"

(Ce qui ramène la citation de Mark Twain sur Lies, Damn Lies et Statistics.)

J'ai essayé d'expliquer que les statistiques permettent de dire avec une précision de 100% que, compte tenu des hypothèses et des données, la probabilité que telle ou telle chose soit exactement telle ou telle.

Elle n'a pas été impressionné.

Mike Dunlavey
la source
1
"Cela nous permet de dire, avec 100% de précision, quelle est l'ampleur de notre manque de précision"
naught101
Si ce n’est pas une réfutation pure et simple, la réponse de @ Jeromy suggère pourquoi il faut supprimer la notion de "précision à 100%".
rolando2