Quel est le moyen le plus simple et le plus simple d’expliquer le concept de variance à une personne? Qu'est-ce que cela signifie intuitivement? Si on doit expliquer cela à leur enfant, comment s'y prendrait-on?
C’est un concept que j’ai du mal à articuler - en particulier lorsque l’on fait le lien entre variance et risque. Je le comprends mathématiquement et je peux l'expliquer aussi. Mais lorsque vous expliquez des phénomènes réels, comment pouvez-vous faire comprendre la variance et son applicabilité dans le "monde réel", pour ainsi dire.
Supposons que nous simulons un investissement dans une action en utilisant des nombres aléatoires (lancer un dé ou utiliser une feuille Excel, peu importe). Nous obtenons un «retour sur investissement» en associant chaque instance de la variable aléatoire à «un changement» dans le retour. Par exemple.:
Lancer un 1 implique un changement de 0,8 par dollar investi, un 5 un changement de 1,1 par dollar et ainsi de suite.
Maintenant, si cette simulation est exécutée environ 50 fois (ou 20 ou 100), nous obtiendrons des valeurs et la valeur finale de l'investissement. Alors, que dit la «variance» si nous devions la calculer à partir de l'ensemble de données ci-dessus? Que voit-on "- Si la variance s'avère être 1,7654 ou 0,88765 ou 5,2342, qu'est-ce que cela signifie même? Qu'est-ce que je peux observer sur cet investissement? Quelles conclusions puis-je tirer - en termes simples?
N'hésitez pas à augmenter la question avec celle de l'écart type également! Bien que j’ai le sentiment que c’est «plus facile» à comprendre, mais quelque chose qui contribuerait à le rendre aussi «intuitivement» clair serait grandement apprécié!
Réponses:
J'utiliserais probablement une analogie similaire à celle que j'ai appris à donner aux «laïcs» lors de l'introduction du concept de biais et de variance: l'analogie du jeu de fléchettes. Voir ci-dessous:
L'image ci-dessus, tirée de l' Encyclopedia of Machine Learning , est référencée dans "Introduction à la pratique de la statistique" de Moore et McCabe .
MODIFIER:
Voici un exercice qui, à mon avis, est plutôt intuitif: prenez un jeu de cartes (sorti de la boîte) et déposez-le d’une hauteur d’environ 1 pied. Demandez à votre enfant de ramasser les cartes et de vous les rendre. Ensuite, au lieu de laisser tomber le paquet, jetez-le aussi haut que possible et laissez les cartes tomber au sol. Demandez à votre enfant de ramasser les cartes et de vous les rendre.
Le plaisir relatif qu’ils ont lors des deux essais devrait leur donner une impression intuitive de la variance :)
la source
J'avais l'habitude d'enseigner les statistiques à un profane par des blagues et j'ai découvert qu'ils apprenaient beaucoup.
Supposons que, pour la variance ou l'écart type, la blague suivante soit très utile:
Blague
Une fois que deux statisticiens de hauteur 4 pieds et 5 pieds doivent traverser une rivière de profondeur MOYENNE 3 pieds. Pendant ce temps, un troisième statisticien vient et dit: "Qu'est-ce que tu attends? Tu peux facilement traverser la rivière"
Je suppose que le profane connaît le terme «moyen». Vous pouvez également leur poser la même question: traverseraient-ils la rivière dans cette situation?
Qu'est-ce qui leur manque, c'est de la "variance" pour décider "que faire dans la situation?"
Il s’agit de vos compétences de présentation. Cependant, les blagues aident beaucoup le profane qui veut comprendre les statistiques. J'espère que ça aide!
la source
Je me concentrerais sur l’écart type plutôt que sur la variance; la variance est sur la mauvaise échelle.
Tout comme la moyenne est une valeur typique, le SD est une différence typique (absolue) par rapport à la moyenne. Ce n'est pas différent de plier la distribution à la moyenne et de prendre celle-ci.
la source
Je suis en désaccord avec beaucoup de réponses préconisant aux gens de penser simplement que la variance est étendue. Comme les gens intelligents (Nassim Taleb) l'ont souligné, lorsque les gens pensent que la variance est étendue, ils supposent qu'il s'agit de MAD.
La variance est une description de la distance qui sépare les membres de la moyenne ET détermine l'importance de chaque observation par cette même distance. Cela signifie que les observations lointaines sont jugées de manière plus importante. D'où des carrés.
Je pense que la variance d'une variable uniforme continue est la plus facile à imaginer. Chaque observation peut avoir un carré dessiné. L'empilement de ces carrés crée une pyramide. Couper la pyramide en deux pour que la moitié du poids soit dans un côté et la moitié dans l'autre. Le visage où vous coupez est la variance.
la source
Peut-être que cela pourrait aider. Je m'excuse par avance de m'avoir mal compris en tant qu'amateur complet.
Imaginez que vous demandez à 1 000 personnes de deviner le nombre de haricots dans un bocal rempli de bonbons haricots. Imaginez maintenant que vous n’êtes pas nécessairement intéressé à connaître la bonne réponse (ce qui peut être utile) mais que vous souhaitez mieux comprendre comment les gens l’estiment.
La variance pourrait être expliquée à un profane comme la dispersion de réponses différentes (du plus élevé au plus faible). Vous pouvez continuer en ajoutant que si suffisamment de personnes devaient être interrogées, la réponse correcte devrait se situer quelque part au milieu de la propagation des commentaires des invités.
Je me réfère maintenant à certains de mes collègues les plus estimés pour l'arbitrage
la source
J'étais en train d'essayer de décrypter la variance et ce qui l'a finalement mis en place, c'est de l'examiner graphiquement.
Supposons que vous tracez une droite numérique avec quatre points, -7, -1, 1 et 7. Dessinez maintenant un axe Y imaginaire avec les mêmes quatre points le long de la dimension Y, et utilisez les paires XY pour tracer le carré de chaque paire. de points. Vous vous retrouvez avec quatre carrés distincts composés de 49, 1, 1 et 49 plus petits carrés chacun. Chacun d’entre eux contribue à la somme globale des carrés qui, elle-même, peut être représentée par un grand carré de 10 x 10 avec 100 carrés plus petits.
La variance est la taille du carré moyen contribuant à ce carré plus grand. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Donc, 25 serait la variance. L’écart type serait la longueur d’un des côtés de ce carré moyen, ou 5.
Évidemment, cette analogie ne couvre pas toute la nuance du concept de variance. Il y a beaucoup de choses à expliquer, par exemple pourquoi nous utilisons souvent un dénominateur de n-1 pour estimer le paramètre de population, au lieu d'utiliser simplement n. Mais en tant que concept de base pour rattacher le reste d'une compréhension détaillée de la variance à, le dessiner simplement de manière à ce que je puisse voir que cela aide énormément. Cela aide à comprendre ce que nous voulons dire lorsque nous disons que la variance est l’écart quadratique moyen par rapport à la moyenne. Cela aide également à comprendre quelle relation a le SD avec cette moyenne.
la source
Pratiquez beaucoup d’enseignement aux non-spécialistes sur l’écart type et la variance.
TL; DR; C'est à peu près comme la moyenne des distances par rapport à la moyenne. (ce qui est un peu déroutant et trompeur dans une telle version concise. Alors lisez l'article complet)
Je suppose qu'un profane connaît la moyenne. Je parle d’importance de connaître le DD et d’estimer les erreurs (voir PS ci-dessous). Ensuite, je vous promets qu'aucune connaissance en mathématiques élevées ou en statistiques sacrées ne sera utilisée - juste un raisonnement aride et une logique pure.
Le problème. Disons que nous avons un thermomètre (je choisis un appareil de mesure en fonction de ce qui est le plus proche de l'auditif).
Nous avons fait N mesures de la même température et le thermomètre nous a montré quelque chose comme 36,5, 35,9, 37,0, 36,6, ... (voir la photo). Nous savons que la température réelle était la même, mais le thermomètre nous repose un peu à chaque mesure.
Comment pouvons-nous estimer combien cette petite racaille nous ment?
Nous pouvons calculer la moyenne (voir la ligne rouge sur l'image ci-dessous). Pouvons-nous le croire? Même après la moyenne, a-t-il assez de précision pour nos besoins?
L'approche la plus facile . Nous pouvons prendre le point le plus éloigné, calculer la distance qui le sépare de la moyenne (ligne rouge) et dire que c’est ainsi que nous trouve le thermomètre, car c’est l’erreur maximale que nous voyons. On pourrait deviner, ce n'est pas la meilleure estimation. Si nous regardons la photo, la plupart des points se situent autour de la moyenne, comment pouvons-nous décider d'un seul point? En réalité, on peut s'exercer à la numérotation pour des raisons qui rendent cette estimation approximative et généralement mauvaise.
La variance . Ensuite ... prenons toutes les distances et calculons la distance moyenne !
On pourrait alors imaginer que la formule de distance moyenne résumerait tout et serait divisée par N:
Mais il y a un problème. Nous pouvons facilement voir, par exemple. que 36,4 et 36,8 sont à la même distance de 36,6. mais si nous mettons les valeurs dans la formule ci-dessus, nous obtenons -0,2 et +0,2, et leur somme est égale à 0, ce qui n'est pas ce que nous voulons.
Comment se débarrasser du signe? (À ce stade, les non-initiés disent généralement "Prendre une valeur absolue" et suggèrent que "prendre une valeur absolue est un peu artificiel, quelle est une autre manière?"). Nous pouvons concilier les valeurs! Alors la formule devient:
Cette formule s'appelle "Variance" en statistique. Et il est beaucoup plus judicieux d'estimer l'étendue de nos valeurs de thermomètre (ou autre) que de simplement prendre la distance maximale.
Écart type . Mais il reste encore un problème. Regardez la formule de la variance. Les carrés font nos unités de mesure ... au carré. Si le thermomètre mesure la température en ° C (ou ° F), notre estimation d'erreur est mesurée en (ou ). Comment neutraliser les carrés? - Utilise la racine carrée! ° F 2°C2 °F2
Nous arrivons donc à la formule de déviation standard qui est communément notée . Et c’est le meilleur moyen d’estimer la précision de nos appareils.σ
À ce stade, un profane comprend très bien comment nous arrivons ici et comment fonctionne l'écart-type / variance. À partir de ce moment, je passe généralement à la règle 68-95-99.7, décrivant également les termes concernant l’échantillonnage et la population, l’erreur type et les termes de déviation standard, etc.
PS Importance de connaître un exemple de discours sur le DD
Disons que vous avez un appareil de mesure qui coûte 1 000 000 $ . Et cela vous donne la réponse: 42. Pensez-vous qu’on a payé 1 000 000 $ pour 42? Phooey! On a payé 1000 000 pour la précision de cette réponse. Parce que Value - ne coûte rien sans connaître son erreur. Vous payez pour l'erreur, pas la valeur. Voici un bon exemple de vie.
Dans la vie courante, nous utilisons la plupart du temps une règle pour mesurer une distance. La règle vous donne une précision d'environ un millimètre (si vous n'êtes pas aux États-Unis). Et si vous deviez dépasser le millimètre et mesurer quelque chose avec une précision de 0.1mm? - Vous utiliseriez probablement un pied à coulisse. Maintenant, il est facile de vérifier qu’une règle la moins chère (mais toujours avec une précision millimétrique) coûte centimes, alors qu'un bon pied à coulisse coûte un dixième de dollar. 2 magnitudes d'un prix pour 1 magnitude de la précision. Et c'est très habituel de combien vous payez pour une erreur.
la source
Je pense que l'expression clé à utiliser pour expliquer à la fois la variance et l'écart type est "mesure de la dispersion" . Dans la langue la plus élémentaire, la variance et l'écart type nous indiquent à quel point les données sont bien réparties. Pour être un peu plus précis, même s'ils s'adressent toujours au profane, ils nous disent à quel point les données sont bien réparties autour de la moyenne. En passant, notez que la moyenne est une "mesure de localisation" . Pour conclure l'explication au profane, il convient de souligner que l'écart type est exprimé dans les mêmes unités que les données avec lesquelles nous travaillons et que c'est pour cette raison que nous prenons la racine carrée de la variance. c'est-à-dire que les deux sont liés.
Je pense que cette brève explication ferait l'affaire. C'est probablement un peu similaire à une explication de manuel d'introduction de toute façon.
la source
Je considère la variance de la distribution comme le moment d’inertie avec l’axe qui à la moyenne de la distribution et chaque masse est égal à 1. Cette intuition rendrait le concept abstrait concret.
Le premier moment est la moyenne de la distribution et le second moment est la variance.
Référence: Un premier cours de probabilité 8ème édition
la source
J'appellerais cela la différence positive moyenne par rapport à la moyenne globale.
la source