Explication de la moyenne, de la médiane et du mode en termes de Layman

10

Comment expliqueriez-vous le concept de moyenne, médiane et mode d'une liste de nombres et pourquoi ils sont importants pour quelqu'un qui n'a que des compétences arithmétiques de base? Ne mentionnons pas l'asymétrie, le CLT, la tendance centrale, leurs propriétés statistiques, etc.

J'ai expliqué à quelqu'un que le moyen n'est qu'un moyen rapide et sale de «résumer» une liste de chiffres. Mais en regardant en arrière, ce n'est guère éclairant.

Des pensées ou des exemples du monde réel?

Citoyen concerné
la source
Ce sont des «tendances centrales», aussi appelées «résultats les plus probables» dans différents domaines. Intensité, ordre et fréquence en particulier. Le monde réel a également des variations - des éléments tels que l'écart-type, la plage inter-quartile (ou quantile) et la plage intermodale sont également très utiles car ils indiquent une "tendance à la variation" ou une "variation typique des résultats".
EngrStudent
Vous pouvez donner un exemple de machine générant des nombres au hasard. Vous collectez tous les nombres qu'il génère dans une liste. Vous voulez maintenant le présenter à vos amis sans citer tous les numéros de la liste. Ainsi, vous recherchez des mesures qui peuvent vous aider à le décrire. La moyenne / médiane / mode sont trois mesures similaires qui donnent un aperçu des propriétés de base de la machine.
Kevin Pei
@KevinPei Mais que signifie "signifie" dans ce cas? Moyenne / Médiane / Mode n'explique pas grand-chose dans un exemple artificiel et autonome.
Concerned_Citizen
1
Trouver la moyenne est un problème de trouver le point de pivot équilibrant la bascule après que les enfants (du même poids) se soient embarqués dessus en nombre arbitraire et sur des positions arbitraires sur la poutre. Trouver la médiane est la même tâche, seuls les enfants sont regroupés serrés dans seulement deux positions, soit de "ce" côté, soit de "ce" côté.
ttnphns
Vous ne pouvez pas expliquer cela sans la notion de distribution. Avec seulement des compétences arithmétiques de base, vous devez dessiner des images.
Aksakal

Réponses:

6

Merci pour cette question simple mais profonde sur les concepts statistiques fondamentaux de moyenne, médiane et mode. Il existe de merveilleuses méthodes / démonstrations disponibles pour expliquer et saisir une compréhension intuitive - plutôt qu'arithmétique - de ces concepts, mais malheureusement ils ne sont pas largement connus (ou enseignés à l'école, à ma connaissance).

Signifier:

1. Point d'équilibre: moyen comme point d'appui

La meilleure façon de comprendre le concept de signifie le penser comme le point d'équilibre sur une tige uniforme. Imaginez une série de points de données, tels que {1,1,1,3,3,6,7,10}. Si chacun de ces points est marqué sur une tige uniforme et des poids égaux sont placés à chaque point (comme indiqué ci-dessous), le point d'appui doit être placé à la moyenne des données pour que la tige s'équilibre.

entrez la description de l'image ici

Cette démonstration visuelle conduit également à une interprétation arithmétique. La raison arithmétique de ceci est que pour que le point d'appui s'équilibre, l'écart négatif total par rapport à la moyenne (sur le côté gauche du point d'appui) doit être égal à l'écart positif total par rapport à la moyenne (sur le côté droit). Par conséquent, la moyenne sert de point d'équilibre dans une distribution.

Ce visuel permet une compréhension immédiate de la moyenne en ce qui concerne la distribution des points de données. Une autre propriété de la moyenne qui ressort clairement de cette démonstration est le fait que la moyenne sera toujours comprise entre les valeurs min et max dans la distribution. En outre, l'effet des valeurs aberrantes peut être facilement compris - qu'une présence de valeurs aberrantes déplacerait le point d'équilibrage et, par conséquent, aurait un impact sur la moyenne.

2. Valeur de redistribution (juste part)

Une autre façon intéressante de comprendre la moyenne est de la considérer comme une valeur de redistribution . Cette interprétation nécessite une certaine compréhension de l'arithmétique derrière le calcul de la moyenne, mais elle utilise une qualité anthropomorphique - à savoir, le concept socialiste de redistribution - pour saisir intuitivement le concept de la moyenne.

Le calcul de la moyenne consiste à additionner toutes les valeurs d'une distribution (ensemble de valeurs) et à diviser la somme par le nombre de points de données dans la distribution.

x¯=(i=1nxi)/n

Une façon de comprendre la raison d'être de ce calcul est de considérer chaque point de données comme des pommes (ou un autre élément fongible). En utilisant le même exemple que précédemment, nous avons huit personnes dans notre échantillon: {1,1,1,3,3,6,7,10}. La première personne a une pomme, la deuxième personne a une pomme, etc. Maintenant, si l'on veut redistribuer le nombre de pommes de sorte qu'il soit «juste» pour tout le monde, vous pouvez utiliser la moyenne de la distribution pour ce faire. En d'autres termes, vous pouvez donner quatre pommes (c'est-à-dire la valeur moyenne) à tout le monde pour que la distribution soit juste / égale. Cette démonstration fournit une explication intuitive de la formule ci-dessus: diviser la somme d'une distribution par le nombre de points de données équivaut à partitionner l'ensemble de la distribution de manière égale à tous les points de données.

3. Visual Mnemonics

Ces mnémoniques visuels suivants fournissent l'interprétation de la moyenne d'une manière unique:

entrez la description de l'image ici

Il s'agit d'un mnémonique pour l' interprétation de la valeur de nivellement de la moyenne. La hauteur de la barre transversale A est la moyenne des hauteurs des quatre lettres.

entrez la description de l'image ici

Et ceci est un autre mnémonique pour l' interprétation du point d'équilibre de la moyenne. La position du point d'appui est à peu près la moyenne des positions de M, E et N. doublé

Médian

Une fois que l'interprétation de la moyenne comme point d'équilibrage sur une tige est comprise, la médiane peut être démontrée par une extension de la même idée: le point d'équilibrage sur un collier .

Remplacez la tige par une ficelle, mais conservez les marquages ​​et les poids des données. Ensuite, aux extrémités, attachez une deuxième chaîne, plus longue que la première, pour former une boucle [comme un collier], et drapez la boucle sur une poulie bien lubrifiée.

entrez la description de l'image ici

Supposons, au départ, que les poids soient distincts. La poulie et la boucle s'équilibrent lorsque le même nombre de poids se trouve de chaque côté. En d'autres termes, la boucle «s'équilibre» lorsque la médiane est le point le plus bas.

Notez que si l'un des poids est glissé en haut de la boucle, créant une valeur aberrante, la boucle ne bouge pas. Cela démontre, physiquement, le principe selon lequel la médiane n'est pas affectée par les valeurs aberrantes.

Mode

Le mode est probablement le concept le plus facile à comprendre car il implique l'opération mathématique la plus élémentaire: le comptage. Le fait qu'il est égal à la plus fréquemment se produisant conduit de points de données à un acronyme: « M ost-souvent O ccurring D ata E lement ».

Le mode peut également être considéré comme la valeur la plus typique d'un ensemble. (Bien qu'une compréhension plus approfondie de «typique» conduirait à la valeur représentative ou moyenne. Cependant, il est approprié d'assimiler «typique» au mode basé sur la signification très littérale du mot «typique».)


Sources:

  • La médiane est un point d'équilibre - Lynch, The College Mathematics Journal (2009)
  • Rendre les statistiques mémorables: nouvelles mnémoniques et motivations - moindre, enseignement statistique, JSM (2011)
  • Sur l'utilisation des mnémoniques pour l'enseignement des statistiques - Statistiques et applications moindres et assistées par modèle, 6 (2), 151-160 (2011)
  • Qu'est-ce que cela signifie? - Watier, Lamontagne et Chartier, Journal of Statistics Education, Volume 19, Numéro 2 (2011)
  • Typique? Idées d'enfants et d'enseignants sur la moyenne - Russell et Mokros, ICOTS 3 (1990) RÉFÉRENCE GLOBALE: http://www.amstat.org/publications/jse/v22n3/lesser.pdf
Vishal
la source
Je viens de découvrir cet article aujourd'hui qui jette un peu plus de lumière à ce sujet: priceonomics.com/how-the-average-triumphed-over-the-median
Vishal
1
Un utilisateur anonyme a également suggéré la référence globale suivante: amstat.org/publications/jse/v22n3/lesser.pdf
gung -
3

Je dois me demander si vos critères sont réalisables car vous semblez vouloir une efficacité maximale et un pouvoir explicatif avec un minimum de matériaux. Mais un exemple simple comme

1 1 2 2 2 3 3 4 5 6 15

permet un calcul immédiat du mode (2), de la médiane (3) et de la moyenne (44/11) = 4 et montre ainsi qu'ils peuvent être différents.

Vous pourriez alors expliquer que les idées de la valeur la plus courante, la valeur du milieu et la moyenne sont différentes. Et introduire des complications par

  1. la modification des valeurs pour afficher le mode peut être ambiguë

  2. utiliser un exemple avec un nombre pair de valeurs pour expliquer la convention de calcul de la médiane

  3. varier les valeurs dans les queues pour souligner ce qui arrive à la moyenne, et pourquoi et pourquoi pas, cela peut être souhaitable.

  4. en utilisant des exemples plus simples dans lesquels deux ou trois modes moyens, médians, coïncident.

Je n'ai pas mentionné de tendance centrale dans mon enseignement, sauf pour dire que c'est un terme dans diverses littératures. Je préfère parler du niveau et de la façon dont il peut être quantifié. À l'inverse, je ne pense pas qu'une analyse sérieuse des données soit possible à moins que les gens aient un sentiment minimal d'asymétrie comme plus habituel que la symétrie.

Nick Cox
la source
Oui, l'ajustement des valeurs changera les statistiques récapitulatives, mais qu'est-ce que "signifie" en soi?
Concerned_Citizen
1
calcul compréhension du
shadowtalker
1
Qu'est-ce que le rouge ? Nous n'avons pas toujours besoin de connaître les définitions pour utiliser les idées. Une bonne compréhension du rouge nécessite probablement de la physique, de la physiologie et de la psychologie, mais je n'en ai jamais eu besoin. Je sais beaucoup de choses sur le fonctionnement de la moyenne, mais à un niveau fondamental, sa définition n'est que sa formule.
Nick Cox
1
@NickCox très juste et très vrai. mais mon expérience au collège est encore assez récente, et je me souviens de trop de problèmes où j'ai calculé aveuglément une réponse sans comprendre ce que j'ai calculé ni pourquoi je l'ai fait
shadowtalker
1
@ssdecontrol Cela n'arrête jamais de se produire complètement ...
Nick Cox
3

Voici comment je les explique:

La moyenne (arithmétique) est le point qui prend en compte l'ensemble des données et se situe quelque part «au milieu». Demandez-leur de penser à un nuage de points, ou à une goutte, dans l'espace: la moyenne est le centre de masse de ce nuage de points.

La médiane est le point qui a "le même nombre de points de tous les côtés" (où évidemment le concept de "côté" n'est pas bien défini en 2+ dimensions). Cela représente un autre type de «milieu», et en fait un type plus intuitif dans un certain sens. En pensant à cette même goutte dans l'espace, il est clair que si la goutte est déséquilibrée, la moyenne sera décalée. Mais ce déséquilibre peut être obtenu de deux manières: soit vous ajoutez plus de points dans une zone, soit vous augmentez la dispersion des points dans cette zone. Si vous augmentez la dispersion des points dans une zone sans augmenter le nombre de points, alors la médiane a toujours le même nombre de points "de tous les côtés" et ne décalera pas proportionnellement à la moyenne.

Vous pouvez le démontrer avec deux "blobs" très triviaux: et . , alors que . Mais je recommande de commencer par l'explication géométrique / visuelle "basée sur les taches": d'après mon expérience, il est plus facile de commencer par une démonstration graphique en agitant la main, puis de passer à des exemples de jouets concrets. Je trouve que la plupart des gens (moi y compris) ne sont pas naturellement orientés vers les nombres, et commencer par une explication numérique est une recette pour la confusion. Vous pouvez toujours revenir en arrière et enseigner des définitions plus précises plus tard.y = ( 1 , 2 , 3 , 4 , 99 ) moyenne ( y ) = médiane ( y ) moyenne ( y ) > médiane ( y )y=(1,2,3,4,5)y=(1,2,3,4,99)mean(y)=median(y)mean(y)>median(y)

Le mode est le point qui, si des points sont échantillonnés au hasard à partir de ce blob, est le plus susceptible d'apparaître (en reconnaissant qu'il s'agit d'un fudge pour les données continues). Cela peut être, mais pas nécessairement, situé près de la moyenne ou de la médiane.

Une fois que vous avez expliqué ces concepts, alors vous pouvez passer à une « statistique prospectifs » plus de démonstration:

démo

La ligne continue est la moyenne. La ligne pointillée est la médiane. La ligne pointillée est le mode. La moyenne représente les positions des points de données le long de l'axe x, tandis que la médiane ne reflète que le nombre de points de données de chaque côté. Le mode n'est que le point de plus grande probabilité, qui est différent de la moyenne et de la médiane.

Code R:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)
shadowtalker
la source
De bonnes explications, mais cela suppose beaucoup plus que des "compétences arithmétiques de base": la pensée géométrique, la mécanique élémentaire, l'échantillonnage aléatoire, la théorie des probabilités (y compris la fonction de densité) sont toutes invoquées ici. Il s'agit d'un commentaire, qui ne vise pas à faire tomber les critiques, car je pense que la question est de taille.
Nick Cox
@NickCox de bons points à coup sûr. Mais maintenant que j'y pense, je les utilise, car à leur tour, ils peuvent tous être expliqués sans maths (par exemple l'explication "voir-voir" par ttnphns dans les commentaires sur la question principale), ou ils sont déjà compris intuitivement à un certain niveau par beaucoup de gens. La densité est un peu difficile à atteindre, mais je ne pense pas que vous ayez besoin d'y aller
shadowtalker
(@ttnphns: vous taguer au cas où vous voudriez peser. cela ne me permettra pas de vous taguer tous les deux dans un commentaire)
shadowtalker
La densité n'est pas si abstruse. La plupart des gens devraient se souvenir de la densité de la physique et de la densité de la population de la géographie, ou simplement des connaissances générales.
Nick Cox
@ NickCox Je pensais que c'était ce que vous vouliez dire en faisant référence à la mécanique élémentaire. Et à part la démo de densité, je ne vois pas non plus comment l'échantillonnage aléatoire est nécessaire ici. Si quoi que ce soit, j'ai imaginé que le point d'achoppement serait de mettre un étudiant non technique à l'aise avec l'idée d'un nuage de points. Peut-être prendre ça pour discuter?
shadowtalker
2

La « moyenne », la « médiane » et le « mode » sont la «tendance centrale», autrement dit le «résultat le plus probable» dans différents domaines. Ce sont tous des "meilleurs paris" dans différents "jeux".

Probability and Statistics est un domaine qui a été, en partie, construit par les joueurs ( lien , lien ). Lorsque vous allez aux courses de chevaux ou à la table de poker, vous voulez connaître certaines sciences qui vous aident à gagner. Ils l'ont fait aussi et ont écrit à ce sujet, vous n'avez donc pas à l'inventer vous-même.

Dans une course de chevaux, vous voulez choisir un gagnant. Vous n'avez pas d'informations futures, mais vous connaissez des informations passées. Vous savez à quelle vitesse chaque cheval a couru au cours des dernières courses. Si vous souhaitez faire une estimation de la vitesse à laquelle ils sont susceptibles de courir lors de leur prochaine course, vous pouvez calculer et comparer la moyenne, c'est-à-dire la moyenne, des temps de course.

Une autre tendance centrale est la "médiane" - qui est le centre d'une liste triée. Et si je mettais une horrible faute de frappe sur votre liste de temps de course, et que la valeur était 1000x plus longue que toutes les autres. Cela gâcherait votre estimation. Vous pourriez ne pas parier sur le cheval gagnant. Comment abordez-vous cela? Vous pouvez rechercher manuellement cette valeur ou utiliser la "médiane".

Et si vous jouez aux cartes, comme le " blackjack ", et que vous essayez de déterminer si vous avez besoin d'une autre carte compte tenu des cartes précédentes. La carte que vous recherchez n'est pas un 3,14 car les numéros de cartes sont des valeurs entières. Comment déterminez-vous quel est votre meilleur pari lorsque la «moyenne» ou la médiane n'a pas de sens? Dans ce cas, vous voulez parier sur le "mode" - la carte la plus susceptible de sortir de la pile des croupiers.

Dans les trois cas, la tendance centrale n'est qu'une autre façon de dire «meilleur pari».

Si vous voulez tenir compte non seulement de la tendance centrale de vos paris, c'est-à-dire si vous voulez parier afin de pouvoir réduire les impacts d'une perte tout en maximisant les gains, alors vous devez regarder les "tendances de variation". Des choses comme l'écart-type, les plages inter-quantiles ou les modes alternatifs et leurs fréquences sont tous utilisés pour minimiser les pertes maximales tout en maximisant les gains probables.

EngrStudent
la source
0

Je pense qu'il est utile d'expliquer ce concept lorsque l'on considère plusieurs moyens, médianes et modes. Ces valeurs n'existent pas par elles-mêmes dans le vide.

Par exemple, voici comment j'expliquerais la moyenne.

Disons que vous avez 2 caisses de pastèques (caisses 1 et 2). Il est scellé pour que vous ne puissiez pas voir les pastèques à l'intérieur et que vous ne connaissiez donc pas leur taille. Cependant, vous connaissez le poids total des pastèques dans chaque caisse et chacune contient le même nombre de pastèques. À partir de cela, vous pouvez calculer les poids moyens de chaque caisse de pastèques (M1 et M2).

Maintenant que vous avez deux valeurs moyennes différentes M1 et M2, vous pouvez faire une comparaison approximative du contenu individuel. Si M1> M2, une pastèque sélectionnée au hasard dans la caisse 1 peut probablement être plus lourde qu'une pastèque choisie dans la caisse 2.

Bien sûr, j'aimerais avoir des commentaires sur cette perspective.

Citoyen concerné
la source