Pourquoi l’âge médian est-il meilleur que l’âge moyen?

41

texte alternatif

texte alternatif

Clairement, la médiane semble être la statistique de choix en ce qui concerne les âges.

Je ne suis pas capable de m'expliquer pourquoi la moyenne arithmétique serait une statistique pire. Pourquoi est-ce?

Initialement posté ici parce que je ne savais pas que ce site existait.

Lazer
la source
4
Il semble que vous ayez déjà eu une réponse raisonnable sur l'autre site?
Shane
1
@Shane: Mais peut-être que différents sites ont le potentiel de recueillir différentes réponses de différents points de vue?
whuber

Réponses:

42

Les statistiques ne fournissent pas une bonne réponse à cette question, à mon avis. Une moyenne peut être pertinente dans les études de mortalité, par exemple, mais les âges ne sont pas aussi faciles à mesurer que vous pourriez le penser. Les personnes âgées, les illettrés et les habitants de certains pays du tiers monde ont par exemple tendance à arrondir leur âge à un multiple de 5 ou 10.

La médiane est plus résistante à ces erreurs que la moyenne. De plus, les âges médians sont généralement de 20 à 40 ans, mais les personnes peuvent vivre jusqu'à 100 ans et plus (une proportion croissante et notable de la population des pays modernes vit maintenant au-delà de 100 ans). Les personnes de cet âge ont 1,5 à 4 fois plus d'influence sur la moyenne que sur la médiane par rapport aux personnes très jeunes. Ainsi, la médiane est une statistique un peu plus à jour concernant la répartition par âge d'un pays et est un peu plus indépendante des taux de mortalité et de l'espérance de vie que la moyenne.

Enfin, la médiane nous donne une image légèrement meilleure de la répartition par âge elle-même: quand vous voyez une médiane de 35 ans, par exemple, vous savez que la moitié de la population a plus de 35 ans et que vous pouvez en déduire certaines choses à propos du taux de natalité, l'âge des parents, etc. mais si la moyenne est de 35 ans, vous ne pouvez pas en dire autant, car cette population pourrait être influencée par un fort gonflement de la population à 70 ans, par exemple, ou peut-être par un fossé démographique dans une tranche d'âge en raison d'une guerre ancienne ou d'une épidémie.

Ainsi, pour des raisons démographiques et non statistiques, une médiane apparaît plus digne du rôle d'une valeur omnibus pour résumer les âges de populations relativement importantes.

whuber
la source
1
Je pense que vous vouliez dire "la médiane est plus résistante à de telles erreurs que la moyenne". Je suis cependant d’accord avec vos commentaires et je crois que le recensement des États-Unis indique généralement les médianes de nombreuses catégories dans les rapports officiels (pas seulement l’âge) pour les mêmes raisons. Le revenu est peut-être même un meilleur exemple que l'âge pour illustrer de tels points.
Andy W
Vous avez substitué un fait (la moyenne est sensible aux distributions aberrantes / asymétriques) à un énoncé de valeur sur la préférence de la médiane par rapport à la moyenne. En fait, vous avez fait valoir que la moyenne ne doit pas être privilégiée, car ce n'est pas la médiane (un peu comme ceux qui disent que l'on ne devrait utiliser la moyenne que pour les distributions symétriques, c'est-à-dire lorsque la moyenne et la médiane sont égales).
Alexis
1
@ Alexis, je ne suis pas vos critiques. Pourriez-vous élaborer? Après tout, cette réponse est bien plus qu’un "fait": elle en contient quelques-unes, ainsi qu’une analyse de leurs implications. Et précisément à quelle "déclaration de valeur" faites-vous référence?
whuber
Ce qui me préoccupe, ce sont les caractéristiques factuelles de la moyenne et de la médiane (par exemple, le premier est sensible aux valeurs aberrantes, à savoir "Les personnes de cet âge ont une influence sur la moyenne de 1,5 à 4 fois supérieure à celle de la médiane par rapport aux personnes très jeunes.") traduites en valeurs quant à leur valeur, à savoir "la médiane nous donne une image légèrement meilleure de la répartition par âge elle-même". Le premier est un fait, le dernier une évaluation de ce fait. Ma préoccupation concerne le basculement entre les deux. Plus: stats.stackexchange.com/questions/96371/…
Alexis
1
@Alexis S'il vous plaît gardez à l'esprit que cette question ne concerne pas l'utilisation de la moyenne ou de la médiane en général, mais leur utilité pour évaluer les distributions par âge. Veuillez noter que dès le départ, ma réponse reconnaît qu’il n’ya pas de panacée: la moyenne est utile et pertinente à des fins spécifiques. Je ne pense pas avoir commis le péché dont vous m'accusez, qui est l'application vague de «meilleur»: j'ai soigneusement précisé en quoi la médiane et la moyenne diffèrent dans ce contexte . Il me semble que vous avez un problème à critiquer entre moyens et médianes, mais ce n’est pas le lieu.
whuber
16

John vous a donné une bonne réponse sur le site de la soeur.

L'un des aspects qu'il n'a pas explicitement mentionnés est la robustesse: la médiane, en tant que mesure de la position centrale, fait mieux que la moyenne, car son point de rupture est supérieur (50%), tandis que la moyenne est très basse, 0 (voir wikipedia pour plus de détails). ).

Intuitivement, cela signifie que les mauvaises observations individuelles ne biaisent pas la médiane, alors qu'elles le font pour la moyenne.

Dirk Eddelbuettel
la source
9
La ventilation n'est pas un problème pour une statistique descriptive de toute une population.
whuber
12

Voici ma réponse d'abord posté sur math.stackexchange:

La médiane est ce que beaucoup de gens pensent réellement quand ils disent "méchant". Il est plus facile d'interpréter la médiane: la moitié de la population a plus de cet âge et l'autre moitié est en dessous. La moyenne est un peu plus subtile.

Les gens recherchent la symétrie et l’imposent parfois quand il n’y en a pas. La répartition par âge dans une population est loin d'être symétrique, de sorte que la moyenne pourrait être trompeuse. Les distributions par âge ressemblent à une pyramide. Beaucoup d'enfants, pas beaucoup de personnes âgées. (Ou du moins c'est comme cela que les choses se passent. Aux États-Unis, la génération du baby-boom d'après-guerre a déformé cette répartition à mesure qu'elle vieillit. sommet de la pyramide plus large que par le passé.)

Avec une distribution asymétrique, il peut être préférable de déclarer la médiane car il s’agit d’une statistique symétrique. La médiane est symétrique même si la distribution d'échantillonnage ne l'est pas.

John D. Cook
la source
En quel sens la médiane est-elle une statistique "symétrique"? Ce n'est certainement pas le cas que les distributions ont tendance à être réparties symétriquement par rapport à leurs médianes (ni par rapport à leurs moyennes). Si vous entendez simplement ce que vous avez écrit dans un autre commentaire, à savoir que "la médiane divise la population en deux" (ce qui définit la médiane), votre argument semble circulaire: la médiane est bonne car la médiane est la médiane!
whuber
7

Pourquoi une hache est-elle meilleure qu'une hachette?

Cela ressemble à votre question. Ils veulent juste dire et font des choses différentes. Si l’on parle de médianes, l’histoire qu’elles essaient de raconter, le modèle qu’elles essaient d’appliquer aux données, est différent de celui qui a des moyens.

John
la source
4

Pour un exemple concret, considérons les âges moyens du Congo (RDC) et du Japon. L'un est dévasté par la guerre civile, l'autre est bien développé avec une population vieillissante. La moyenne n'est pas très intéressante pour une comparaison de pommes à pommes. D'autre part, la médiane peut être informative en tant que mesure de la tendance centrale puisque, par définition, nous avons la moitié supérieure, la moitié inférieure. L'article de Wikipédia sur la pyramide des âges pourrait être instructif (voir les sections sur le gonflement de la jeunesse et le vieillissement de la population).

ars
la source
3

Aux États-Unis, les référentiels de données sur la santé publique s'acheminent vers un format d'année échelonné sur cinq ans, en raison de l'impact de la réglementation HIPAA concernant l'aveuglement et le masquage intentionnels de données pour des raisons de confidentialité.

Compte tenu du défi posé par ce qui était dans le passé (avant HIPAA), un élément de données de niveau de mesure assez proportionnel basé sur la différence entre la date de naissance et la date de décès, il peut être nécessaire de reconsidérer AGE en tant que variable d'échelle pouvant être décrit paramétriquement du tout dans les ensembles de données de santé publique, en faveur des modèles décrivant AGE de manière non paramétrique, en tant que niveau de mesure ordinal. Je sais que cela peut paraître "exagéré" pour de nombreuses factions au sein de la communauté informatique biomédicale, mais cette idée peut avoir un certain mérite en termes d '"interprétation" comme décrit dans les commentaires ci-dessus.

Qu'en est-il de tout le pouvoir analytique disponible pour les approches non paramétriques? Oui, il est vrai que chacun d’entre nous essaiera presque universellement d’appliquer les techniques GLM (modèle linéaire général) à une variable qui se présente à nous dans des distributions qui se comportent comme AGE.

Dans le même temps, il convient de prendre en compte la forme de cette distribution et la manière dont cette forme est déterminée par les effets d'interaction de plusieurs dimensions sur les centroïdes multidimensionnels et les centroïdes de sous-groupes présents dans la distribution. Que faire avec ces ensembles de données très complexes?

Lorsqu'un élément de données ne répond pas aux "hypothèses du modèle", nous balayons progressivement (j'ai dit dans l'ensemble, pas dans le bas; nous devrions être des employeurs de la méthode de l'égalité des chances, chaque outil provient de l'usine avec des règles de formulaire suivant la fonction) la liste d’autres modèles possibles pour trouver ceux qui «n’échouent pas» aux tests d’hypothèses.

Dans le format actuel des ensembles de données de santé publique, nous avons vraiment besoin (en tant que communauté de visualisation de données) de mettre au point un modèle plus standard de traitement de l’âge par tranche de cinq ans (5YI). Mon vote pour la visualisation des données de AGE (étant donné le nouveau format 5YI) consiste à utiliser des histogrammes et des diagrammes à boîtes et à moustaches. Oui, cela signifie la médiane. (Sans jeu de mots!)

Parfois, une image vaut vraiment mille mots, et un résumé est un résumé de mille mots. Le graphique en boîtes et moustaches montre la "forme" de la distribution en tant que représentation symbolique significative de l'histogramme à un niveau de résolution presque emblématique. Comparer les répartitions par tranches d’âge de cinq ans en affichant des tracés de boîtes à coques et de moustaches "côte à côte" permettant de comparer visuellement les motifs du 75e au le monde. Pour ceux d'entre nous qui continuent à apprécier le frisson de la représentation des données grâce à la mécanique textuelle de l'affichage tabulaire, le diagramme "tige et feuille" peut également être utile lorsqu'il est utilisé comme élément graphique visuel animé dans un "graphique sparkline".

AGE est arrivé à maturité. Il reste à explorer plus avant avec les algorithmes de calcul plus puissants qui sont maintenant disponibles.

Richard E. Gilder
la source
1
Cet article est bien écrit, mais il ne semble pas avoir de lien avec la question initiale.
Andy W
Je pense que cela répond indirectement mais de manière appropriée à l'intention apparente de la question, @Andy. La faute, le cas échéant, réside dans la question elle-même, qui est ambiguë car elle ne précise pas le sens dans lequel un moyen pourrait être "pire" qu'une médiane. Une bonne réponse doit donc explorer cela et considérer le but de résumer une distribution par âge avec une statistique unique. Ici, cela mène naturellement à une discussion sur ce que "âge" pourrait signifier et sur la pertinence de comparer les distributions par âge.
whuber
3

Je ne pense pas qu'il y ait une bonne raison descriptive pour choisir la médiane sur la moyenne pour la distribution par âge. Il existe un aspect pratique lors de la comparaison des données rapportées.

De nombreux pays déclarent leur population par intervalle d'âge de 5 ans avec le groupe le plus ouvert. Cela pose quelques difficultés pour calculer la moyenne à partir des intervalles, en particulier pour l’intervalle le plus jeune (affecté par les taux de mortalité infantile), le "intervalle" supérieur (quelle est la moyenne d’un "intervalle" de 80+?) Et les intervalles proches supérieurs ( la moyenne de chaque intervalle est généralement inférieure à la moyenne).

Il est beaucoup plus facile d'estimer la médiane en interpolant dans l'intervalle médian, souvent en supposant une distribution par âge plate ou trapézoïdale dans cet intervalle (les taux de mortalité sont relativement faibles autour de l'âge médian, ce qui en fait une approximation plus raisonnable que cela. est pour les jeunes ou les vieux).

Henri
la source
3

Pour donner une réponse utile à la question initiale, nous devons connaître la question sous-jacente. En d'autres termes, "Pourquoi voulez-vous une sorte de statistique résumée comparant la répartition par âge des différents pays?" La médiane pourrait être la plus utile pour certaines questions. La moyenne pourrait être la plus utile pour les autres. Et il y a probablement des questions où "pour cent supérieur (ou inférieur) à un certain âge" serait la statistique la plus utile.

Emil Friedman
la source
2

Vous obtenez de bonnes réponses ici, mais laissez-moi juste ajouter mes 2 centimes. Je travaille dans le domaine de la pharmacométrie, notamment le volume sanguin, le taux d'élimination, l'effet de base du médicament, l'effet maximum du médicament et de tels paramètres.

Nous faisons la distinction entre les variables qui peuvent prendre n'importe quelle valeur plus ou moins, et les valeurs qui ne peuvent être que positives. Un exemple de variable pouvant prendre n'importe quelle valeur, plus ou moins, serait l'effet de drogue, qui pourrait être positif, nul ou négatif. Le volume sanguin ou le taux d'élimination du médicament est un exemple de variable qui ne peut être que positivement réaliste.

Nous modélisons ces choses avec des distributions qui sont généralement normales ou log-normales, normales pour celles à valeur quelconque et log-normales pour les seules positives. Un nombre log-normal est le nombre E pris au pouvoir d'un nombre normalement distribué, c'est pourquoi il ne peut être que positif.

Pour une variable normalement distribuée, la médiane, la moyenne et le mode sont identiques, donc peu importe ce que vous utilisez. Cependant, pour une variable lognormalement distribuée, la moyenne est supérieure à la fois à la médiane et au mode, de sorte qu'elle n'est pas vraiment très utile. En fait, la médiane est le lieu où la normale sous-jacente a sa moyenne, ce qui en fait une mesure beaucoup plus attrayante.

Puisque l'âge (vraisemblablement) ne peut jamais être négatif, une distribution log-normale en est probablement une meilleure description que la normale, de sorte que la médiane (E de la moyenne de la normale sous-jacente) est plus utile.

Mike Dunlavey
la source
5
La distribution de l'âge n'est certainement pas log normale.
Rob Hyndman
1
Je ne pense pas que vous puissiez en déduire que l'âge est log-normalement distribué simplement du fait qu'il est toujours positif. Les distributions gamma et Weibull sont également toujours positives, alors pourquoi ne pas choisir celles-ci?
Nico
@Rob: @nico: Je suis sûr que vous avez raison. C'était un mauvais choix d'exemple. Nous modélisons généralement des paramètres pharmacométriques tels que le volume et la clairance.
Mike Dunlavey
2

On m'a enseigné que la médiane devrait être utilisée avec une plage et une moyenne avec un écart type. Lorsque nous parlons d’âge, je pense que la fourchette est un moyen plus pertinent d’exprimer la propagation et plus facile à comprendre pour la plupart. Par exemple, dans une population d'étude, l'âge moyen était de 53 ans (ET 5,4) ou l'âge médian de 48 ans (extrêmes 23 et 77 ans). Pour cette raison, je préférerais utiliser la médiane plutôt que la moyenne. Mais je serais très intéressé de voir ici ce qu’un statisticien ou un professionnel de la statistique dirait à propos de l’utilisation de la moyenne avec la fourchette? Je le vois pas mal dans les articles scientifiques.

Susanne
la source
Bienvenue sur CV, Susanne. Si vous avez posté ceci dans le but d’obtenir des réponses, supprimez-le et republiez-le en tant que nouvelle question. Des instructions sur l'utilisation de ce site sont disponibles dans notre centre d'aide .
whuber
1

La réponse de John sur math.stackexchange peut être vue comme suit:

Lorsque vous avez une distribution asymétrique, la médiane peut être une meilleure statistique récapitulative que la moyenne.

Notez que lorsqu'il dit qu'il y a plus de nourrissons que d'adultes, il suggère essentiellement que la répartition par âge est une distribution asymétrique.


la source
En fait, je pense qu’aujourd’hui, dans beaucoup de pays, l’aspect biaisé est davantage axé sur les personnes âgées que sur les enfants.
JM n'est pas statisticien le
Peut-être, il est biaisé dans l'autre sens, mais le point général est le même. Pour les distributions asymétriques, une médiane peut avoir plus de sens que la moyenne.
Je viens de mettre à jour ma réponse sur math.stackexchange pour souligner ce point. Les gens recherchent la symétrie et peuvent imposer une symétrie incorrecte quand elle n’y est pas. Lorsque vous déclarez la médiane, vous donnez une réponse symétrique - la médiane divise la population en deux - même si la distribution n’est pas symétrique.
John D. Cook
Cette réponse me semble toujours quelque peu furtive: lorsque les distributions ne sont pas asymétriques (c’est-à-dire qu’elles sont symétriques), la moyenne est égale à la médiane. la médiane "
Alexis
1

J'espère que l'âge moyen sera influencé par les valeurs aberrantes de votre ensemble de données, alors que ce n'est pas le cas pour un âge médian. Prenons un exemple d'un ensemble de données sur les patients vaccinés: 1,2,3,4,4,5,6,6,6,78 ans, la moyenne serait: 11,5 ans et l'âge médian de ces patients est de 4,5 ans. La moyenne médiane est la meilleure quand on traite avec des ensembles de données de la distribution asymétrique.

Eustache
la source
Voir ma réponse à User28.
Alexis
0

Certes, dans le cas de l'analyse démographique, je penserais que la moyenne et la médiane seraient utiles, surtout si elles sont combinées les unes avec les autres, si vous recherchez des valeurs aberrantes ou des zones de croissance susceptibles d'être mal étiquetées par la médiane. Dans les communautés comptant une grande communauté de retraités ou dans une région où le taux de natalité est en forte hausse, la médiane seule peut ne pas vous donner une image complète et c’est là que la moyenne, en comparaison, peut être très utile.

Matt L.
la source