- Si vous regardez Wolfram Alpha
- Ou cette page Wikipedia Liste des pays par âge médian
Clairement, la médiane semble être la statistique de choix en ce qui concerne les âges.
Je ne suis pas capable de m'expliquer pourquoi la moyenne arithmétique serait une statistique pire. Pourquoi est-ce?
Initialement posté ici parce que je ne savais pas que ce site existait.
Réponses:
Les statistiques ne fournissent pas une bonne réponse à cette question, à mon avis. Une moyenne peut être pertinente dans les études de mortalité, par exemple, mais les âges ne sont pas aussi faciles à mesurer que vous pourriez le penser. Les personnes âgées, les illettrés et les habitants de certains pays du tiers monde ont par exemple tendance à arrondir leur âge à un multiple de 5 ou 10.
La médiane est plus résistante à ces erreurs que la moyenne. De plus, les âges médians sont généralement de 20 à 40 ans, mais les personnes peuvent vivre jusqu'à 100 ans et plus (une proportion croissante et notable de la population des pays modernes vit maintenant au-delà de 100 ans). Les personnes de cet âge ont 1,5 à 4 fois plus d'influence sur la moyenne que sur la médiane par rapport aux personnes très jeunes. Ainsi, la médiane est une statistique un peu plus à jour concernant la répartition par âge d'un pays et est un peu plus indépendante des taux de mortalité et de l'espérance de vie que la moyenne.
Enfin, la médiane nous donne une image légèrement meilleure de la répartition par âge elle-même: quand vous voyez une médiane de 35 ans, par exemple, vous savez que la moitié de la population a plus de 35 ans et que vous pouvez en déduire certaines choses à propos du taux de natalité, l'âge des parents, etc. mais si la moyenne est de 35 ans, vous ne pouvez pas en dire autant, car cette population pourrait être influencée par un fort gonflement de la population à 70 ans, par exemple, ou peut-être par un fossé démographique dans une tranche d'âge en raison d'une guerre ancienne ou d'une épidémie.
Ainsi, pour des raisons démographiques et non statistiques, une médiane apparaît plus digne du rôle d'une valeur omnibus pour résumer les âges de populations relativement importantes.
la source
John vous a donné une bonne réponse sur le site de la soeur.
L'un des aspects qu'il n'a pas explicitement mentionnés est la robustesse: la médiane, en tant que mesure de la position centrale, fait mieux que la moyenne, car son point de rupture est supérieur (50%), tandis que la moyenne est très basse, 0 (voir wikipedia pour plus de détails). ).
Intuitivement, cela signifie que les mauvaises observations individuelles ne biaisent pas la médiane, alors qu'elles le font pour la moyenne.
la source
Voici ma réponse d'abord posté sur math.stackexchange:
La médiane est ce que beaucoup de gens pensent réellement quand ils disent "méchant". Il est plus facile d'interpréter la médiane: la moitié de la population a plus de cet âge et l'autre moitié est en dessous. La moyenne est un peu plus subtile.
Les gens recherchent la symétrie et l’imposent parfois quand il n’y en a pas. La répartition par âge dans une population est loin d'être symétrique, de sorte que la moyenne pourrait être trompeuse. Les distributions par âge ressemblent à une pyramide. Beaucoup d'enfants, pas beaucoup de personnes âgées. (Ou du moins c'est comme cela que les choses se passent. Aux États-Unis, la génération du baby-boom d'après-guerre a déformé cette répartition à mesure qu'elle vieillit. sommet de la pyramide plus large que par le passé.)
Avec une distribution asymétrique, il peut être préférable de déclarer la médiane car il s’agit d’une statistique symétrique. La médiane est symétrique même si la distribution d'échantillonnage ne l'est pas.
la source
Pourquoi une hache est-elle meilleure qu'une hachette?
Cela ressemble à votre question. Ils veulent juste dire et font des choses différentes. Si l’on parle de médianes, l’histoire qu’elles essaient de raconter, le modèle qu’elles essaient d’appliquer aux données, est différent de celui qui a des moyens.
la source
Pour un exemple concret, considérons les âges moyens du Congo (RDC) et du Japon. L'un est dévasté par la guerre civile, l'autre est bien développé avec une population vieillissante. La moyenne n'est pas très intéressante pour une comparaison de pommes à pommes. D'autre part, la médiane peut être informative en tant que mesure de la tendance centrale puisque, par définition, nous avons la moitié supérieure, la moitié inférieure. L'article de Wikipédia sur la pyramide des âges pourrait être instructif (voir les sections sur le gonflement de la jeunesse et le vieillissement de la population).
la source
Aux États-Unis, les référentiels de données sur la santé publique s'acheminent vers un format d'année échelonné sur cinq ans, en raison de l'impact de la réglementation HIPAA concernant l'aveuglement et le masquage intentionnels de données pour des raisons de confidentialité.
Compte tenu du défi posé par ce qui était dans le passé (avant HIPAA), un élément de données de niveau de mesure assez proportionnel basé sur la différence entre la date de naissance et la date de décès, il peut être nécessaire de reconsidérer AGE en tant que variable d'échelle pouvant être décrit paramétriquement du tout dans les ensembles de données de santé publique, en faveur des modèles décrivant AGE de manière non paramétrique, en tant que niveau de mesure ordinal. Je sais que cela peut paraître "exagéré" pour de nombreuses factions au sein de la communauté informatique biomédicale, mais cette idée peut avoir un certain mérite en termes d '"interprétation" comme décrit dans les commentaires ci-dessus.
Qu'en est-il de tout le pouvoir analytique disponible pour les approches non paramétriques? Oui, il est vrai que chacun d’entre nous essaiera presque universellement d’appliquer les techniques GLM (modèle linéaire général) à une variable qui se présente à nous dans des distributions qui se comportent comme AGE.
Dans le même temps, il convient de prendre en compte la forme de cette distribution et la manière dont cette forme est déterminée par les effets d'interaction de plusieurs dimensions sur les centroïdes multidimensionnels et les centroïdes de sous-groupes présents dans la distribution. Que faire avec ces ensembles de données très complexes?
Lorsqu'un élément de données ne répond pas aux "hypothèses du modèle", nous balayons progressivement (j'ai dit dans l'ensemble, pas dans le bas; nous devrions être des employeurs de la méthode de l'égalité des chances, chaque outil provient de l'usine avec des règles de formulaire suivant la fonction) la liste d’autres modèles possibles pour trouver ceux qui «n’échouent pas» aux tests d’hypothèses.
Dans le format actuel des ensembles de données de santé publique, nous avons vraiment besoin (en tant que communauté de visualisation de données) de mettre au point un modèle plus standard de traitement de l’âge par tranche de cinq ans (5YI). Mon vote pour la visualisation des données de AGE (étant donné le nouveau format 5YI) consiste à utiliser des histogrammes et des diagrammes à boîtes et à moustaches. Oui, cela signifie la médiane. (Sans jeu de mots!)
Parfois, une image vaut vraiment mille mots, et un résumé est un résumé de mille mots. Le graphique en boîtes et moustaches montre la "forme" de la distribution en tant que représentation symbolique significative de l'histogramme à un niveau de résolution presque emblématique. Comparer les répartitions par tranches d’âge de cinq ans en affichant des tracés de boîtes à coques et de moustaches "côte à côte" permettant de comparer visuellement les motifs du 75e au le monde. Pour ceux d'entre nous qui continuent à apprécier le frisson de la représentation des données grâce à la mécanique textuelle de l'affichage tabulaire, le diagramme "tige et feuille" peut également être utile lorsqu'il est utilisé comme élément graphique visuel animé dans un "graphique sparkline".
AGE est arrivé à maturité. Il reste à explorer plus avant avec les algorithmes de calcul plus puissants qui sont maintenant disponibles.
la source
Je ne pense pas qu'il y ait une bonne raison descriptive pour choisir la médiane sur la moyenne pour la distribution par âge. Il existe un aspect pratique lors de la comparaison des données rapportées.
De nombreux pays déclarent leur population par intervalle d'âge de 5 ans avec le groupe le plus ouvert. Cela pose quelques difficultés pour calculer la moyenne à partir des intervalles, en particulier pour l’intervalle le plus jeune (affecté par les taux de mortalité infantile), le "intervalle" supérieur (quelle est la moyenne d’un "intervalle" de 80+?) Et les intervalles proches supérieurs ( la moyenne de chaque intervalle est généralement inférieure à la moyenne).
Il est beaucoup plus facile d'estimer la médiane en interpolant dans l'intervalle médian, souvent en supposant une distribution par âge plate ou trapézoïdale dans cet intervalle (les taux de mortalité sont relativement faibles autour de l'âge médian, ce qui en fait une approximation plus raisonnable que cela. est pour les jeunes ou les vieux).
la source
Pour donner une réponse utile à la question initiale, nous devons connaître la question sous-jacente. En d'autres termes, "Pourquoi voulez-vous une sorte de statistique résumée comparant la répartition par âge des différents pays?" La médiane pourrait être la plus utile pour certaines questions. La moyenne pourrait être la plus utile pour les autres. Et il y a probablement des questions où "pour cent supérieur (ou inférieur) à un certain âge" serait la statistique la plus utile.
la source
Vous obtenez de bonnes réponses ici, mais laissez-moi juste ajouter mes 2 centimes. Je travaille dans le domaine de la pharmacométrie, notamment le volume sanguin, le taux d'élimination, l'effet de base du médicament, l'effet maximum du médicament et de tels paramètres.
Nous faisons la distinction entre les variables qui peuvent prendre n'importe quelle valeur plus ou moins, et les valeurs qui ne peuvent être que positives. Un exemple de variable pouvant prendre n'importe quelle valeur, plus ou moins, serait l'effet de drogue, qui pourrait être positif, nul ou négatif. Le volume sanguin ou le taux d'élimination du médicament est un exemple de variable qui ne peut être que positivement réaliste.
Nous modélisons ces choses avec des distributions qui sont généralement normales ou log-normales, normales pour celles à valeur quelconque et log-normales pour les seules positives. Un nombre log-normal est le nombre E pris au pouvoir d'un nombre normalement distribué, c'est pourquoi il ne peut être que positif.
Pour une variable normalement distribuée, la médiane, la moyenne et le mode sont identiques, donc peu importe ce que vous utilisez. Cependant, pour une variable lognormalement distribuée, la moyenne est supérieure à la fois à la médiane et au mode, de sorte qu'elle n'est pas vraiment très utile. En fait, la médiane est le lieu où la normale sous-jacente a sa moyenne, ce qui en fait une mesure beaucoup plus attrayante.
Puisque l'âge (vraisemblablement) ne peut jamais être négatif, une distribution log-normale en est probablement une meilleure description que la normale, de sorte que la médiane (E de la moyenne de la normale sous-jacente) est plus utile.
la source
On m'a enseigné que la médiane devrait être utilisée avec une plage et une moyenne avec un écart type. Lorsque nous parlons d’âge, je pense que la fourchette est un moyen plus pertinent d’exprimer la propagation et plus facile à comprendre pour la plupart. Par exemple, dans une population d'étude, l'âge moyen était de 53 ans (ET 5,4) ou l'âge médian de 48 ans (extrêmes 23 et 77 ans). Pour cette raison, je préférerais utiliser la médiane plutôt que la moyenne. Mais je serais très intéressé de voir ici ce qu’un statisticien ou un professionnel de la statistique dirait à propos de l’utilisation de la moyenne avec la fourchette? Je le vois pas mal dans les articles scientifiques.
la source
La réponse de John sur math.stackexchange peut être vue comme suit:
Notez que lorsqu'il dit qu'il y a plus de nourrissons que d'adultes, il suggère essentiellement que la répartition par âge est une distribution asymétrique.
la source
J'espère que l'âge moyen sera influencé par les valeurs aberrantes de votre ensemble de données, alors que ce n'est pas le cas pour un âge médian. Prenons un exemple d'un ensemble de données sur les patients vaccinés: 1,2,3,4,4,5,6,6,6,78 ans, la moyenne serait: 11,5 ans et l'âge médian de ces patients est de 4,5 ans. La moyenne médiane est la meilleure quand on traite avec des ensembles de données de la distribution asymétrique.
la source
Certes, dans le cas de l'analyse démographique, je penserais que la moyenne et la médiane seraient utiles, surtout si elles sont combinées les unes avec les autres, si vous recherchez des valeurs aberrantes ou des zones de croissance susceptibles d'être mal étiquetées par la médiane. Dans les communautés comptant une grande communauté de retraités ou dans une région où le taux de natalité est en forte hausse, la médiane seule peut ne pas vous donner une image complète et c’est là que la moyenne, en comparaison, peut être très utile.
la source