Souvent, les textes introductifs de statistiques appliquées distinguent la moyenne de la médiane (souvent dans le contexte des statistiques descriptives et motivent la synthèse de la tendance centrale en utilisant la moyenne, la médiane et le mode) en expliquant que la moyenne est sensible aux valeurs aberrantes dans les données d'échantillonnage et / ou à des distributions asymétriques de la population, ce qui est utilisé pour justifier une affirmation selon laquelle la médiane doit être préférée lorsque les données ne sont pas symétriques.
Par exemple:
La meilleure mesure de la tendance centrale pour un ensemble de données donné dépend souvent de la façon dont les valeurs sont réparties ... Lorsque les données ne sont pas symétriques, la médiane est souvent la meilleure mesure de la tendance centrale. Parce que la moyenne est sensible aux observations extrêmes, elle est tirée dans le sens des valeurs des données périphériques et, par conséquent, pourrait finir par se gonfler ou se dégonfler excessivement. "-
Pagano et Gauvreau, (2000) Principles of Biostatistics , 2e éd. (P&G était à portée de main, BTW, ne les distinguait pas en soi .)
Les auteurs définissent ainsi la «tendance centrale»: «La caractéristique la plus étudiée d'un ensemble de données est son centre, ou le point autour duquel les observations ont tendance à se regrouper».
Cela me semble être une façon moins que directe de dire n'utiliser que la médiane, point , car utiliser uniquement la moyenne lorsque les données / distributions sont symétriques revient à dire n'utiliser la moyenne que lorsqu'elle est égale à la médiane. Edit: whuber souligne à juste titre que je confond des mesures robustes de tendance centrale avec la médiane. Il est donc important de garder à l'esprit que je discute du cadrage spécifique de la moyenne arithmétique par rapport à la médiane dans les statistiques appliquées introductives (où, à part le mode, d'autres mesures de tendance centrale ne sont pas motivées).
Plutôt que de juger de l'utilité de la moyenne en fonction de son écart par rapport au comportement de la médiane, ne devrions-nous pas simplement les comprendre comme deux mesures différentes de la centralité? En d'autres termes, être sensible à l'asymétrie est une caractéristique de la moyenne. On pourrait tout aussi bien soutenir que "la médiane n'est pas bonne parce qu'elle est largement insensible à l'asymétrie, alors ne l'utilisez que lorsqu'elle est égale à la moyenne".
(Le mode ne se sent pas assez impliqué dans cette question.)
Réponses:
Je ne suis pas d'accord avec le conseil comme règle catégorique. (Ce n'est pas commun à tous les livres.)
Les problèmes sont plus subtils.
Si vous êtes réellement intéressé à faire des inférences sur la moyenne de la population, la moyenne de l'échantillon est au moins un estimateur non biaisé de celle-ci, et présente un certain nombre d'autres avantages. En fait, voir le théorème de Gauss-Markov - c'est le meilleur biais linéaire.
Si vos variables sont fortement asymétriques, le problème vient avec `` linéaire '' - dans certaines situations, tous les estimateurs linéaires peuvent être mauvais, donc les meilleurs d'entre eux peuvent toujours ne pas être attrayants, donc un estimateur de la moyenne qui n'est pas linéaire peut être meilleur , mais cela nécessiterait de connaître quelque chose (ou même beaucoup) sur la distribution. Nous n'avons pas toujours ce luxe.
Si vous n'êtes pas nécessairement intéressé par l'inférence relative à une moyenne de population (" quel est un âge typique? ", Disons ou s'il y a un changement de localisation plus général d'une population à une autre, qui pourrait être formulé en termes de n'importe quel emplacement, ou même d'un test d'une variable étant stochastiquement plus grande qu'une autre), en exprimant ensuite qu'en termes de population la moyenne n'est pas nécessaire ou probablement contre-productive (dans le dernier cas).
Je pense donc que cela revient à penser à:
quelles sont vos vraies questions? La population est-elle même une bonne chose à poser dans cette situation?
quelle est la meilleure façon de répondre à la question étant donné la situation (asymétrie dans ce cas)? Utiliser l'échantillon signifie-t-il la meilleure approche pour répondre à nos questions d'intérêt?
Il se peut que vous ayez des questions qui ne portent pas directement sur les moyennes de population, mais néanmoins les moyennes d'échantillonnage sont un bon moyen d'examiner ces questions ... ou vice versa - la question pourrait concerner les moyennes de population mais les moyennes d'échantillonnage pourraient ne pas être le meilleur moyen répondez à cette question.
la source
Dans la vraie vie, nous devons choisir une mesure de tendance centrale basée sur ce que nous essayons de découvrir; et oui, parfois le mode est la bonne chose à utiliser. Parfois, c'est la moyenne Winsored ou Trimmed. Parfois, la moyenne géométrique ou harmonique. Parfois, il n'y a pas de bonne mesure de la tendance centrale.
Les livres d'introduction sont mal écrits, ils enseignent qu'il y a des règles de livre de cuisine à appliquer.
Prenez un revenu. Ceci est souvent très asymétrique et a parfois des valeurs aberrantes; bien sûr, nous voyons généralement un «revenu médian». Mais parfois, les valeurs aberrantes et l'asymétrie sont importantes. Cela dépend du contexte et nécessite une réflexion.
J'en ai écrit plus à ce sujet
la source
Même lorsque les données sont biaisées (par exemple, les coûts des soins de santé calculés parallèlement à un essai clinique, où peu de patients ont coûté zéro parce qu'ils meurent juste après l'inscription, et peu de patients ont accumulé des tonnes de coûts en raison des effets secondaires d'un programme de soins de santé donné sous enquête ), la moyenne peut être préférée à la médiane pour au moins une raison pratique: la multiplication du coût moyen du nombre de patients donne aux décideurs des soins de santé l'impact budgétaire de la technologie des soins de santé à l'étude.
la source
Je pense que ce qui manque à la question ainsi qu'aux deux réponses jusqu'à présent, c'est que la discussion de la moyenne par rapport à la médiane dans les livres de statistiques d'introduction se produit généralement au début d'un chapitre sur la façon de résumer numériquement une distribution. Contrairement aux statistiques inférentielles, il s'agit généralement de produire des statistiques descriptives qui seraient un moyen utile de transmettre des informations sur la distribution des données numériquement plutôt que graphiquement. Le contexte dans lequel cela se produit est la section des statistiques descriptives d'un rapport ou d'un article de journal dans laquelle il n'y a généralement pas de place pour les résumés graphiques de toutes les variables de votre ensemble de données. Si la distribution est asymétrique, il semble judicieux dans ce contexte de choisir la médiane plutôt que la moyenne. Si la distribution est symétrique sans valeurs aberrantes,
la source