On sait que la médiane résiste aux valeurs aberrantes. Si tel est le cas, quand et pourquoi utiliserions-nous la moyenne en premier lieu?
Une chose à laquelle je peux penser est peut-être de comprendre la présence de valeurs aberrantes, c’est-à-dire que si la médiane est loin de la moyenne, la distribution est alors faussée et il faut peut-être examiner les données pour décider de ce qui doit être fait avec les valeurs aberrantes. Y a-t-il d'autres utilisations?
mathematical-statistics
mean
median
Légende
la source
la source
Réponses:
Dans un sens, la moyenne est utilisée car elle est sensible aux données. Si la distribution est symétrique et que les queues ressemblent à la distribution normale, la moyenne est un résumé très efficace de la tendance centrale. La médiane, tout en étant robuste et bien définie pour toute distribution continue, n’est que aussi efficace que la moyenne si les données provenaient d’une distribution normale. C'est cette relative inefficacité de la médiane qui nous empêche de l'utiliser encore plus que nous ne le faisons. L'inefficacité relative se traduit par une inefficacité absolue mineure à mesure que la taille de l'échantillon augmente , de sorte que pour un grand nous pouvons être plus sûrs d'utiliser la médiane. n2π n
Il est intéressant de noter que pour une mesure de la variation (étendue, dispersion), il existe un estimateur très robuste qui est aussi efficace que l’écart type, à savoir la différence moyenne de Gini. C'est la différence absolue moyenne entre deux observations quelconques. [Vous devez multiplier l'écart type de l'échantillon par une constante pour estimer la même quantité estimée par la différence moyenne de Gini.] L'estimateur de Hodges-Lehmann, c’est-à-dire la médiane de toutes les moyennes paires, est une mesure efficace de la tendance centrale. Nous l'utiliserions davantage si son interprétation était plus simple.
la source
w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2
. Un programme trivial de C, Fortran ou Ratfor pourrait être appelé par R pour le rendre fulgurant. Le paquet ICSNP dans R a une implémentation assez efficace avec sahl.loc
fonction. Pour N = 5000, il était 2,66 fois plus rapide que le code ci-dessus (temps total 1,5 secondes). Ce serait bien d’obtenir également un intervalle de confiance de manière efficace.Déjà beaucoup de bonnes réponses, mais, prenant du recul et obtenant un peu plus de base, je dirais que c'est parce que la réponse que vous obtenez dépend de la question que vous posez. La moyenne et la médiane répondent à différentes questions - parfois l'une est appropriée, parfois l'autre.
Il est simple de dire que la médiane doit être utilisée lorsqu'il y a des valeurs aberrantes, des distributions asymétriques ou autres. Mais ce n'est pas toujours le cas. Prenez le revenu - presque toujours rapporté avec la médiane, et généralement c'est vrai. Mais si vous examinez le pouvoir de dépenser de toute une communauté, cela n’est peut-être pas juste. Et dans certains cas, même le mode peut être meilleur (surtout si les données sont groupées).
la source
Quand une valeur est pour nous un déchet, nous l’appelons "inhabituelle" et voulons que l’analyse lui soit résistante (et préfère la médiane); lorsque cette même valeur est attrayante, nous l'appelons "extrême" et souhaitons que l'analyse y soit sensible (et préfère la moyenne). Dialectique...
La moyenne réagit également à un décalage de valeur, quel que soit le lieu dans lequel la répartition a lieu. Par exemple, dans
1 2 3 4 5
vous pouvez augmenter n'importe quelle valeur de 2 - l'augmentation de la moyenne sera la même. La réaction de la médiane est moins "cohérente": ajoutez 2 aux points de données 4 ou 5 et la médiane n'augmentera pas; mais ajoutez 2 au point 2 - pour que le décalage se situe au - dessus de la médiane et que celle-ci change radicalement (beaucoup plus que la moyenne ne changera).La moyenne est toujours exactement localisée. La médiane n'est pas; par exemple,
1 2 3 4
toute valeur comprise entre 2 et 3 peut être appelée médiane. Ainsi, les analyses basées sur les médianes ne constituent pas toujours une solution unique.La moyenne est un lieu de déviation minimale de la somme des carrés. De nombreuses tâches d'optimisation basées sur l'algèbre linéaire (y compris la célèbre régression OLS) minimisent cette erreur carrée et impliquent donc le concept de moyenne. La médiane est un lieu de déviation minimale de la somme des absolus. Les techniques d'optimisation visant à minimiser cette erreur sont non linéaires et plus complexes / mal connues.
la source
Il y a beaucoup de réponses à cette question. En voici une que vous ne verrez probablement pas ailleurs, alors je l'inclue ici car je pense que c'est pertinent pour le sujet. Les gens croient souvent que parce que la médiane est considérée comme une mesure robuste en ce qui concerne les valeurs aberrantes, elle est également robuste pour la plupart des choses. En fait, il est également jugé robuste de biaiser les distributions asymétriques. Ces deux propriétés robustes de la médiane sont souvent enseignées ensemble. On peut noter que les distributions asymétriques sous-jacentes ont également tendance à générer de petits échantillons qui semblent être des valeurs aberrantes et la sagesse conventionnelle est de pouvoir utiliser les médianes dans de telles situations.
(juste une démonstration que ceci est biaisé et la forme de base)
Voyons maintenant ce qui se passe si nous échantillonnons dans cette distribution diverses tailles d’échantillons et calculons la médiane et les moyens de voir quelles sont leurs différences.
Comme on peut le voir sur le graphique ci-dessus, la médiane (en rouge) est beaucoup plus sensible au n que la moyenne. Ceci est contraire à certaines idées reçues concernant l’utilisation de médianes avec un faible ns, en particulier si la distribution peut être faussée. Et, cela renforce le point que la moyenne est une valeur connue alors que la médiane est sensible à d'autres propriétés, l'une si n étant.
Cette analyse est similaire à celle de Miller, J. (1988). Un avertissement sur le temps de réaction médian. Journal of Experimental Psychology: Perception et performance humaines , 14 (3): 539–543.
RÉVISION
Après avoir réfléchi au problème de l’asymétrie, j’ai estimé que l’impact sur la médiane pourrait être simplement dû au fait que, dans les petits échantillons, il est plus probable que la médiane se trouve dans la queue de la distribution, alors que la moyenne sera presque toujours pondérée par des valeurs plus proches de la mode. Par conséquent, si l’on échantillonnait simplement avec une probabilité de valeurs aberrantes, on obtiendrait peut-être les mêmes résultats.
J'ai donc pensé aux situations dans lesquelles des valeurs aberrantes peuvent se produire et dans lesquelles des expérimentateurs peuvent tenter de les éliminer.
Si des valeurs aberrantes se produisent régulièrement, par exemple une fois sur un échantillon de données, les médianes sont robustes face à l’effet de cette valeur aberrante et à l’histoire classique de l’utilisation des médianes.
Mais ce n'est généralement pas ainsi que les choses se passent.
On peut trouver une valeur aberrante dans très peu de cellules d'une expérience et décider d'utiliser la médiane plutôt que la moyenne dans ce cas. Encore une fois, la médiane est plus robuste, mais son impact réel est relativement faible car il y a très peu de valeurs aberrantes. Ce serait certainement un cas plus courant que celui ci-dessus, mais l’effet de l’utilisation d’une médiane serait probablement si faible que cela n’aurait pas beaucoup d’importance.
Peut-être plus communément des valeurs aberrantes pourraient être une composante aléatoire des données. Par exemple, la moyenne réelle et l'écart type de la population peuvent être d'environ 0 mais il y a un pourcentage du temps que nous échantillonnons d'une population aberrante où la moyenne est de 3. Considérez la simulation suivante, dans laquelle une telle population est échantillonnée en faisant varier l'échantillon Taille.
La médiane est en rouge et la moyenne en noir. Ceci est une conclusion similaire à celle d'une distribution asymétrique.
Dans un exemple relativement pratique d'utilisation des médianes pour éviter les effets des valeurs aberrantes, on peut trouver des situations où l'estimation est affectée par n beaucoup plus lorsque la médiane est utilisée que lorsque la moyenne est utilisée.
la source
À partir de la moyenne, il est facile de calculer la somme sur tous les éléments. Par exemple, si vous connaissez le revenu moyen et la taille de la population, vous pouvez immédiatement calculer le revenu total de la population entière.
La moyenne est simple à calculer en
O(n)
complexité temporelle. Calculer la médiane en temps linéaire est possible mais nécessite plus de réflexion. La solution évidente nécessitant un tri est plusO(n log n)
complexe en temps ( ).Et je suppose qu'il y a une autre raison pour que la moyenne soit plus populaire que la médiane:
la source
"On sait que la médiane est résistante aux valeurs aberrantes. Si tel est le cas, quand et pourquoi utiliserions-nous la moyenne en premier lieu?"
Dans les cas où l'on sait qu'il n'y a pas de valeurs aberrantes, par exemple quand on connaît le processus de génération de données (par exemple en statistique mathématique).
Il convient de souligner le trivial, que ces deux quantités (moyenne et médiane) ne mesurent pas la même chose et que la plupart des utilisateurs demandent la première lorsque ce qu’ils devraient réellement s'intéresser à la dernière (ce point est bien illustré par tests de Wilcoxon basés sur la médiane qui sont plus facilement interprétés que les tests t).
Ensuite, il y a les cas où, pour une raison fortuite ou une autre, une réglementation impose l'utilisation de la méchanceté.
la source
Si l'inquiétude concerne la présence de personnes aberrantes, il existe des moyens simples de vérifier vos données.
Les valeurs aberrantes, presque par définition, entrent dans nos données lorsque quelque chose change, que ce soit dans le processus de génération des données ou dans le processus de collecte des données. c'est-à-dire que les données cessent d'être homogènes. Si vos données ne sont pas homogènes, ni la moyenne ni la médiane n’ont alors plus de sens, car vous essayez d’estimer la tendance centrale de deux ensembles de données séparés qui ont été mélangés.
La meilleure méthode pour assurer l'homogénéité consiste à examiner les processus de génération et de collecte de données pour vous assurer que toutes vos données proviennent d'un seul ensemble de processus. Rien ne vaut un petit pouvoir cérébral, ici.
À titre de vérification secondaire, vous pouvez utiliser l'un des nombreux tests statistiques: le khi-carré, le test Q de Dixon, le test de Grubb ou le diagramme de contrôle / comportement (en règle générale, X-bar R ou XmR). D'après mon expérience, lorsque vos données peuvent être ordonnées telles qu'elles ont été collectées, les diagrammes de comportement des processus détectent mieux les valeurs aberrantes que les tests des valeurs aberrantes. Cette utilisation des graphiques peut être quelque peu controversée, mais je pense que cela est tout à fait conforme à l'intention initiale de Shewhart et c'est une utilisation explicitement préconisée par Donald Wheeler. Que vous utilisiez les tests des valeurs aberrantes ou les tableaux de comportement du processus, rappelez-vous qu'une "valeur aberrante" détectée est simplement un signal de potentiella non-homogénéité qui doit encore être examinée. Il est rarement logique de jeter des points de données si vous ne pouvez pas expliquer pourquoi ils étaient des valeurs aberrantes.
Si vous utilisez R, le package outliers fournit les tests des valeurs aberrantes. Pour les diagrammes de comportement des processus, il existe qcc , IQCC et qAnalyst. J'ai une préférence personnelle pour l'utilisation et la sortie du paquet qcc.
la source
Quand pourriez-vous vouloir le moyen?
Exemples de la finance:
Lors de la constitution d'un portefeuille diversifié, en décidant dans quoi investir et dans quel montant, la moyenne et la covariance des rendements sont susceptibles de jouer un rôle de premier plan dans votre problème d'optimisation.
la source