Pourquoi les tests d'hypothèses de base portent-ils sur la moyenne et non sur la médiane?

32

Dans les cours de statistiques de base pour les étudiants du premier cycle, on apprend (généralement?) À tester des hypothèses pour la moyenne d'une population.
Pourquoi se concentre-t-il sur la moyenne et non sur la médiane? Mon hypothèse est qu'il est plus facile de tester la moyenne en raison du théorème de la limite centrale, mais j'aimerais lire des explications éclairées.

nafrtiti
la source
3
La moyenne a des propriétés utiles pour l'unicité, le calcul et le calcul. Il est souvent lié aux statistiques suffisantes.
Henry

Réponses:

40

Parce qu'Alan Turing est né après Ronald Fisher.

Auparavant, avant les ordinateurs, tout cela devait être fait à la main ou, au mieux, avec ce que nous appellerions maintenant des calculatrices. Les tests de comparaison des moyennes peuvent être effectués de cette façon - c'est laborieux, mais possible. Des tests pour les quantiles (tels que la médiane) seraient quasiment impossibles à faire de cette façon.

Par exemple, la régression quantile repose sur la minimisation d'une fonction relativement compliquée. Cela ne serait pas possible manuellement. C'est possible avec la programmation. Voir par exemple Koenker ou Wikipedia .

La régression quantile a moins d'hypothèses que la régression MLS et fournit plus d'informations.

Peter Flom - Rétablir Monica
la source
6
À cette époque, les ordinateurs existaient, mais ils signifiaient quelque chose de très différent de ce que nous entendons par là.
Maarten Buis
6
Effectivement! Les ordinateurs étaient des personnes qui faisaient les calculs.
Peter Flom - Rétablir Monica
2
@nafrtiti Le programme change, mais lentement. Il y a beaucoup de progrès à franchir et les personnes extérieures aux statistiques ne sont pas habituées aux nouvelles idées et peuvent donc les rejeter.
Peter Flom - Réintégrer Monica
3
@SunQingyao Le tri coûte beaucoup plus cher que l'ajout. L'ajout est O (n) et c'est l'une des opérations les plus élémentaires du matériel et ne nécessite qu'un seul registre. En plus de cela, tout ce que j'ai besoin de savoir, c'est le total et le nombre d'éléments pour obtenir plus de données et calculer la nouvelle moyenne. Afin de calculer la médiane, j'ai besoin de l'ensemble complet
JimmyJames
3
Avec Quick select (et en utilisant median-of-5 pour sélectionner pivot si les mauvais pivots sont choisis de manière aléatoire), vous pouvez trouver un quantile dans O (N), ce qui réduit l'écart entre la médiane et la moyenne. Bien sûr, vous devez savoir que de telles méthodes existent (ce qui était inconnu même à l’époque Turings).
Surt
22

Je voudrais ajouter une troisième raison aux bonnes raisons données par Harrell et Flom. La raison en est que nous utilisons la distance euclidienne (ou L2) et non la distance de Manhattan (ou L1) comme mesure standard de proximité ou d'erreur. Si on a un nombre de points de données et qu'on veut un nombre unique θ pour l'estimation, une notion évidente est de trouver le nombre qui minimise «l'erreur», ce nombre crée la plus petite différence entre le nombre choisi et les nombres qui constituent les données. Dans la notation mathématique, une fonction d'erreur donnée E, on veut trouver m i n θ R ( E ( θ ,x1,xnθ . Si on prend pour E (x, y) la norme ou distance L2, c'est-à-dire que E ( x , y ) = ( x - y ) 2, le minimiseur sur tout θ R est la moyenne. Si on prend la distance L1 ou Manhattan, le minimiseur sur tousminθR(E(θ,x1,xn)=minθR(i=1i=nE(θ,xi))E(x,y)=(xy)2θR est la médiane. Ainsi, la moyenne est le choix mathématique naturel - si l’on utilise la distance L2!θR

Aginensky
la source
6
Étant donné que est largement utilisé pour désigner une attente , je suggère de remplacer E par, par exemple, Err . EEErr
Richard Hardy
3
x2x=0|x|
1
@Just_to_Answer - Je pense que c'est encore une autre raison. J'ai beaucoup réfléchi à cela au fil des ans. Pour moi, j'ai conclu que ce que vous dites est lié à la raison pour laquelle nous utilisons généralement la distance euclidienne et non pas Manhattan :)
aginensky
19

Souvent, la moyenne est choisie par rapport à la médiane non pas parce qu'elle est plus représentative, robuste ou significative, mais parce que les gens confondent estimateur avec estimand. En d'autres termes, certains choisissent la moyenne de la population comme quantité d'intérêt car avec une distribution normale, la moyenne de l' échantillon est plus précise que la médiane de l'échantillon. Au lieu de cela, ils devraient réfléchir davantage, comme vous l'avez fait, à la véritable quantité d'intérêt.

Barre latérale: nous avons un intervalle de confiance non paramétrique pour la médiane de la population, mais il n’existe pas de méthode non paramétrique (autre que peut-être la méthode de la vraisemblance empirique intensive) pour obtenir un intervalle de confiance de la moyenne de la population. Si vous voulez rester sans distribution, vous pouvez vous concentrer sur la médiane.

Notez que le théorème de la limite centrale est beaucoup moins utile qu'il n'y parait, comme cela a été discuté ailleurs sur ce site. Il suppose effectivement que la variance est connue ou que la distribution est symétrique et a une forme telle que la variance de l'échantillon constitue un estimateur concurrentiel de la dispersion.

Frank Harrell
la source
2
Je pense qu'il est possible de construire un intervalle de confiance non paramétrique pour la moyenne, par exemple via un test de permutation (ceci peut être fait sous une hypothèse de symétrie sans prendre de forme fonctionnelle spécifique, par exemple). C'est une situation quelque peu restreinte, bien que cela soit également possible sous d'autres hypothèses que la symétrie. Si vous êtes prêt à traiter avec la couverture approximative fournie avec l'amorçage, vous pouvez obtenir des intervalles non paramétriques sans hypothèses telles que la symétrie.
Glen_b -Reinstate Monica Le
2
Si cela suppose une symétrie, il est paramétrique. Je n'ai pas vu cela étendu aux cas non symétriques. Le bootstrap (toutes les variantes sauf peut-être la méthode t studentisée) est extrêmement imprécis sous une asymétrie grave. Voir stats.stackexchange.com/questions/186957
Frank Harrell
5
La symétrie n'est pas paramétrique finie. Un test de rang signé par Wilcoxon suppose une symétrie (afin d’avoir une exportabilité des signes) sous le zéro. Tu appellerais ça paramétrique?
Glen_b -Reinstate Monica
2
Sur la question @Glen_b sur la symétrie, c’est une excellente question. Le test de Wilcoxon sign-rank est un cas intéressant car, contrairement au test de WIlcoxon à 2 échantillons, il repose sur une hypothèse de symétrie lourde. Je suppose que vous pourriez dire que vous pouvez être non paramétrique tout en exigeant une sorte d’hypothèse générale telle que la symétrie. Peut-être que la terminologie devrait être "non paramétrique avec des restrictions"? D'autre part, le test non paramétrique à 2 échantillons comporte des restrictions quant à ce qui optimise l'erreur de type II (mais pas l'erreur de type I).
Frank Harrell