Dans les cours de statistiques de base pour les étudiants du premier cycle, on apprend (généralement?) À tester des hypothèses pour la moyenne d'une population.
Pourquoi se concentre-t-il sur la moyenne et non sur la médiane? Mon hypothèse est qu'il est plus facile de tester la moyenne en raison du théorème de la limite centrale, mais j'aimerais lire des explications éclairées.
hypothesis-testing
mean
inference
median
nafrtiti
la source
la source
Réponses:
Parce qu'Alan Turing est né après Ronald Fisher.
Auparavant, avant les ordinateurs, tout cela devait être fait à la main ou, au mieux, avec ce que nous appellerions maintenant des calculatrices. Les tests de comparaison des moyennes peuvent être effectués de cette façon - c'est laborieux, mais possible. Des tests pour les quantiles (tels que la médiane) seraient quasiment impossibles à faire de cette façon.
Par exemple, la régression quantile repose sur la minimisation d'une fonction relativement compliquée. Cela ne serait pas possible manuellement. C'est possible avec la programmation. Voir par exemple Koenker ou Wikipedia .
La régression quantile a moins d'hypothèses que la régression MLS et fournit plus d'informations.
la source
Je voudrais ajouter une troisième raison aux bonnes raisons données par Harrell et Flom. La raison en est que nous utilisons la distance euclidienne (ou L2) et non la distance de Manhattan (ou L1) comme mesure standard de proximité ou d'erreur. Si on a un nombre de points de données et qu'on veut un nombre unique θ pour l'estimation, une notion évidente est de trouver le nombre qui minimise «l'erreur», ce nombre crée la plus petite différence entre le nombre choisi et les nombres qui constituent les données. Dans la notation mathématique, une fonction d'erreur donnée E, on veut trouver m i n θ ∈ R ( E ( θ ,x1,…xn θ . Si on prend pour E (x, y) la norme ou distance L2, c'est-à-dire que E ( x , y ) = ( x - y ) 2, le minimiseur sur tout θ ∈ R est la moyenne. Si on prend la distance L1 ou Manhattan, le minimiseur sur tousminθ∈R(E(θ,x1,…xn)=minθ∈R(∑i=ni=1E(θ,xi)) E(x,y)=(x−y)2 θ∈R est la médiane. Ainsi, la moyenne est le choix mathématique naturel - si l’on utilise la distance L2!θ∈R
la source
Souvent, la moyenne est choisie par rapport à la médiane non pas parce qu'elle est plus représentative, robuste ou significative, mais parce que les gens confondent estimateur avec estimand. En d'autres termes, certains choisissent la moyenne de la population comme quantité d'intérêt car avec une distribution normale, la moyenne de l' échantillon est plus précise que la médiane de l'échantillon. Au lieu de cela, ils devraient réfléchir davantage, comme vous l'avez fait, à la véritable quantité d'intérêt.
Barre latérale: nous avons un intervalle de confiance non paramétrique pour la médiane de la population, mais il n’existe pas de méthode non paramétrique (autre que peut-être la méthode de la vraisemblance empirique intensive) pour obtenir un intervalle de confiance de la moyenne de la population. Si vous voulez rester sans distribution, vous pouvez vous concentrer sur la médiane.
Notez que le théorème de la limite centrale est beaucoup moins utile qu'il n'y parait, comme cela a été discuté ailleurs sur ce site. Il suppose effectivement que la variance est connue ou que la distribution est symétrique et a une forme telle que la variance de l'échantillon constitue un estimateur concurrentiel de la dispersion.
la source