Pour quelles distributions (symétriques) l'échantillon signifie-t-il un estimateur plus efficace que la médiane de l'échantillon?

17

J'ai travaillé avec la conviction que la médiane de l'échantillon est une mesure plus robuste de la tendance centrale que la moyenne de l'échantillon, car elle ignore les valeurs aberrantes. J'ai donc été surpris d'apprendre (dans la réponse à une autre question ) que pour les échantillons tirés d'une distribution normale, la variance de la moyenne de l'échantillon est inférieure à la variance de la médiane de l'échantillon (au moins pour les grands n ).

Je comprends mathématiquement pourquoi c'est vrai. Existe-t-il une façon «philosophique» d'envisager cela qui aiderait l'intuition à savoir quand utiliser la médiane plutôt que la moyenne pour d'autres distributions?

Existe-t-il des outils mathématiques qui permettent de répondre rapidement à la question d'une distribution particulière?

Josh Brown Kramer
la source

Réponses:

20

Supposons que nous limitons la considération aux distributions symétriques où la moyenne et la variance sont finies (donc le Cauchy, par exemple, est exclu de la considération).

De plus, je vais me limiter initialement aux cas unimodaux continus, et surtout aux situations «agréables» (bien que je puisse revenir plus tard et discuter d'autres cas).

La variance relative dépend de la taille de l'échantillon. Il est courant de discuter du rapport ( fois la) des variances asymptotiques, mais nous devons garder à l'esprit que pour des échantillons plus petits, la situation sera quelque peu différente. (La médiane est parfois sensiblement meilleure ou pire que ne le suggérerait son comportement asymptotique. Par exemple, à la normale avec n = 3, elle a une efficacité d'environ 74% plutôt que 63%. Le comportement asymptotique est généralement un bon guide à un niveau assez modéré. la taille des échantillons, cependant.)nn=3

Les asymptotiques sont assez faciles à gérer:

Moyenne: variance = σ 2 .n×σ2

Médiane : variance = 1n×f(m)est la hauteur de la densité à la médiane.1[4f(m)2]F(m)

Donc, si , la médiane sera asymptotiquement plus efficace.F(m)>12σ

[Dans le cas normal, , donc1F(m)=12πσ , d'où l'efficacité relative asymptotique de2/π)]1[4F(m)2]=πσ222/π

Nous pouvons voir que la variance de la médiane dépendra du comportement de la densité très près du centre, tandis que la variance de la moyenne dépend de la variance de la distribution d'origine (qui dans un certain sens est affectée par la densité partout, et dans en particulier, plus par la façon dont il se comporte plus loin du centre)

Autrement dit, alors que la médiane est moins affectée par les valeurs aberrantes que la moyenne, et nous constatons souvent qu'elle a une variance plus faible que la moyenne lorsque la distribution est à queue lourde (ce qui produit plus de valeurs aberrantes), ce qui motive vraiment la performance de la la médiane est inliers . Il arrive souvent que (pour une variance fixe), les deux aient tendance à aller ensemble.

Autrement dit, à mesure que la queue s'alourdit, il y a une tendance (à une valeur fixe de ) à ce que la distribution devienne "plus crête" en même temps (plus kurtotique, au sens large). Ce n'est cependant pas une certaine chose - cela a tendance à être le cas pour une large gamme de densités communément considérées, mais cela ne tient pas toujours. Lorsqu'elle est vraie, la variance de la médiane diminue (car la distribution a plus de probabilité dans le voisinage immédiat de la médiane), tandis que la variance de la moyenne est maintenue constante (car nous avons fixé σ 2 ).σ2σ2

Ainsi, dans une variété de cas courants, la médiane a souvent tendance à faire «mieux» que la moyenne lorsque la queue est lourde (mais nous devons garder à l'esprit qu'il est relativement facile de construire des contre-exemples). Nous pouvons donc considérer quelques cas, qui peuvent nous montrer ce que nous voyons souvent, mais nous ne devrions pas trop en lire, car une queue plus lourde ne va pas universellement avec un pic plus élevé.

Nous savons que la médiane est d'environ 63,7% aussi efficace (pour grand) que la moyenne à la normale.n

Qu'en est-il, par exemple, d'une distribution logistique qui, comme la normale, est approximativement parabolique par rapport au centre, mais a des queues plus lourdes (lorsque devient grand, elles deviennent exponentielles).x

Si nous prenons le paramètre d'échelle à 1, la logistique a une variance et de la hauteur à la médiane de 1/4, donc 1π2/3. Le rapport des variances est alorsπ2/douze0,82alors dansgrands échantillons, la médiane estenviron 82% aussi efficace que la moyenne.14f(m)2=4π2/120.82

Prenons deux autres densités avec des queues de type exponentiel, mais des pics différents.

Premièrement, la distribution sécante hyperbolique ( )sech , pour laquelle la forme standard a la variance 1 et la hauteur au centre de , donc le rapport des variances asymptotiques est de 1 (les deux sont tout aussi efficaces dans les grands échantillons). Cependant, dans les petits échantillons, la moyenne est plus efficace (sa variance est d'environ 95% de celle de la médiane12 , par exemple).n=5

Ici, nous pouvons voir comment, à mesure que nous progressons dans ces trois densités (en maintenant la variance constante), la hauteur à la médiane augmente:

entrez la description de l'image ici

Pouvons-nous aller encore plus haut? En effet, nous le pouvons. Considérons, par exemple, la double exponentielle . Le formulaire standard a la variance 2 et la hauteur à la médiane est (donc si on met à l'échelle la variance unitaire comme dans le diagramme, le pic est à112 , juste au-dessus de 0,7). La variance asymptotique de la médiane est la moitié de celle de la moyenne.12

Si nous augmentons encore la distribution pour une variance donnée (peut-être en rendant la queue plus lourde qu'exponentielle), la médiane peut être beaucoup plus efficace (relativement parlant). Il n'y a vraiment aucune limite à la hauteur de ce pic.

ν=5

...

Pour des tailles d'échantillon finies, il est parfois possible de calculer explicitement la variance de la distribution de la médiane. Lorsque cela n'est pas possible - ou même simplement incommode - nous pouvons utiliser la simulation pour calculer la variance de la médiane (ou le rapport de la variance *) à travers des échantillons aléatoires tirés de la distribution (c'est ce que j'ai fait pour obtenir les petits échantillons ci-dessus ).

* Même si souvent nous n'avons pas réellement besoin de la variance de la moyenne, puisque nous pouvons la calculer si nous connaissons la variance de la distribution, il peut être plus efficace de le faire, car elle agit comme une variable de contrôle (la moyenne et la médiane sont souvent assez corrélées).

Glen_b -Reinstate Monica
la source
1

F(X)=12e-|X-μ|,-<X<
μX1,X2,,Xn2/n14nF(μ)2=14n/4=1/n<2/n, donc la différence est assez grande.

Pour la distribution normale (avec σ2=1) on obtient la comparaison inverse, la moyenne arithmétique a une variance (exacte) 1/n tandis que la médiane présente une variance (environ, grande n) 14n(1/2π)2=π2n1,57/n>1/n

kjetil b halvorsen
la source