Pourquoi la moyenne a-t-elle tendance à être plus stable dans différents échantillons que la médiane?

22

La section 1.7.2 de Découvrir les statistiques à l'aide de R par Andy Fields, et tout, tout en énumérant les vertus de la moyenne par rapport à la médiane, indique:

... la moyenne a tendance à être stable dans différents échantillons.

Ceci après avoir expliqué les nombreuses vertus de la médiane, par exemple

... La médiane n'est relativement pas affectée par les scores extrêmes aux deux extrémités de la distribution ...

Étant donné que la médiane n'est pas affectée par les scores extrêmes, j'aurais pensé qu'elle serait plus stable entre les échantillons. J'ai donc été intrigué par l'affirmation des auteurs. Pour confirmer, j'ai exécuté une simulation - j'ai généré 1M de nombres aléatoires et échantillonné 100 nombres 1000 fois et calculé la moyenne et la médiane de chaque échantillon, puis calculé le sd de ces moyennes et médianes de l'échantillon.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Comme vous pouvez le voir, les moyens sont plus étroitement répartis que les médianes.

entrez la description de l'image ici

Dans l'image ci-jointe, l'histogramme rouge est pour les médianes - comme vous pouvez le voir, il est moins grand et a une queue plus grasse, ce qui confirme également l'affirmation de l'auteur.

Je suis sidéré par cela, cependant! Comment la médiane, qui est plus stable, peut-elle finalement varier davantage d'un échantillon à l'autre? Cela semble paradoxal! N'importe quelles idées seraient appréciées.

Alok Lal
la source
1
Oui, mais essayez-le en échantillonnant à partir de nums <- rt (n = 10 ** 6, 1.1). Cette distribution t1.1 donnera un tas de valeurs extrêmes, pas nécessairement équilibrées entre positif et négatif (tout aussi bonnes chances d'obtenir une autre valeur extrême positive qu'une valeur extrême négative à équilibrer), ce qui entraînera une gigantesque variance dans . C'est ce contre quoi se protège la médiane. Il est peu probable que la distribution normale donne des valeurs particulièrement extrêmes pour étendre la distribution plus large que la médiane. ˉ xX¯X¯
Dave
10
La déclaration de l'auteur n'est généralement pas vraie. (Nous avons reçu ici de nombreuses questions concernant des erreurs dans les livres de cet auteur, donc ce n'est pas une surprise.) Les contre-exemples standard se trouvent parmi les "distributions stables" , où la moyenne est tout sauf "stable" (dans un sens raisonnable de terme) et la médiane est beaucoup plus stable.
whuber
1
"... la moyenne a tendance à être stable dans différents échantillons." est une déclaration absurde. la "stabilité" n'est pas bien définie. La moyenne (échantillon) est en effet assez stable dans un seul échantillon car il s'agit d'une quantité non aléatoire. Si les données sont "instables" (très variables?), La moyenne est également "instable".
AdamO
1
Cette question est probablement répondue par les analyses détaillées proposées sur stats.stackexchange.com/questions/7307 , dans lesquelles la même question est posée de manière spécifique (où le sens de «stable» est bien défini).
whuber
2
Essayez de remplacer rnormpar rcauchy.
Eric Towers le

Réponses:

3

La médiane est au maximum robuste aux valeurs aberrantes, mais très sensible au bruit. Si vous introduisez une petite quantité de bruit à chaque point, il entrera dans la médiane non atténuée tant que le bruit est suffisamment petit pour ne pas changer l'ordre relatif des points. Pour le moyen, c'est l'inverse. Le bruit est moyenné, mais une seule valeur aberrante peut modifier arbitrairement la moyenne.

Votre test mesure principalement la robustesse au bruit, mais vous pouvez facilement en créer un où la médiane fonctionne mieux. Si vous voulez un estimateur robuste aux valeurs aberrantes et au bruit, jetez simplement le tiers supérieur et inférieur et faites la moyenne du reste.

Rainer P.
la source
Existe-t-il un nom plus spécifique pour cet algorithme que «la moyenne ajustée à 33% »?
David Cary
25

Comme l'ont dit @whuber et d'autres, la déclaration n'est pas vraie en général. Et si vous êtes prêt à être plus intuitif - je ne peux pas suivre les geeks des mathématiques profondes ici - vous pourriez envisager d'autres moyens et la médiane sont stables ou non. Pour ces exemples, supposez un nombre impair de points afin que je puisse garder mes descriptions cohérentes et simples.

  1. Imaginez que vous avez réparti des points sur une droite numérique. Imaginez maintenant que vous prenez tous les points au-dessus du milieu et que vous les déplacez jusqu'à 10 fois leurs valeurs. La médiane est inchangée, la moyenne a considérablement évolué. La médiane semble donc plus stable.

  2. Imaginez maintenant que ces points sont assez étalés. Déplacez le point central de haut en bas. Un mouvement d'une unité modifie la médiane d'une unité, mais à peine la moyenne. La médiane semble désormais moins stable et plus sensible aux petits mouvements d'un seul point.

  3. Imaginez maintenant prendre le point le plus élevé et le déplacer en douceur du point le plus haut au point le plus bas. La moyenne se déplacera également en douceur. Mais la médiane ne se déplacera pas en continu: elle ne bougera pas du tout tant que votre point haut ne sera pas inférieur à la médiane précédente, puis elle commencera à suivre le point jusqu'à ce qu'elle descende en dessous du point suivant, puis la médiane restera à ce point et encore une fois ne ne bougez pas pendant que vous continuez à déplacer votre point vers le bas. [Modifié par commentaire]

Ainsi, différentes transformations de vos points font que la moyenne ou la médiane semblent moins lisses ou stables dans un certain sens. Les gros maths ici ont montré des distributions à partir desquelles vous pouvez échantillonner, ce qui correspond plus étroitement à votre expérience, mais j'espère que cette intuition vous aidera également.

Wayne
la source
1
En ce qui concerne le point 3: la médiane ne se déplacerait-elle pas également en douceur? Supposons que l'ensemble initial de points soit [1, 3, 5, 7, 9]. Initialement, la médiane est 5. Cela restera la médiane jusqu'à ce que le cinquième point (initialement 9) tombe en dessous 5, auquel point la médiane suivra en douceur le cinquième point au fur et à mesure qu'il diminue, jusqu'à ce qu'il atteigne 3, auquel point la médiane restera 3. Ainsi, même si le point qui définit la médiane est le «saut» (du troisième point au cinquième point au deuxième point), la valeur réelle de la médiane n'a pas de saut / discontinuité.
Scott M
@ScottM Vous semblez avoir raison. Je ne sais pas pourquoi je pensais que ça allait sauter. Je reformulerai quand j'aurai une chance.
Wayne
18

nμσ2<FmF~F~(z)=σF(μ+σz)zR. La variance asymptotique de la moyenne et de la médiane de l'échantillon est donnée respectivement par:

V(X¯n)=σ2nV(X~n)σ2n14F~(m-μσ)-2.

Nous avons donc:

V(X¯n)V(X~n)4F~(m-μσ)2.

n

V(X¯n)<V(X~n)FF~(m-μσ)<12.

nF=1/2π=0,3989423<1/2

Réintégrer Monica
la source
Impressionnant! Merci.
Alok Lal
4

Commentaire: Juste pour faire écho à votre simulation, en utilisant une distribution pour laquelle les SD des moyennes et des médianes ont le résultat inverse:

Plus précisément, ils numsproviennent désormais d'une distribution de Laplace (également appelée `` double exponentielle ''), qui peut être simulée comme la différence de deux distributions exponentielles avec le même taux (ici le taux par défaut 1). [Voir peut-être Wikipedia sur les distributions de Laplace.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

entrez la description de l'image ici

Note: Une autre possibilité facile, explicitement mentionné dans le lien de @ whuber, est de Cauchy, qui peut être simulé comme la distribution t de Student avec un degré de liberté, rt(10^6, 1). Cependant, ses queues sont si lourdes que faire un bel histogramme est problématique.

BruceET
la source