La section 1.7.2 de Découvrir les statistiques à l'aide de R par Andy Fields, et tout, tout en énumérant les vertus de la moyenne par rapport à la médiane, indique:
... la moyenne a tendance à être stable dans différents échantillons.
Ceci après avoir expliqué les nombreuses vertus de la médiane, par exemple
... La médiane n'est relativement pas affectée par les scores extrêmes aux deux extrémités de la distribution ...
Étant donné que la médiane n'est pas affectée par les scores extrêmes, j'aurais pensé qu'elle serait plus stable entre les échantillons. J'ai donc été intrigué par l'affirmation des auteurs. Pour confirmer, j'ai exécuté une simulation - j'ai généré 1M de nombres aléatoires et échantillonné 100 nombres 1000 fois et calculé la moyenne et la médiane de chaque échantillon, puis calculé le sd de ces moyennes et médianes de l'échantillon.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Comme vous pouvez le voir, les moyens sont plus étroitement répartis que les médianes.
Dans l'image ci-jointe, l'histogramme rouge est pour les médianes - comme vous pouvez le voir, il est moins grand et a une queue plus grasse, ce qui confirme également l'affirmation de l'auteur.
Je suis sidéré par cela, cependant! Comment la médiane, qui est plus stable, peut-elle finalement varier davantage d'un échantillon à l'autre? Cela semble paradoxal! N'importe quelles idées seraient appréciées.
rnorm
parrcauchy
.Réponses:
La médiane est au maximum robuste aux valeurs aberrantes, mais très sensible au bruit. Si vous introduisez une petite quantité de bruit à chaque point, il entrera dans la médiane non atténuée tant que le bruit est suffisamment petit pour ne pas changer l'ordre relatif des points. Pour le moyen, c'est l'inverse. Le bruit est moyenné, mais une seule valeur aberrante peut modifier arbitrairement la moyenne.
Votre test mesure principalement la robustesse au bruit, mais vous pouvez facilement en créer un où la médiane fonctionne mieux. Si vous voulez un estimateur robuste aux valeurs aberrantes et au bruit, jetez simplement le tiers supérieur et inférieur et faites la moyenne du reste.
la source
Comme l'ont dit @whuber et d'autres, la déclaration n'est pas vraie en général. Et si vous êtes prêt à être plus intuitif - je ne peux pas suivre les geeks des mathématiques profondes ici - vous pourriez envisager d'autres moyens et la médiane sont stables ou non. Pour ces exemples, supposez un nombre impair de points afin que je puisse garder mes descriptions cohérentes et simples.
Imaginez que vous avez réparti des points sur une droite numérique. Imaginez maintenant que vous prenez tous les points au-dessus du milieu et que vous les déplacez jusqu'à 10 fois leurs valeurs. La médiane est inchangée, la moyenne a considérablement évolué. La médiane semble donc plus stable.
Imaginez maintenant que ces points sont assez étalés. Déplacez le point central de haut en bas. Un mouvement d'une unité modifie la médiane d'une unité, mais à peine la moyenne. La médiane semble désormais moins stable et plus sensible aux petits mouvements d'un seul point.
Imaginez maintenant prendre le point le plus élevé et le déplacer en douceur du point le plus haut au point le plus bas. La moyenne se déplacera également en douceur. Mais la médiane ne se déplacera pas en continu: elle ne bougera pas du tout tant que votre point haut ne sera pas inférieur à la médiane précédente, puis elle commencera à suivre le point jusqu'à ce qu'elle descende en dessous du point suivant, puis la médiane restera à ce point et encore une fois ne ne bougez pas pendant que vous continuez à déplacer votre point vers le bas. [Modifié par commentaire]
Ainsi, différentes transformations de vos points font que la moyenne ou la médiane semblent moins lisses ou stables dans un certain sens. Les gros maths ici ont montré des distributions à partir desquelles vous pouvez échantillonner, ce qui correspond plus étroitement à votre expérience, mais j'espère que cette intuition vous aidera également.
la source
[1, 3, 5, 7, 9]
. Initialement, la médiane est5
. Cela restera la médiane jusqu'à ce que le cinquième point (initialement9
) tombe en dessous5
, auquel point la médiane suivra en douceur le cinquième point au fur et à mesure qu'il diminue, jusqu'à ce qu'il atteigne3
, auquel point la médiane restera3
. Ainsi, même si le point qui définit la médiane est le «saut» (du troisième point au cinquième point au deuxième point), la valeur réelle de la médiane n'a pas de saut / discontinuité.Nous avons donc:
la source
Commentaire: Juste pour faire écho à votre simulation, en utilisant une distribution pour laquelle les SD des moyennes et des médianes ont le résultat inverse:
Plus précisément, ils
nums
proviennent désormais d'une distribution de Laplace (également appelée `` double exponentielle ''), qui peut être simulée comme la différence de deux distributions exponentielles avec le même taux (ici le taux par défaut 1). [Voir peut-être Wikipedia sur les distributions de Laplace.]Note: Une autre possibilité facile, explicitement mentionné dans le lien de @ whuber, est de Cauchy, qui peut être simulé comme la distribution t de Student avec un degré de liberté,
rt(10^6, 1)
. Cependant, ses queues sont si lourdes que faire un bel histogramme est problématique.la source