Utilisation de la médiane pour calculer la variance

10

J'ai une variable aléatoire 1-D qui est extrêmement asymétrique. Afin de normaliser cette distribution, je veux utiliser la médiane plutôt que la moyenne. ma question est la suivante: puis-je calculer la variance de la distribution en utilisant la médiane dans la formule au lieu de la moyenne?

c'est à dire que je peux remplacer

Var(X)=[(Ximean(X))2]/n

avec

Var(X)=[(Ximedian(X))2]/n

Mon raisonnement derrière cela est que, puisque la variance est une mesure de l'écart par rapport à la tendance centrale d'une distribution, cela ne devrait pas être un problème, mais je cherche à valider cette logique.

Rahul Singh
la source
1
En centrant vos variables médianes puis en les divisant par le MAD (écart absolu médian), vous pouvez créer une distribution standardisée médiane.
Mike Hunter
4
Tu peux le faire! Mais je pense qu'il est juste de l'appeler hautement non standard et de suggérer que vous avez besoin de théorie et / ou de simulations pour le sauvegarder et pas seulement de votre intuition. Je soupçonne qu'il sera moins résistant que l'estimateur standard. Par exemple, dans un cas courant asymétrique à droite, la médiane sera inférieure à la moyenne, donc les plus grands écarts au carré (par rapport à la médiane) seront donc encore plus importants! Le point majeur est que si la variance n'est pas très fiable, vous devrez peut-être penser à mesurer l'écart de manière assez différente, plutôt que différentes versions de la variance.
Nick Cox
1
Point orthogonal: «normaliser» signifie-t-il d'une certaine manière l'échelle, par exemple (valeur emplacement) / échelle, ou signifie-t-il se rapprocher de la normale (gaussien)?
Nick Cox
1
Cette approche est intrinsèquement incohérente, car les problèmes qui sont résolus en remplaçant la moyenne par la médiane sont amplifiés en utilisant la variance au lieu d'un estimateur robuste de l'écart.
whuber

Réponses:

8

La moyenne minimise l' erreur quadratique (ou la norme L2, voir ici ou ici ), donc le choix naturel de la variance pour mesurer la distance de la moyenne est d'utiliser l'erreur quadratique (voir ici pourquoi nous la cadrons). D'un autre côté, la médiane minimise l'erreur absolue (norme L1), c'est-à-dire que c'est une valeur qui se trouve au "milieu" de vos données, donc la distance absolue par rapport à la médiane (appelée déviation absolue médiane ou MAD) semble être un meilleure mesure du degré de variabilité autour de la médiane. Vous pouvez en savoir plus sur ces relations dans ce fil .

En bref, la variance diffère de MAD sur la façon dont ils définissent le point central de vos données et cela influence la façon dont nous mesurons la variation des points de données autour d'elle. La quadrature des valeurs fait que les valeurs aberrantes ont une plus grande influence sur le point central (moyenne), alors qu'en cas de médiane, tous les points ont le même impact sur lui, donc la distance absolue semble plus appropriée.

Cela peut également être démontré par une simulation simple. Si vous comparez les valeurs au carré des distances de la moyenne et de la médiane, la distance au carré totale est presque toujours plus petite de la moyenne que de la médiane. En revanche, la distance absolue totale est inférieure à la médiane, puis à la moyenne. Le code R pour effectuer la simulation est affiché ci-dessous.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

Dans le cas de l'utilisation de la médiane au lieu de la moyenne dans l'estimation de cette "variance", cela conduirait à des estimations plus élevées que dans le cas de l'utilisation de la moyenne, comme cela se fait traditionnellement.

Soit dit en passant, les relations des normes L1 et L2 peuvent être considérées également dans le contexte bayésien, comme dans ce fil .

Tim
la source