Intervalle de confiance pour la médiane

8

J'ai un ensemble de valeurs dont je calcule la médiane M. Je me demandais comment je pouvais calculer l'erreur sur cette estimation.xi,i=1,,N

Sur le net, j'ai trouvé qu'il peut être calculé comme où est l'écart type. Mais je n'ai pas trouvé de références à ce sujet. Donc je ne comprends pas pourquoi .. Quelqu'un pourrait-il me l'expliquer?1.2533σNσ

Je pensais que je pourrais utiliser le bootstrap pour avoir une estimation de l'erreur mais je voudrais l'éviter car cela ralentirait beaucoup mon analyse.

Je pensais aussi à calculer l'erreur sur la médiane de cette manière

δM=i(xiM)2N1

Est-ce que ça fait du sens?

shamalaia
la source
1
Savez-vous avec une certitude absolue que les données sont normalement distribuées?
gung - Rétablir Monica
ils sont
lognormaux
4
Bootstrap devrait fonctionner et cela ne pourrait pas prendre beaucoup de temps. Soit vous avez un ensemble de données suffisamment complet et vous n'avez pas besoin de faire un bootstrap, prenez simplement la médiane de votre variable comme une bonne estimation de la médiane réelle. Ou vous avez un ensemble de données assez petit et vous pouvez utiliser le bootstrap pour estimer une médiane avec votre erreur de marge en un rien de temps excessif.
YCR
2
Des informations détaillées sur la distribution de la médiane apparaissent dans mon article à l' adresse stats.stackexchange.com/a/86804/919 . Il développe la théorie nécessaire pour les intervalles de confiance non paramétriques et d'approximation normale.
whuber

Réponses:

12

Pour traiter directement les erreurs sur la médiane, vous pouvez utiliser l'intervalle de confiance non paramétrique exact pour la médiane, qui utilise des statistiques d'ordre. Si vous voulez quelque chose de différent, c'est-à-dire une mesure de dispersion, considérez la différence moyenne de Gini. Le code est ici pour l'intervalle de confiance de la médiane.

Frank Harrell
la source
fait d'utiliser un analogue du coefficient de Gini: tel que défini par Rousseeuw et Croux ( web.ipac.caltech.edu/staff/fmasci/home/astro_refs/… ). Sn=cmedj(medj|xixj|)
shamalaia
1
La médiane doit avoir une erreur asymétrique si la distribution des données est asymétrique.
Frank Harrell
11

Comme indiqué dans l'autre réponse, il existe un IC non paramétrique pour la médiane utilisant les statistiques d'ordre. Ce CI est meilleur à bien des égards que ce que vous avez trouvé sur le net.

Maintenant, si vous devez savoir d'où vient le , la réponse vient de la distribution asymptotique de la médiane. Si nous notons la médiane de l'échantillon par et la médiane de la population par alors on peut montrer que1.2533σNθ~θ

n(θ~θ)LN(0,14[f(θ)]2)

où est la distribution de votre échantillon. Le résultat n'est pas aussi universel que le CLT car la distribution asymptptique dépend toujours de la distribution sous-jacente de votre échantillon (via le terme ). Vous pouvez, cependant, simplifier radicalement le fait que votre échantillon provient d'une distribution normale avec la moyenne -et la médiane- et la variance . L'évaluation de à son point de symétrie donne alorsf[f(θ)]2θσ2f

[f(θ)]2=12πσ2

et donc la variance asymptotique devient

2π4σ2
.

Divisez par et prenez la racine carrée de cela pour arriver à votre erreur standard .N1.2533σN

JohnK
la source
maintenant dans Wikipedia: en.wikipedia.org/wiki/Median#Sampling_distribution
Felipe G. Nievinski