Intervalle de confiance pour la médiane

J'ai un ensemble de valeurs dont je calcule la médiane M. Je me demandais comment je pouvais calculer l'erreur sur cette estimation. ${x_i}, i=1, \dots ,N$

Sur le net, j'ai trouvé qu'il peut être calculé comme où est l'écart type. Mais je n'ai pas trouvé de références à ce sujet. Donc je ne comprends pas pourquoi .. Quelqu'un pourrait-il me l'expliquer? $1.2533\frac{\sigma}{\sqrt{N}}$ $\sigma$

Je pensais que je pourrais utiliser le bootstrap pour avoir une estimation de l'erreur mais je voudrais l'éviter car cela ralentirait beaucoup mon analyse.

Je pensais aussi à calculer l'erreur sur la médiane de cette manière

δ M = \sqrt{\frac{\sum_{i} (x_{i} - M)^{2}}{N - 1}}

$\delta M = \sqrt{ \frac{\sum_i(x_i - M)^2}{N-1} }$

Est-ce que ça fait du sens?

standard-deviation bootstrap standard-error median shamalaia
la source

Savez-vous avec une certitude absolue que les données sont normalement distribuées?

gung - Rétablir Monica

ils sont

lognormaux

Bootstrap devrait fonctionner et cela ne pourrait pas prendre beaucoup de temps. Soit vous avez un ensemble de données suffisamment complet et vous n'avez pas besoin de faire un bootstrap, prenez simplement la médiane de votre variable comme une bonne estimation de la médiane réelle. Ou vous avez un ensemble de données assez petit et vous pouvez utiliser le bootstrap pour estimer une médiane avec votre erreur de marge en un rien de temps excessif.

YCR

Vous recherchez plutôt MAD en.wikipedia.org/wiki/Median_absolute_deviation , voir aussi stats.stackexchange.com/questions/122001/… ou stats.stackexchange.com/questions/21103/…

Tim

Des informations détaillées sur la distribution de la médiane apparaissent dans mon article à l' adresse stats.stackexchange.com/a/86804/919 . Il développe la théorie nécessaire pour les intervalles de confiance non paramétriques et d'approximation normale.

whuber

Réponses:

Pour traiter directement les erreurs sur la médiane, vous pouvez utiliser l'intervalle de confiance non paramétrique exact pour la médiane, qui utilise des statistiques d'ordre. Si vous voulez quelque chose de différent, c'est-à-dire une mesure de dispersion, considérez la différence moyenne de Gini. Le code est ici pour l'intervalle de confiance de la médiane.

Frank Harrell
la source

fait d'utiliser un analogue du coefficient de Gini: tel que défini par Rousseeuw et Croux ( web.ipac.caltech.edu/staff/fmasci/home/astro_refs/… ).

S_{n} = c * m e d_{j} (m e d_{j} | x_{i} - x_{j} |)

$S_n=c * med_j (med_j |x_i-x_j|)$

shamalaia

La médiane doit avoir une erreur asymétrique si la distribution des données est asymétrique.

Frank Harrell

Comme indiqué dans l'autre réponse, il existe un IC non paramétrique pour la médiane utilisant les statistiques d'ordre. Ce CI est meilleur à bien des égards que ce que vous avez trouvé sur le net.

Maintenant, si vous devez savoir d'où vient le , la réponse vient de la distribution asymptotique de la médiane. Si nous notons la médiane de l'échantillon par et la médiane de la population par alors on peut montrer que $1.2533\frac{\sigma}{\sqrt{N}}$ $\tilde{\theta}$ $\theta$

\sqrt{n} (\tilde{θ} - θ) \overset{L}{\to} N (0, \frac{1}{4 {[f (θ)]}^{2}})

$\sqrt{n} \left( \tilde{\theta} - \theta \right) \xrightarrow{L} \mathcal{N} \left(0, \frac{1}{4 \left[f \left( \theta \right) \right]^2} \right)$

où est la distribution de votre échantillon. Le résultat n'est pas aussi universel que le CLT car la distribution asymptptique dépend toujours de la distribution sous-jacente de votre échantillon (via le terme ). Vous pouvez, cependant, simplifier radicalement le fait que votre échantillon provient d'une distribution normale avec la moyenne -et la médiane- et la variance . L'évaluation de à son point de symétrie donne alors $f$ $\left[f \left( \theta \right) \right]^2$ $\theta$ $\sigma^2$ $f$

{[f (θ)]}^{2} = \frac{1}{2 π σ^{2}}

$\left[f \left( \theta \right) \right]^2 = \frac{1}{2\pi \sigma^2}$

et donc la variance asymptotique devient

\frac{2 π}{4} σ^{2}

$\frac{2\pi}{4} \sigma^2$ .

Divisez par et prenez la racine carrée de cela pour arriver à votre erreur standard . $N$ $1.2533\frac{\sigma}{\sqrt{N}}$

JohnK
la source

maintenant dans Wikipedia: en.wikipedia.org/wiki/Median#Sampling_distribution

Felipe G. Nievinski