Quand utiliser la médiane de l'échantillon comme estimateur pour la médiane d'une distribution log-normale?

Moi-même, j'utiliserais toujours la moyenne géométrique pour estimer une médiane lognormale. Cependant, dans le monde de l'industrie, l'utilisation de la médiane de l'échantillon donne parfois de meilleurs résultats. La question est donc la suivante: existe-t-il un intervalle / point de coupure à partir duquel la médiane de l'échantillon peut être utilisée de manière fiable comme estimateur de la médiane de la population?

De plus, la moyenne géométrique de l'échantillon est MLE pour la médiane, mais non sans biais. Un estimateur non biaisé serait si $\hat{\beta}_{\mbox{CGM0}}=\exp(\hat{\mu}-\sigma^2/2N)$ $\sigma$ est connu. En pratique, un estimateur corrigé biaisé $\hat{\beta}_{\mbox{CGM}}$ (voir ci-dessous) est utilisé depuis $\sigma$ est toujours inconnu. Il existe des articles qui disent que cet estimateur géoméen à biais corrigé est meilleur en raison d'une plus petite MSE et d'un caractère non biaisé. Cependant, en réalité, lorsque nous n'avons qu'un échantillon de 4 à 6, puis-je affirmer que la correction du biais n'a aucun sens puisque

L'impartialité signifie que l'estimateur est centré sur le vrai paramètre de population, ni sous ni surestimé le paramètre. Pour une distribution asymétrique positive, le centre est la médiane et non la moyenne.
Invariant à la transformation est une propriété importante dans mon domaine actuel (transformation entre DT50 et taux de dégradation k, k = log (2) / DT50). Vous obtiendrez des résultats différents en fonction des données d'origine et des données transformées.
Pour une taille d'échantillon limitée, l'impartialité moyenne est potentiellement trompeuse. Le biais n'est pas une erreur, un estimateur non biaisé peut donner une plus grande erreur. D'un point de vue bayésien, les données sont connues et fixes, le MLE maximise la probabilité d'observer les données, tandis que la correction de biais est basée sur des paramètres fixes.

L'estimateur géométrique moyen de l'échantillon est MLE, sans biais médian, invariant aux transformations. Je pense qu'il devrait être préféré à l'estimateur géoméen à biais corrigé. Ai-je raison?

Assuming $X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)$

$\beta = \exp(\mu)$

$\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)$

$\hat{\beta}_{\mbox{SM}}= \mbox{median}(X_1,X_2,...,X_N)$

$\hat{\beta}_{\mbox{CGM}}= \exp(\hat{\mu}-\hat\sigma^2/2N)$

où, $\mu$ et $\sigma$ sont le log-mean et log-sd, $\hat\mu$ et $\hat\sigma$ sont les MLE pour $\mu$ et $\sigma$ .

Une question connexe: pour la variance de la médiane de l'échantillon, il existe une formule approximative $\frac{1}{4Nf(m)^2}$ ; quelle est une taille d'échantillon suffisamment grande pour utiliser cette formule?

median unbiased-estimator lognormal Zhenglei
la source

Votre expression pour

{\hat{β}}_{CGM}

$\hat{\beta}_{\mbox{CGM}}$ n'a pas de chapeau sur le

σ^{2}

$\sigma^2$ . Est-ce à dire qu'il suppose

σ^{2}

$\sigma^2$ est connu? Cela semblerait le rendre peu utile.

Hong Ooi

désolé, ça devrait être

{\hat{σ}}^{2}

$\hat\sigma^2$

Zhenglei

Il est difficile de savoir quels sont vos estimateurs car vous n'avez pas défini

\hat{μ}

$\hat{\mu}$ ou

\hat{σ}

$\hat{\sigma}$ . La principale préoccupation concernant les modèles lognormaux et les petits échantillons est que les estimateurs basés sur la lognormalité sont sensibles à l'hypothèse lognormale, donc à moins que vous ayez de bonnes preuves que cette hypothèse est correcte, il est généralement préférable d'utiliser des estimateurs robustes alternatifs.

whuber

@whuber,

\hat{μ}

$\hat\mu$ et

\hat{σ}

$\hat\sigma$ sont les MLE. Je suis d'accord avec la préoccupation de l'hypothèse log-normale. Dans mon domaine de travail actuel, l'hypothèse lognormale est une pratique courante et est acceptée par les autorités. Donc toutes mes questions sont basées sur l'hypothèse lognormale correcte.

Zhenglei

non, le

μ

$\mu$ et

σ

$\sigma$ sont la log-moyenne et log-sd, et non la moyenne et sd pour la lognormale. Je vais modifier la question pour la clarifier.

Zhenglei

Apparemment, le concept d'impartialité a déjà été discuté il y a longtemps. Je pense que c'est un sujet qui mérite discussion, car l'impartialité de la moyenne est une exigence standard pour un bon estimateur, mais pour un petit échantillon, cela ne signifie pas autant que dans les estimations d'un grand échantillon.

Je poste ces deux références en réponse à ma deuxième question dans le post.

Brown, George W. «On Small-Sample Estimation». Les Annales de la statistique mathématique, vol. 18, non. 4 (déc., 1947), p. 582–585. JSTOR 2236236.

Lehmann, EL "Un concept général d'impartialité" Les Annales de la statistique mathématique, vol. 22, non. 4 (déc., 1951), p. 587–592. JSTOR 2236928

Zhenglei
la source

Quand utiliser la médiane de l'échantillon comme estimateur pour la médiane d'une distribution log-normale?

Réponses: