En faisant quelques simulations, j'ai réalisé que le quantile d'échantillon est un estimateur biaisé du vrai quantile. Et, selon mes simulations, potentiellement très biaisée.
J'ai été surpris de ce résultat car le CDF empirique n'est pas biaisé, mais après quelques recherches sur Internet, j'ai découvert que c'était vrai .
J'ai essayé de comprendre d'où vient ce biais, mais travailler avec des quantiles d'échantillon est assez difficile. Quelqu'un at-il une démonstration de ce biais (et, idéalement, une quantification)?
estimation
quantiles
Thomas
la source
la source
Réponses:
Le biais dans l’estimation des quantiles est étudié sans distribution dansp
http://www.sciencedirect.com/science/article/pii/S016771520000242X
(un pdf se trouve sur la même page). Les auteurs se concentrent sur l'estimateur quantile basé sur l'inversion ECDF. Aucune hypothèse sur la distribution sous-jacente n'est faite (à l'exception du deuxième moment fini), ainsi les distributions discrètes sont également incluses.
Quelques faits saillants:
Le biais est proportionnel à l'écart-type de la distribution sous-jacenteσ
Le biais est plus petit dans les quantiles centraux que dans les extrêmes. Cela vient du fait que parmi toutes les distributions avec l'écart type , le biais oscille dans un intervalle de longueur . Étonnamment, cela ne dépend pas de la taille de l'échantillon .σ<∞ σp(1−p)√ n
Pour , parmi toutes les distributions standardisées (moyenne 0, écart-type 1), le pire biais est associé à la distribution ayant un atome de probabilité à et un atome de probabilité à .np>3 p −(1−p)/p−−−−−−−−√ 1−p p/(1−p)−−−−−−−−√
la source
Juste pour ajouter à cet ancien article, l'ECDF n'est impartial que pour des échantillons de grande taille. Aux faibles valeurs de N, il est biaisé. Prenez le cas trivial de N = 1 et l'ECDF prend une valeur de 1 à et au-dessus de la valeur d'échantillon. Demandez-vous quelle est la valeur de la distribution sous-jacente qui donne une probabilité de 1?
Le biais dépasse en fait sqrt (2 * pi) / (2N) * SD ou 1,25 / N * SD, donc pour un N de 5, c'est un biais de 0,25 SD.
Au lieu d'un ECDF basé sur k / N, essayez (k-0,5) / N pour obtenir un ECDF non biaisé. Cela pourrait vous donner des quantiles d'échantillons non biaisés. Il garantit également que ECDF (x) = 1-ECDF (-x) dont bénéficient toutes les autres distributions cumulatives.
À mon humble avis, l'ECDF tel qu'il est défini et utilisé est un énorme abus de langage. Il polarise Kolmogorov Smirnov, Lilliefors et d'autres tests standard à faible N.
Découvrez Gilchrist "Modélisation statistique avec fonctions quantiles"
la source
Il existe une véritable définition de quantile d'échantillon unique (qui n'est pas celle habituellement présentée). Voir: http://dx.doi.org/10.1155/2014/326579
la source