Utilisation du bootstrap pour obtenir la distribution d'échantillonnage du 1er centile

9

J'ai un échantillon (de taille 250) d'une population. Je ne connais pas la répartition de la population.

La question principale: je veux une estimation ponctuelle du 1 er centile de la population, puis je veux un intervalle de confiance de 95% autour de mon estimation ponctuelle.

Mon estimation ponctuelle sera l'échantillon du 1 er centile. Je le dénote .x

Après cela, j'essaie de construire l'intervalle de confiance autour de l'estimation ponctuelle. Je me demande s'il est logique d'utiliser le bootstrap ici. Je suis très inexpérimenté avec le bootstrap, donc pardonnez-moi si je n'utilise pas la terminologie appropriée, etc.

Voici comment j'ai essayé de le faire. Je tire 1000 échantillons aléatoires avec remplacement de mon échantillon d'origine. J'obtiens le 1 er centile de chacun d'eux. J'ai donc 1000 points - "les 1 er- centiles". Je regarde la distribution empirique de ces 1000 points. J'en dénote la moyenne . Je dénote un "biais" comme suit: biais = x m e a n - x . Je prends le 2,5 e centile et le 97,5 e centile des 1000 points pour obtenir les extrémités inférieure et supérieure de ce que j'appelle un intervalle de confiance à 95% autour du 1 erxmeanbias=xmeanx- centile de l'échantillon d'origine. Je dénote ces points et x 0,975 .x0.025x0.975

La dernière étape restante consiste à adapter cet intervalle de confiance pour qu'il se situe autour du 1 er centile de la population plutôt que autour du 1 er centile de l' échantillon d'origine . Ainsi, je prends comme extrémité inférieure et x - biais + ( x 0,975 - x m e a n ) comme extrémité supérieure de l'intervalle de confiance à 95% autour de l'estimation ponctuelle du 1 de la populationxbias(xmeanx0.025)xbias+(x0.975xmean)st -percentile. Ce dernier intervalle est ce que je cherchais.

Un point crucial , à mon avis, est de savoir s'il est judicieux d'utiliser le bootstrap pour le 1 er centile qui est assez proche de la queue de la distribution sous-jacente inconnue de la population. Je soupçonne que cela pourrait être problématique; pensez à utiliser le bootstrap pour construire un intervalle de confiance autour d'un minimum (ou d'un maximum).

Mais peut-être que cette approche est défectueuse? S'il vous plaît, faites-moi savoir.

ÉDITER:

xbias

xx(xmeanx0.025)x+(x0.975xmean)

Donc , il ne fait aucun sens de supposer que l'échantillon 1 er centile est une estimation biaisée de la population 1 er centile? Sinon, ma solution alternative est-elle correcte?

Richard Hardy
la source
Cela ne répond pas directement à la question du bootstrap, mais cela pourrait vous être utile: onlinecourses.science.psu.edu/stat414/node/231
shadowtalker

Réponses:

11

n1(11/n)n1exp(1)=63.2%exp(1)exp(2)=23.3%

n

StasK
la source
La réponse est utile, mais j'aimerais avoir une idée de la proximité du 1er centile au minimum en ce qui concerne le comportement d'amorçage? Je suppose que dans les très grands échantillons, le 1er centile peut être considéré comme «loin» du minimum et les problèmes énumérés ci-dessus peuvent être ignorés, tandis que dans les petits échantillons, le 1er centile sera le minimum lui-même et les problèmes auront beaucoup d'importance. Nous sommes donc quelque part entre les deux. Je suppose que ma taille d'échantillon de 250 observations devrait être considérée comme assez petite à cet égard.
Richard Hardy