En lisant comment approximer la distribution de la moyenne de l'échantillon, je suis tombé sur la méthode de bootstrap non paramétrique. Apparemment, on peut approximer la distribution de par la distribution de , où désigne la moyenne de l'échantillon de l'échantillon bootstrap.
Ma question est alors: ai-je besoin du centrage? Pourquoi?
Ne pourrais-je pas simplement approximer par ?
distributions
bootstrap
resampling
centering
Christin
la source
la source
Réponses:
Oui, vous pouvez approximer par P ( ˉ X ∗ n ≤ x ) mais ce n'est pas optimal. Il s'agit d'une forme de bootstrap centile. Cependant, le bootstrap centile ne fonctionne pas bien si vous cherchez à faire des inférences sur la moyenne de la population, sauf si vous avez un échantillon de grande taille. (Il fonctionne bien avec de nombreux autres problèmes d'inférence, y compris lorsque la taille de l'échantillon est petite.) Je tire cette conclusion des statistiques modernes de Wilcox pour les sciences sociales et comportementales , CRC Press, 2012. Une preuve théorique me dépasse, j'ai peur .P ( X¯n≤x ) P (X¯∗n≤ x )
Une variante de l'approche de centrage passe à l'étape suivante et met à l'échelle votre statistique de bootstrap centrée avec l'écart-type de rééchantillonnage et la taille de l'échantillon, en calculant de la même manière qu'à la statistique. Les quantiles de la distribution de ces statistiques t peuvent être utilisés pour construire un intervalle de confiance ou effectuer un test d'hypothèse. Il s'agit de la méthode bootstrap-t et elle donne des résultats supérieurs lors des inférences sur la moyenne.
Soit l'écart type de rééchantillonnage basé sur un rééchantillonnage bootstrap, en utilisant n-1 comme dénominateur; et s être l'écart type de l'échantillon d'origine. Laissers∗
Les 97,5e et 2,5e centiles de la distribution simulée de peuvent faire un intervalle de confiance pour μ en:T∗ μ
Considérez les résultats de la simulation ci-dessous, montrant qu'avec une distribution mixte mal asymétrique, les intervalles de confiance de cette méthode contiennent la valeur vraie plus fréquemment que la méthode de bootstrap centile ou une inverstion traditionnelle de statistique at sans bootstrapping.
Cela donne ce qui suit (conf.t est la méthode bootstrap t; conf.p est la méthode bootstrap centile).
Avec un seul exemple d'une distribution asymétrique:
Cela donne ce qui suit. Notez que "conf.t" - la version bootstrap t - donne un intervalle de confiance plus large que les deux autres. Fondamentalement, il répond mieux à la répartition inhabituelle de la population.
Enfin voici mille simulations pour voir quelle version donne des intervalles de confiance le plus souvent corrects:
Cela donne les résultats ci-dessous - les nombres sont les fois sur 1000 que l'intervalle de confiance contient la vraie valeur d'une population simulée. Notez que le véritable taux de réussite de chaque version est considérablement inférieur à 95%.
la source