La réponse donnée par miura n'est pas entièrement exacte, donc je réponds à cette vieille question pour la postérité:
(2). Ce sont des choses très différentes. Le cdf empirique est une estimation du CDF (distribution) qui a généré les données. Précisément, il est le CDF discret qui assigne probabilité pour chaque point de données observées, F ( x ) = 11 / n, pour chaquex. Cet estimateur converge vers la vraie cdf: F (x)→F(x)=P(Xi≤x)presque sûrement pour chaquex(uniformément en fait).F^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
La distribution d'échantillonnage d'une statistique est plutôt la distribution de la statistique que vous vous attendez à voir sous expérimentation répétée. Autrement dit, vous effectuez votre expérience une fois et collectez les données X 1 , … , X n . T est fonction de vos données: T = T ( X 1 , … , X n ) . Supposons maintenant que vous répétiez l'expérience et collectiez les données X ′ 1 , … , X ′ n . Le recalcul de T sur le nouvel échantillon donne T ′TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′n . Si nous nous aurions recueilli 100 échantillons100 estimations de T . Ces observations de T forment la distribution d'échantillonnage de T . C'est une vraie distribution. Lorsque le nombre d'expériences atteint l'infini, sa moyenne converge vers E ( T ) et sa variance vers V a r ( T ) .T′=T(X′1,…,X′n)TTTE(T)Var(T)
En général, bien sûr , nous ne sommes pas des expériences répétées comme celle - ci, nous ne jamais voir une instance de . Il est très difficile de déterminer la variance de T à partir d'une seule observation si vous ne connaissez pas la fonction de probabilité sous-jacente de T a priori. Bootstrapping est un moyen d'estimer que la distribution d'échantillonnage de T en exécutant artificiellement « nouvelles expériences » sur lequel calculer les nouvelles instances de T . Chaque nouvel échantillon n'est en fait qu'un rééchantillonnage à partir des données d'origine. Que cela vous fournisse plus d'informations que vous n'en avez dans les données d'origine est mystérieux et totalement génial.TTTTT
(1). Vous avez raison - vous ne feriez pas cela. L'auteur essaie de motiver le bootstrap paramétrique en le décrivant comme faisant "ce que vous feriez si vous connaissiez la distribution" mais en substituant un très bon estimateur de la fonction de distribution - le cdf empirique.
Par exemple, supposons que vous savez que votre statistique de test est normalement distribuée avec un zéro moyen, la variance un. Comment estimeriez-vous la distribution d'échantillonnage de T ? Eh bien, puisque vous connaissez la distribution, une façon idiote et redondante d'estimer la distribution d'échantillonnage consiste à utiliser R pour générer environ 10 000 variables aléatoires normales standard, puis prendre leur moyenne et variance d'échantillonnage, et les utiliser comme nos estimations de la moyenne et variance de la distribution d'échantillonnage de T .TTT
Si nous ne connaissons pas a priori les paramètres de , mais nous savons qu'il est normalement distribué, ce que nous pouvons faire à la place, c'est générer environ 10 000 échantillons à partir du cdf empirique, calculer T sur chacun d'eux, puis prendre la moyenne de l'échantillon et la variance de ces 10 000 T s, et les utiliser comme nos estimations de la valeur attendue et la variance de T . Puisque le cdf empirique est un bon estimateur du vrai cdf, les paramètres de l'échantillon devraient converger vers les vrais paramètres. C'est le bootstrap paramétrique: vous posez un modèle sur la statistique que vous souhaitez estimer. Le modèle est indexé par un paramètre, par exemple ( μ , σ )TTTT(μ,σ), que vous estimez à partir d'un échantillonnage répété de l'ecdf.
(3). Le bootstrap non paramétrique ne nécessite même pas que vous sachiez a priori que est normalement distribué. Au lieu de cela, vous tirez simplement des échantillons répétés du fichier ecdf et calculez T sur chacun. Après avoir tiré environ 10 000 échantillons et calculé 10 000 T s, vous pouvez tracer un histogramme de vos estimations. Ceci est une visualisation de la distribution d'échantillonnage de TTTTT. Le bootstrap non paramétrique ne vous dira pas que la distribution d'échantillonnage est normale ou gamma, etc., mais il vous permet d'estimer la distribution d'échantillonnage (généralement) aussi précisément que nécessaire. Il fait moins d'hypothèses et fournit moins d'informations que le bootstrap paramétrique. Elle est moins précise lorsque l'hypothèse paramétrique est vraie mais plus précise lorsqu'elle est fausse. Lequel vous utilisez dans chaque situation que vous rencontrez dépend entièrement du contexte. Certes, plus de gens connaissent le bootstrap non paramétrique, mais souvent une hypothèse paramétrique faible rend un modèle complètement insurmontable, ce qui est agréable.
J'apprécie vraiment l'effort fourni par guest47, mais je ne suis pas tout à fait d'accord avec sa réponse, à certains égards mineurs. Je ne poserais pas directement mes désaccords, mais plutôt les refléter dans cette réponse.
Dans de nombreux cas, il est redondant de calculer θ s quand on sait déjà le paramètre vrai sous - jacent θ * . Cependant, il est toujours utile quand nous voulons examiner l'exactitude et la précision de θ s dans l' estimation θ * . Par ailleurs, le premier paragraphe de votre passage cité vous permettra de mieux comprendre la notion de "bootstrap paramétrique", que j'aborderai peu de temps après.θ^s θ∗ θ^s θ∗
Guest47 donne une bonne réponse. Pas besoin d'élaborer davantage.
la source
Je ne suis pas un expert, mais pour ce que ça vaut:
Parce que vous êtes intéressé par la distribution d'échantillonnage, comme mentionné dans la première phrase de votre devis.
La distribution empirique est la distribution que vous voyez dans votre nombre fini d'échantillons. La distribution d'échantillonnage est ce que vous verriez si vous preniez un nombre infini d'échantillons.
Je ne peux pas répondre 3. J'ai toujours compris ce qui est décrit ici comme un bootstrap non paramétrique comme "le" bootstrap.
Si vous n'avez pas encore complètement compris le concept de la distribution d'échantillonnage, il y a un très bon fil ici qui présente un code R très illustratif.
la source