Questions sur le bootstrap paramétrique et non paramétrique

14

Je lis le chapitre sur les statistiques fréquentes du livre de Kevin Murphy " Machine Learning - A Probabilistic Perspective ". La section sur le bootstrap se lit comme suit:

Le bootstrap est une technique Monte Carlo simple pour approximer la distribution d'échantillonnage. Ceci est particulièrement utile dans les cas où l'estimateur est une fonction complexe des vrais paramètres.

L'idée est simple. Si nous connaissions les vrais paramètres , nous pourrions générer de nombreux (disons ) faux ensembles de données, chacun de taille , à partir de la vraie distribution, , pour . Nous pourrions alors calculer notre estimateur à partir de chaque échantillon, et utiliser la distribution empirique des échantillons résultants comme estimation de la distribution d'échantillonnage. Puisque est inconnu, l'idée du bootstrap paramétrique est de générer les échantillons en utilisant \ hat {\ theta} (D) à la place. SN x s ip(· | θ )s=1:S,i=1:N ^ θ s =f( x s 1 : N )θθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

Une alternative, appelée bootstrap non paramétrique , consiste à échantillonner le xis (avec remplacement) à partir des données d'origine D , puis à calculer la distribution induite comme précédemment. Certaines méthodes permettant d'accélérer le bootstrap lorsqu'il est appliqué à des ensembles de données massifs sont discutées dans (Kleiner et al. 2011).

  • 1 . Le texte dit:

    Si nous connaissions les vrais paramètres θ ... nous pourrions calculer notre estimateur à partir de chaque échantillon, θs^ ...

        mais pourquoi utiliserais-je l'estimateur de chaque échantillon si je connais déjà les vrais paramètres θ ?

  • 2 . Aussi, quelle est la différence ici entre la distribution empirique et la distribution d'échantillonnage?

  • 3 . Enfin, je ne comprends pas très bien la différence entre le bootstrap paramétrique et non paramétrique de ce texte. Ils déduisent tous deux de l'ensemble des observations , mais quelle est exactement la différence?DθD

Amelio Vazquez-Reina
la source

Réponses:

14

La réponse donnée par miura n'est pas entièrement exacte, donc je réponds à cette vieille question pour la postérité:

(2). Ce sont des choses très différentes. Le cdf empirique est une estimation du CDF (distribution) qui a généré les données. Précisément, il est le CDF discret qui assigne probabilité pour chaque point de données observées, F ( x ) = 11/n, pour chaquex. Cet estimateur converge vers la vraie cdf: F (x)F(x)=P(Xix)presque sûrement pour chaquex(uniformément en fait).F^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

La distribution d'échantillonnage d'une statistique est plutôt la distribution de la statistique que vous vous attendez à voir sous expérimentation répétée. Autrement dit, vous effectuez votre expérience une fois et collectez les données X 1 , , X n . T est fonction de vos données: T = T ( X 1 , , X n ) . Supposons maintenant que vous répétiez l'expérience et collectiez les données X 1 , , X n . Le recalcul de T sur le nouvel échantillon donne T TX1,,XnTT=T(X1,,Xn)X1,,Xn . Si nous nous aurions recueilli 100 échantillons100 estimations de T . Ces observations de T forment la distribution d'échantillonnage de T . C'est une vraie distribution. Lorsque le nombre d'expériences atteint l'infini, sa moyenne converge vers E ( T ) et sa variance vers V a r ( T ) .T=T(X1,,Xn)TTTE(T)Var(T)

En général, bien sûr , nous ne sommes pas des expériences répétées comme celle - ci, nous ne jamais voir une instance de . Il est très difficile de déterminer la variance de T à partir d'une seule observation si vous ne connaissez pas la fonction de probabilité sous-jacente de T a priori. Bootstrapping est un moyen d'estimer que la distribution d'échantillonnage de T en exécutant artificiellement « nouvelles expériences » sur lequel calculer les nouvelles instances de T . Chaque nouvel échantillon n'est en fait qu'un rééchantillonnage à partir des données d'origine. Que cela vous fournisse plus d'informations que vous n'en avez dans les données d'origine est mystérieux et totalement génial.TTTTT

(1). Vous avez raison - vous ne feriez pas cela. L'auteur essaie de motiver le bootstrap paramétrique en le décrivant comme faisant "ce que vous feriez si vous connaissiez la distribution" mais en substituant un très bon estimateur de la fonction de distribution - le cdf empirique.

Par exemple, supposons que vous savez que votre statistique de test est normalement distribuée avec un zéro moyen, la variance un. Comment estimeriez-vous la distribution d'échantillonnage de T ? Eh bien, puisque vous connaissez la distribution, une façon idiote et redondante d'estimer la distribution d'échantillonnage consiste à utiliser R pour générer environ 10 000 variables aléatoires normales standard, puis prendre leur moyenne et variance d'échantillonnage, et les utiliser comme nos estimations de la moyenne et variance de la distribution d'échantillonnage de T .TTT

Si nous ne connaissons pas a priori les paramètres de , mais nous savons qu'il est normalement distribué, ce que nous pouvons faire à la place, c'est générer environ 10 000 échantillons à partir du cdf empirique, calculer T sur chacun d'eux, puis prendre la moyenne de l'échantillon et la variance de ces 10 000 T s, et les utiliser comme nos estimations de la valeur attendue et la variance de T . Puisque le cdf empirique est un bon estimateur du vrai cdf, les paramètres de l'échantillon devraient converger vers les vrais paramètres. C'est le bootstrap paramétrique: vous posez un modèle sur la statistique que vous souhaitez estimer. Le modèle est indexé par un paramètre, par exemple ( μ , σ )TTTT(μ,σ), que vous estimez à partir d'un échantillonnage répété de l'ecdf.

(3). Le bootstrap non paramétrique ne nécessite même pas que vous sachiez a priori que est normalement distribué. Au lieu de cela, vous tirez simplement des échantillons répétés du fichier ecdf et calculez T sur chacun. Après avoir tiré environ 10 000 échantillons et calculé 10 000 T s, vous pouvez tracer un histogramme de vos estimations. Ceci est une visualisation de la distribution d'échantillonnage de TTTTT. Le bootstrap non paramétrique ne vous dira pas que la distribution d'échantillonnage est normale ou gamma, etc., mais il vous permet d'estimer la distribution d'échantillonnage (généralement) aussi précisément que nécessaire. Il fait moins d'hypothèses et fournit moins d'informations que le bootstrap paramétrique. Elle est moins précise lorsque l'hypothèse paramétrique est vraie mais plus précise lorsqu'elle est fausse. Lequel vous utilisez dans chaque situation que vous rencontrez dépend entièrement du contexte. Certes, plus de gens connaissent le bootstrap non paramétrique, mais souvent une hypothèse paramétrique faible rend un modèle complètement insurmontable, ce qui est agréable.

guest47
la source
1
Je suis confus quant à votre description du bootstrap paramétrique "ce que nous pouvons faire à la place est de générer environ 10 000 échantillons à partir du cdf empirique" Ma compréhension du bootstrap paramétrique est que vous échantillonner à partir d'un modèle que vous ajustez aux données. C'est ce que décrit la citation originale du livre de Murphy. Je pourrais être mal interprété, mais l'échantillonnage à partir du CDF empirique des données serait l'échantillonnage direct des points de données, ce qui serait le bootstrap standard, non?
user20160
@ user20160 vous avez mal interprété la réponse "Au lieu de cela": il décrit le bootstrap non paramétrique, pas paramétrique.
daknowles
4

J'apprécie vraiment l'effort fourni par guest47, mais je ne suis pas tout à fait d'accord avec sa réponse, à certains égards mineurs. Je ne poserais pas directement mes désaccords, mais plutôt les refléter dans cette réponse.

  1. Dans de nombreux cas, il est redondant de calculer θ s quand on sait déjà le paramètre vrai sous - jacent θ * . Cependant, il est toujours utile quand nous voulons examiner l'exactitude et la précision de θ s dans l' estimation θ * . Par ailleurs, le premier paragraphe de votre passage cité vous permettra de mieux comprendre la notion de "bootstrap paramétrique", que j'aborderai peu de temps après.θ^sθθ^sθ

  2. Guest47 donne une bonne réponse. Pas besoin d'élaborer davantage.

  3. θ^θθ^θ^s

QINGYUAN FENG
la source
2

Je ne suis pas un expert, mais pour ce que ça vaut:

  1. Parce que vous êtes intéressé par la distribution d'échantillonnage, comme mentionné dans la première phrase de votre devis.

  2. La distribution empirique est la distribution que vous voyez dans votre nombre fini d'échantillons. La distribution d'échantillonnage est ce que vous verriez si vous preniez un nombre infini d'échantillons.

Je ne peux pas répondre 3. J'ai toujours compris ce qui est décrit ici comme un bootstrap non paramétrique comme "le" bootstrap.

Si vous n'avez pas encore complètement compris le concept de la distribution d'échantillonnage, il y a un très bon fil ici qui présente un code R très illustratif.

miura
la source
5
La différence entre le bootstrap paramétrique et non paramétrique est que le premier génère ses échantillons à partir de la distribution (supposée) des données, en utilisant les valeurs des paramètres estimés, tandis que le second génère ses échantillons par échantillonnage avec remplacement à partir des données observées - aucun modèle paramétrique n'est supposé .
jbowman
@jbowman - le bootstrap « non-paramétrique » n'ont un modèle sous - jacent - juste qu'il est un modèle différent de celui utilisé pour motiver l'estimation des paramètres.
Probabilogic
@miura Veuillez ne pas vandaliser votre réponse. Si vous souhaitez que le demandeur choisisse une réponse différente, commentez sous la question. Si vous souhaitez que votre réponse soit supprimée, veuillez la signaler et la demander.
Glen_b -Reinstate Monica