Supposons que l'on effectue le bootstrap dit non paramétrique en tirant échantillons de taille n chacun à partir des n observations originales avec remplacement. Je crois que cette procédure équivaut à estimer la fonction de distribution cumulative par le cdf empirique:
http://en.wikipedia.org/wiki/Empirical_distribution_function
puis obtenir les échantillons de bootstrap en simulant observations à partir des temps B estimés de cdf d' affilée.
Si j'ai raison, alors il faut aborder la question du sur-ajustement, car le cdf empirique a environ N paramètres. Bien sûr, asymptotiquement, il converge vers la population cdf, mais qu'en est-il des échantillons finis? Par exemple, si je vous disais que j'ai 100 observations et que je vais estimer le cdf comme avec deux paramètres, vous ne seriez pas alarmé. Cependant, si le nombre de paramètres devait atteindre 100, cela ne semblerait pas du tout raisonnable.
De même, lorsque l'on utilise une régression linéaire multiple standard, la distribution du terme d'erreur est estimée comme . Si l'on décide de passer au bootstrap des résidus, il doit se rendre compte que maintenant il y a environ n paramètres utilisés juste pour gérer la distribution du terme d'erreur.
Pourriez-vous s'il vous plaît me diriger vers certaines sources qui traitent explicitement de ce problème, ou dites-moi pourquoi ce n'est pas un problème si vous pensez que je me suis trompé.
Réponses:
je ne suis pas complètement sûr de bien comprendre votre question ... je suppose que vous êtes intéressé par l'ordre de convergence?
Avez-vous lu les bases de la théorie du bootstrap? Le problème est qu'il devient assez sauvage (mathématiquement) assez rapidement.
Quoi qu'il en soit, je recommande de jeter un œil à
van der Vaart "Statistiques asymptotiques" chapitre 23.
Hall "Bootstrap and Edgeworth expansions" (longue mais concise et moins ondulante que van der Vaart je dirais)
pour les bases.
Chernick "Bootstrap Methods" est plus destiné aux utilisateurs qu'aux mathématiciens mais a une section "où le bootstrap échoue".
Le classique Efron / Tibshirani a peu de raisons pour lesquelles le bootstrap fonctionne réellement ...
la source
Intuitivement, l'amorçage à partir d'échantillons finis sous-estime les queues lourdes de la distribution sous-jacente. C'est clair, car les échantillons finis ont une plage finie, même si la plage de leur vraie distribution est infinie ou, pire encore, a des queues lourdes. Ainsi, le comportement de la statistique bootstrap ne sera jamais aussi "sauvage" que la statistique d'origine. Si similaire à éviter le sur-ajustement en raison de trop de paramètres dans la régression (paramétrique), nous pourrions éviter le sur-ajustement en utilisant la distribution normale à quelques paramètres.
Modifier en répondant aux commentaires: N'oubliez pas que vous n'avez pas besoin du bootstrap pour estimer le cdf. Vous utilisez généralement le bootstrap pour obtenir la distribution (au sens le plus large, y compris les quantiles, les moments, tout ce qui est nécessaire) de certaines statistiques. Vous n'avez donc pas nécessairement de problème de sur-ajustement (en termes de "l'estimation due à mes données finies est trop belle par rapport à ce que je devrais voir avec la vraie distribution sauvage"). Mais comme il s'est avéré (par l'article cité et par le commentaire de Frank Harrel ci-dessous), obtenir un tel problème de surajustement est lié à des problèmes d'estimation paramétrique des mêmes statistiques.
Ainsi, comme votre question l'indique, le bootstrap n'est pas une panacée contre les problèmes d'estimation paramétrique. L'espoir que le bootstrap aiderait à résoudre les problèmes de paramètres en contrôlant la distribution entière est faux.
la source
Une source d'intuition pourrait être de comparer les taux de convergence des CDF paramétriques par rapport aux ECDF, pour les données iid.
Donc, dans un certain sens, la vitesse à laquelle vous devez acquérir plus d'échantillons est la même, que vous estimiez le CDF à l'aide d'un CDF empirique ou que vous estimiez un paramètre directement à l'aide d'un estimateur de type échantillon moyen. Cela pourrait aider à justifier le commentaire de Frank Harrell selon lequel «le nombre de paramètres efficaces n'est pas le même que la taille de l'échantillon».
Bien sûr, ce n'est pas toute l'histoire. Bien que les taux ne diffèrent pas, les constantes le font. Et le bootstrap non paramétrique est bien plus que les ECDF --- vous devez toujours faire les choses avec l'ECDF une fois que vous l'avez estimé.
la source