Je lis actuellement "Toutes les statistiques" de Larry Wasserman et je suis perplexe à propos de quelque chose qu'il a écrit dans le chapitre sur l'estimation des fonctions statistiques des modèles non paramétriques.
Il a écrit
"Parfois, nous pouvons trouver l'erreur-type estimée d'une fonction statistique en effectuant quelques calculs. Cependant, dans d'autres cas, il n'est pas évident de savoir comment estimer l'erreur-type".
Je voudrais souligner que dans le chapitre suivant, il parle de bootstrap pour résoudre ce problème, mais comme je ne comprends pas vraiment cette déclaration, je n'obtiens pas pleinement l'incitation derrière Bootstrapping?
Dans quel exemple existe-t-il quand on ne sait pas comment estimer l'erreur type?
Tous les exemples que je l' ai vu jusqu'à présent ont été « évidents » tels que puis ^ s e ( p n ) = √
Réponses:
Deux réponses.
la source
Un exemple pourrait aider à illustrer. Supposons que , dans un cadre de modélisation de cause à effet, vous êtes intéressé à déterminer si la relation entre (une exposition d'intérêt) un Y (un résultat d'intérêt) est médiée par une variable W . Cela signifie que dans les deux modèles de régression:X Y W
L'effet est différent de l'effet γ 1 .β1 γ1
À titre d'exemple, considérons la relation entre le tabagisme et le risque cardiovasculaire (CV). Le tabagisme augmente évidemment le risque CV (pour des événements comme les crises cardiaques et les accidents vasculaires cérébraux) en provoquant la fragilisation et la calcification des veines. Cependant, le tabagisme est également un coupe-faim. Nous serions donc curieux de savoir si la relation estimée entre le tabagisme et le risque CV est médiée par l'IMC, qui est indépendamment un facteur de risque de risque CV. Ici, pourrait être un événement binaire (infarctus du myocarde ou neurologique) dans un modèle de régression logistique ou une variable continue comme la calcification artérielle coronaire (CAC), la fraction d'éjection ventriculaire gauche (FEVG) ou la masse ventriculaire gauche (LVM).Y
Nous adapterions deux modèles 1: ajustement pour le tabagisme et le résultat avec d'autres facteurs de confusion comme l'âge, le sexe, le revenu et les antécédents familiaux de maladie cardiaque, puis 2: toutes les covariables précédentes ainsi que l'indice de masse corporelle. La différence dans l'effet de tabagisme entre les modèles 1 et 2 est l'endroit où nous basons notre inférence.
la source
Having parametric solutions for each statistical measure would be desirable but, at the same time, quite unrealistic. Bootstrap comes in handy in those instances. The example that springs to my mind concerns the difference between two means of highly skewed cost distributions. In that case, the classic two-sample t-test fails to meet its theoretical requirements (the distributions from which the samples under investigation were drawn surely depart from normality, due to their long right-tail) and non-parametric tests lack to convey useful infromation to decision-makers (who are usually not interested in ranks). A possible solution to avoid being stalled on that issue is a two-sample bootstrap t-test.
la source