Pourquoi l'amorçage est-il utile?

13

Si vous ne faites que rééchantillonner à partir de la distribution empirique, pourquoi ne pas simplement étudier la distribution empirique? Par exemple, au lieu d'étudier la variabilité par échantillonnage répété, pourquoi ne pas simplement quantifier la variabilité à partir de la distribution empirique?

ztyh
la source
6
" (En ce sens,) la distribution bootstrap représente une distribution postérieure (approximative) non paramétrique et non informative pour notre paramètre. Mais cette distribution bootstrap est obtenue sans douleur - sans avoir à spécifier formellement un préalable et sans avoir à échantillonner à partir de la distribution postérieure. nous pourrions penser à la distribution bootstrap comme un postérieur bayésien du «pauvre». »Hastie et al. The Elements of Statistical Learning ". Sect. 8.4.
usεr11852
8
Comment quantifierions-nous l'incertitude de nos estimations à partir de la distribution empirique?
usεr11852
2
"Dans des conditions de régularité modérées, le bootstrap donne une approximation de la distribution d'un estimateur ou d'une statistique de test qui est au moins aussi précise que l'approximation obtenue à partir de la théorie asymptotique de premier ordre". unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman
10
Vous vous disputez, n'essayez pas de comprendre. Croyez-moi, vous ne vous êtes pas rendu compte que le bootstrap est sans valeur contrairement à celui de plusieurs milliers de statisticiens sur une quarantaine d'années. Vous n'avez pas lu attentivement le devis. Je pense que vous n'avez pas compris le rôle clé que joue l'aléatoire dans les statistiques. Des déclarations comme "Pourquoi s'embêter !!" en ce qui concerne "obtenir une distribution de sont ... inhabituels, pour dire le moins. Si vous ne pensez pas qu'il est important de comprendre la distribution de vos estimations, vous voudrez peut-être vous demander pourquoi le domaine des statistiques existe du tout, etT(X)
repensez
4
@ztyh Vous dites "si vous mappez chaque échantillon à T ( X ), vous obtenez une distribution de T ( X ) ". Vous devriez peut-être y penser, comment mapperiez- vous un seul point X i à T ( X ) = ˉ X ? Ou toute fonction T ( X 1 , X 2 , X n )XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn) d'ailleurs.
knrumsey

Réponses:

18

Le bootstrap (ou autre rééchantillonnage) est une méthode expérimentale pour estimer la distribution d'une statistique.

Il s'agit d'une méthode très simple et simple (cela signifie simplement que vous calculez avec de nombreuses variantes aléatoires des données de l'échantillon afin d'obtenir, une estimation de, la distribution souhaitée de la statistique).

Vous l'utilisez très probablement lorsque l'expression «théorique / analytique» est trop difficile à obtenir / à calculer (ou, comme dit aksakal, parfois elles sont inconnues).

  • Exemple 1: si vous effectuez une analyse pca et souhaitez comparer les résultats avec des «estimations de l'écart des valeurs propres» étant donné l'hypothèse qu'il n'y a pas de corrélation dans les variables.

    Vous pouvez, brouiller les données plusieurs fois et recalculer les valeurs propres pca de telle sorte que vous obteniez une distribution (basée sur des tests aléatoires avec les données d'échantillon) pour les valeurs propres.

    Notez que les pratiques actuelles regardent un tracé éboulis et appliquent des règles empiriques afin de «décider» si une certaine valeur propre est significative / importante ou non.

  • Exemple 2: Vous avez effectué une régression non linéaire y ~ f (x) en vous fournissant une estimation du groupe de paramètres pour la fonction f. Vous souhaitez maintenant connaître l'erreur standard pour ces paramètres.

    Un simple regard sur les résidus et l'algèbre linéaire, comme dans OLS, n'est pas possible ici. Cependant, un moyen simple consiste à calculer la même régression plusieurs fois avec les résidus / erreurs réembrouillés afin de se faire une idée de la façon dont les paramètres varieraient (étant donné que la distribution du terme d'erreur peut être modélisée par les résidus observés).


Écrit par StackExchangeStrike

Sextus Empiricus
la source
2
Je pense que votre exemple n'est pas un bootstrap. Son juste échantillonnage à partir d'une distribution nulle connue. Bootstrap est l'endroit où vous avez un échantillon et un échantillonnage répété à partir de cet échantillon.
2018
3
Dans votre question, vous imaginez calculer la variance d'un échantillon, ce qui est en effet simple et ne nécessite pas d'amorçage. Dans mon exemple, je parle d'une situation dans laquelle nous avons une valeur dérivée de l'échantillon. Alors nous ne pouvons plus simplement calculer une variance, nous souhaitons tout de même savoir comment elle varie. En brouillant les données plusieurs fois et en recalculant les valeurs propres de pca, vous pouvez obtenir une telle distribution (aléatoire) de données qui suit la distribution de votre échantillon. Si je ne me trompe pas c'est appelé bootstrapping.
Sextus Empiricus
Ok, je vois où je me méprenais. Votre exemple est logique. Merci.
2018
8

L'essentiel est que le bootstrap ne consiste pas vraiment à déterminer les caractéristiques de la distribution des données , mais plutôt à comprendre les caractéristiques d'un estimateur appliqué aux données.

Quelque chose comme la fonction de distribution empirique vous donnera une assez bonne estimation du CDF d'où proviennent les données ... mais en isolant, cela ne vous dit pratiquement rien sur la fiabilité des estimateurs que nous construisons à partir de ces données. C'est à cette question que répond le bootstrap.

Cliff AB
la source
1
Utiliser le bootstrap (non paramétrique) pour trouver "la distribution des données" serait un rire: il s'agit simplement de la fonction de distribution empirique, qui est exactement l'ensemble de données avec lequel l'analyste a commencé. Ça me rappelle l'algèbre de l'université quand je "résolvais pour X" et trouvais "X = X".
AdamO
3

SI vous savez exactement quelle est la distribution sous-jacente, vous n'avez pas besoin de l'étudier. Parfois, en sciences naturelles, vous connaissez exactement la distribution.

SI vous connaissez le type de la distribution, il vous suffit d'estimer ses paramètres et de l'étudier dans le sens que vous vouliez. Par exemple, vous savez parfois a priori que la distribution sous-jacente est normale. Dans certains cas, vous savez même quelle est sa moyenne. Donc, pour la normale, la seule chose qui reste à découvrir est l'écart type. Vous obtenez l'écart-type de l'échantillon de l'échantillon, et le tour est joué, vous obtenez la distribution à étudier.

SI vous ne savez pas quelle est la distribution, mais pensez que c'est l'une des nombreuses de la liste, alors vous pouvez essayer d'adapter cette distribution aux données et choisir celle qui convient le mieux. ALORS vous étudiez cette distribution.

ENFIN, souvent vous ne savez pas quel type de distribution vous traitez. Et vous n'avez aucune raison de croire qu'il appartient à l'une des 20 distributions auxquelles R peut adapter vos données. Qu'est ce que tu vas faire? Ok, vous regardez les écarts moyens et standard, c'est bien. Mais si c'est très biaisé? Et si son kurtosis est très grand? etc. Il faut vraiment connaître tous les moments de la distribution pour le savoir et l'étudier. Donc, dans ce cas, le bootstrap non paramétrique est pratique. Vous ne supposez pas grand-chose, et vous en échantillonnez simplement, puis étudiez ses moments et d'autres propriétés.

Bien que l'amorçage non paramétrique ne soit pas un outil magique, il présente des problèmes. Par exemple, il peut être biaisé. Je pense que le bootstrap paramétrique n'est pas biaisé

Aksakal
la source
1
Je pense que même si vous ne connaissiez pas la vraie distribution, de nombreux moments sont faciles à calculer. Je pense donc que le problème n'est pas de ne pas savoir quel type de distribution vous traitez. Il s'agit plutôt du type de statistiques que vous essayez d'étudier. Certaines statistiques peuvent être difficiles à calculer et ce n'est qu'alors que le bootstrap est utile.
ztyh
Comme dans le commentaire à la question à usεr11852, en fait j'ai des doutes sur les avantages en ce qui concerne la calculabilité des statistiques aussi ...
ztyh
ln(x3+x)
1
xzf(x,z)x,z
1
fxzf(x,z)