Si vous ne faites que rééchantillonner à partir de la distribution empirique, pourquoi ne pas simplement étudier la distribution empirique? Par exemple, au lieu d'étudier la variabilité par échantillonnage répété, pourquoi ne pas simplement quantifier la variabilité à partir de la distribution empirique?
13
Réponses:
Le bootstrap (ou autre rééchantillonnage) est une méthode expérimentale pour estimer la distribution d'une statistique.
Il s'agit d'une méthode très simple et simple (cela signifie simplement que vous calculez avec de nombreuses variantes aléatoires des données de l'échantillon afin d'obtenir, une estimation de, la distribution souhaitée de la statistique).
Vous l'utilisez très probablement lorsque l'expression «théorique / analytique» est trop difficile à obtenir / à calculer (ou, comme dit aksakal, parfois elles sont inconnues).
Exemple 1: si vous effectuez une analyse pca et souhaitez comparer les résultats avec des «estimations de l'écart des valeurs propres» étant donné l'hypothèse qu'il n'y a pas de corrélation dans les variables.
Vous pouvez, brouiller les données plusieurs fois et recalculer les valeurs propres pca de telle sorte que vous obteniez une distribution (basée sur des tests aléatoires avec les données d'échantillon) pour les valeurs propres.
Notez que les pratiques actuelles regardent un tracé éboulis et appliquent des règles empiriques afin de «décider» si une certaine valeur propre est significative / importante ou non.
Exemple 2: Vous avez effectué une régression non linéaire y ~ f (x) en vous fournissant une estimation du groupe de paramètres pour la fonction f. Vous souhaitez maintenant connaître l'erreur standard pour ces paramètres.
Un simple regard sur les résidus et l'algèbre linéaire, comme dans OLS, n'est pas possible ici. Cependant, un moyen simple consiste à calculer la même régression plusieurs fois avec les résidus / erreurs réembrouillés afin de se faire une idée de la façon dont les paramètres varieraient (étant donné que la distribution du terme d'erreur peut être modélisée par les résidus observés).
Écrit par StackExchangeStrike
la source
L'essentiel est que le bootstrap ne consiste pas vraiment à déterminer les caractéristiques de la distribution des données , mais plutôt à comprendre les caractéristiques d'un estimateur appliqué aux données.
Quelque chose comme la fonction de distribution empirique vous donnera une assez bonne estimation du CDF d'où proviennent les données ... mais en isolant, cela ne vous dit pratiquement rien sur la fiabilité des estimateurs que nous construisons à partir de ces données. C'est à cette question que répond le bootstrap.
la source
SI vous savez exactement quelle est la distribution sous-jacente, vous n'avez pas besoin de l'étudier. Parfois, en sciences naturelles, vous connaissez exactement la distribution.
SI vous connaissez le type de la distribution, il vous suffit d'estimer ses paramètres et de l'étudier dans le sens que vous vouliez. Par exemple, vous savez parfois a priori que la distribution sous-jacente est normale. Dans certains cas, vous savez même quelle est sa moyenne. Donc, pour la normale, la seule chose qui reste à découvrir est l'écart type. Vous obtenez l'écart-type de l'échantillon de l'échantillon, et le tour est joué, vous obtenez la distribution à étudier.
SI vous ne savez pas quelle est la distribution, mais pensez que c'est l'une des nombreuses de la liste, alors vous pouvez essayer d'adapter cette distribution aux données et choisir celle qui convient le mieux. ALORS vous étudiez cette distribution.
ENFIN, souvent vous ne savez pas quel type de distribution vous traitez. Et vous n'avez aucune raison de croire qu'il appartient à l'une des 20 distributions auxquelles R peut adapter vos données. Qu'est ce que tu vas faire? Ok, vous regardez les écarts moyens et standard, c'est bien. Mais si c'est très biaisé? Et si son kurtosis est très grand? etc. Il faut vraiment connaître tous les moments de la distribution pour le savoir et l'étudier. Donc, dans ce cas, le bootstrap non paramétrique est pratique. Vous ne supposez pas grand-chose, et vous en échantillonnez simplement, puis étudiez ses moments et d'autres propriétés.
Bien que l'amorçage non paramétrique ne soit pas un outil magique, il présente des problèmes. Par exemple, il peut être biaisé. Je pense que le bootstrap paramétrique n'est pas biaisé
la source