Intuitivement, comment fonctionne le bootstrap sauvage?

Supposons que vous ayez un ensemble d'apprentissage de exemples de paires . $\mathcal{T}$ $n$ $(y_i, \vec{x}_i)$

Un bootstrap normal est un ensemble de exemples de paires , où est une séquence de entiers aléatoires échantillonnés uniformément de 1 à . En particulier, notez que chaque exemple dans est exactement le même que l'un des exemples de , et certains sont répétés. Mais cela est un peu bizarre, surtout lorsque la variable de réponse est continue, car si nous rééchantillonnions la population d'origine, nous n'obtiendrions sûrement même pas un double exact , alors qu'un bootstrap en aurait probablement plusieurs. $\mathcal{B}$ $n$ $(y_{r_i}, \vec{x}_{r_i})$ $r_i$ $n$ $n$ $\mathcal{B}$ $\mathcal{T}$

Pour éviter les doublons, nous avons besoin que les exemples de ne soient pas des copies conformes d'exemples de , mais plutôt des exemples synthétiques qui ressemblent plus à ce que nous obtiendrions que nous avons échantillonnés à partir de la population d'origine. Cela nécessite de faire une hypothèse sur la répartition de la population d'origine. $\mathcal{B}$ $\mathcal{T}$

Si nous supposons l'homoscédasticité et ajustons un modèle linéaire à qui a des résidus alors nous pouvons construire de nouveaux exemples synthétiques en remplaçant le résidu ajusté de chaque exemple par le résidu d'un exemple d'apprentissage différent . Si les résidus sont vraiment iid, il ne devrait y avoir aucun problème à les échanger les uns contre les autres. Nous faisons ce remplacement en soustrayant le résiduel trouvé pour l'exemple de formation et en ajoutant le résiduel pour un autre exemple: $\mathcal{T}$ $e_i$ $(y_i, \vec{x}_i)$

\begin{matrix} (1) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + e_{r'_i} \tag{1}$

Où et sont deux rééchantillonnages différents et indépendants. On peut alors former le bootstrap de la manière habituelle: $r_i$ $r'_i$

\begin{matrix} (2) & B = {(y_{i}^{*}, {\vec{x}}_{i})}_{i = 1}^{n} \end{matrix}

$\mathcal{B} = \{\, (y^*_i, \vec{x}_i)\, \}_{i=1}^n \tag{2}$

C'est ce qu'on appelle le bootstrap résiduel et peut être considéré comme le choix de nouveaux résidus à partir de la fonction de distribution empirique des résidus.

Pour assouplir davantage les hypothèses iid et homoskedasticity, nous pouvons utiliser un bootstrap sauvage , où nous calculons la nouvelle variable de réponse encore plus au hasard en multipliant le résidu choisi au hasard par encore une autre variable aléatoire . $v_i$

\begin{matrix} (3) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + v_{i} e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + v_i e_{r'_i} \tag{3}$

Souvent, la distribution normale standard est utilisée mais d'autres choix sont possibles. Par exemple, parfois est simplement choisi avec une probabilité égale parmi , qui retourne simplement le signe au hasard la moitié du temps, forçant la distribution résiduelle à être symétrique. Le but est d'obtenir des exemples de formation plus proches de ce que nous aurions pu tirer de la population d'origine sans la réplication artificielle introduite par le bootstrap. $v_i \sim \mathcal{N}(0, 1)$ $v_i$ $\{-1,1\}$

olooney
la source

Donc, fondamentalement, nous générons des erreurs qui se comportent de la même manière que les résidus réels, puis obtenons des données réelles qui fonctionnent de la même manière que les données réelles? Des manuels à recommander?

Francis Origi

alors quoi, que faisons-nous avec toutes ces données supplémentaires? Comment calcule-t-on les statistiques t, etc.?

Francis Origi

Intuitivement, comment fonctionne le bootstrap sauvage?

Réponses: