J'applique un modèle linéaire à mes données:
Je voudrais estimer l'intervalle de confiance (CI) des coefficients ( , ) en utilisant la méthode bootstrap. Il y a deux façons d'appliquer la méthode d'amorçage: β 1
Exemple de prédicteur de réponse apparié: rééchantillonnez au hasard des paires de et appliquez une régression linéaire à chaque analyse. Après exécutions, nous obtenons une collection de coefficients estimés . Enfin, calculez le quantile de . m ^ β j , j = 1 , . . . m ^ β j
Exemple d'erreur: Appliquer d'abord une régression linéaire sur les données observées d'origine, à partir de ce modèle, nous obtenons et l'erreur . Ensuite, rééchantillonnez au hasard l'erreur et calculez les nouvelles données avec et . Appliquer à nouveau la régression linéaire. Après exécutions, nous obtenons une collection d'estimations de coefficients estimées . Enfin, calculez le quantile de .
Mes questions sont:
- En quoi ces deux méthodes sont-elles différentes?
- Dans quelle hypothèse ces deux méthodes donnent-elles le même résultat?
la source
boot.ci(my.boot, type="basic")
R
rms
validate
etcalibrate
.Réponses:
Si les paires de prédicteurs de réponse ont été obtenues à partir d'une population par échantillon aléatoire, il est sûr d'utiliser le schéma de rééchantillonnage cas / aléatoire-x / votre premier. Si les prédicteurs ont été contrôlés ou si les valeurs des prédicteurs ont été définies par l'expérimentateur, vous pouvez envisager d'utiliser un schéma de rééchantillonnage résiduel / basé sur le modèle / fixe x / votre seconde.
Comment les deux diffèrent-ils? Une introduction au bootstrap avec des applications en R par Davison et Kounen a une discussion pertinente à cette question (voir p.9). Voir aussi le code R dans cette annexe par John Fox , en particulier les fonctions boot.huber en p.5 pour le schéma random-x et boot.huber.fixed en p.10 pour le schéma fixed-x. Alors que dans les notes de cours de Shalizi les deux schémas sont appliqués à différents ensembles de données / problèmes, l'annexe de Fox illustre le peu de différence que les deux schémas peuvent souvent faire.
Quand peut-on s'attendre à ce que les deux produisent des résultats presque identiques? Une situation se produit lorsque le modèle de régression est correctement spécifié, par exemple, il n'y a pas de non-linéarité non modélisée et les hypothèses de régression habituelles (par exemple, erreurs iid, pas de valeurs aberrantes) sont satisfaites. Voir le chapitre 21 du livre de Fox (dans lequel l'annexe susmentionnée avec le code R appartient indirectement), en particulier la discussion de la page 598 et l'exercice 21.3. intitulé "Rééchantillonnage aléatoire versus fi xe en régression". Pour citer le livre
Vous apprendrez également de cette discussion pourquoi le bootstrap fixed-x suppose implicitement que la forme fonctionnelle du modèle est correcte (même si aucune hypothèse n'est formulée sur la forme de la distribution des erreurs).
Voir également la diapositive 12 de cet exposé pour Society Of Actuaries in Ireland de Derek Bain. Il présente également une illustration de ce qui devrait être considéré comme "le même résultat":
la source