J'ai du mal à comprendre comment utiliser le bootstrap pour calculer les intervalles de prédiction pour un modèle de régression linéaire. Quelqu'un peut-il décrire une procédure étape par étape? J'ai cherché via google mais rien n'a vraiment de sens pour moi.
Je comprends comment utiliser le bootstrap pour calculer les intervalles de confiance pour les paramètres du modèle.
Réponses:
Les intervalles de confiance tiennent compte de l'incertitude d'estimation. Les intervalles de prédiction ajoutent à cela l'incertitude fondamentale. Les R
predict.lm
vous donneront l'intervalle de prédiction pour un modèle linéaire. À partir de là, tout ce que vous avez à faire est de l'exécuter à plusieurs reprises sur des échantillons amorcés.Le résultat de
replicate
est un tableau tridimensionnel (n
x3
xn.bs
). La dimension de longueur 3 se compose de la valeur ajustée pour chaque élément de données et des limites inférieure / supérieure de l'intervalle de prédiction à 95%.Méthode de Gary King
Selon ce que vous voulez, il y a une méthode intéressante de King, Tomz et Wittenberg . Il est relativement facile à mettre en œuvre et évite les problèmes d'amorçage pour certaines estimations (par exemple
max(Y)
).Je vais citer ici sa définition de l'incertitude fondamentale, car c'est assez agréable:
la source
Le bootstrap ne suppose aucune connaissance de la forme de la distribution parent sous-jacente d'où provient l'échantillon. Les estimations classiques classiques des paramètres statistiques sont basées sur l'hypothèse de normalité. Bootstrap traite de la non-normalité et est plus précis dans la pratique que les méthodes classiques.
Le bootstrap substitue la puissance de calcul brute des ordinateurs à une analyse théorique rigoureuse. Il s'agit d'une estimation de la distribution d'échantillonnage d'un terme d'erreur d'ensemble de données. Le bootstrapping comprend: le rééchantillonnage de l'ensemble de données un nombre spécifié de fois, le calcul de la moyenne de chaque échantillon et la recherche de l'erreur standard de la moyenne.
Le code «R» suivant illustre le concept:
Cet exemple pratique démontre l'utilité du bootstrap et estime l'erreur standard. L'erreur standard est requise pour calculer l'intervalle de confiance.
Supposons que vous ayez un ensemble de données asymétrique "a":
visualisation de l'ensemble de données asymétrique
Exécutez la procédure d'amorçage:
la source