Si, dans les régressions OLS standard, deux hypothèses sont violées (distribution normale des erreurs, homoscédasticité), l'amorçage des erreurs standard et des intervalles de confiance est-il une alternative appropriée pour obtenir des résultats significatifs en ce qui concerne la signification des coefficients du régresseur?
Les tests de signification avec des erreurs standard amorcées et des intervalles de confiance fonctionnent-ils toujours avec une hétéroscédasticité?
Si oui, quels seraient les intervalles de confiance applicables qui pourraient être utilisés dans ce scénario (percentile, BC, BCA)?
Enfin, si l'amorçage est approprié dans ce scénario, quelle serait la littérature pertinente qui doit être lue et citée pour arriver à cette conclusion? Tout indice serait grandement apprécié!
Réponses:
Il existe au moins trois (peut-être plus) d'approches pour effectuer le bootstrap pour la régression linéaire avec des données indépendantes mais non distribuées de manière identique. (Si vous avez d'autres violations des hypothèses "standard", par exemple, en raison d'autocorrélations avec des données de séries chronologiques ou d'un regroupement en raison de la conception de l'échantillonnage, les choses deviennent encore plus compliquées).
La référence ultime est Wu (1986) , mais Annals ne sont pas exactement la lecture d'un livre d'images.
MISES À JOUR basées sur les questions de suivi du PO posées dans les commentaires:
Le nombre de répétitions m'a semblé important; la seule bonne discussion de ce paramètre de bootstrap que je connaisse est en le livre d'introduction à Bootstrap d'Efron & Tibshirani .
la source
reps(2500)
est probablement une exagération, au moins pour les erreurs standard; Je pense quereps(500)
c'est OK pour la plupart des fins pratiques. Le livre d' intro bootstrap d' Efron & Tibshirani contient une section sur le nombre de répliques. Ils ont également un chapitre entier sur la régression, ce qui peut être une autre bonne référence à consulter.robust
option de votre régression.est store
les deux résultats etest tab, se
les comparer côte à côte.