Pourquoi l'amorçage des résidus d'un modèle à effets mixtes donne-t-il des intervalles de confiance anti-conservateurs?

11

Je traite généralement des données où plusieurs individus sont chacun mesurés plusieurs fois dans chacune de 2 conditions ou plus. J'ai récemment joué avec la modélisation à effets mixtes pour évaluer les preuves des différences entre les conditions, la modélisation individualcomme un effet aléatoire. Pour visualiser l'incertitude concernant les prédictions d'une telle modélisation, j'ai utilisé le bootstrap où, à chaque itération du bootstrap, des individus et des observations dans des conditions dans des individus sont échantillonnés avec remplacement et un nouveau modèle à effets mixtes est calculé à partir duquel les prédictions on obtient. Cela fonctionne bien pour les données qui supposent une erreur gaussienne, mais lorsque les données sont binomiales, le bootstrapping peut prendre très longtemps car chaque itération doit calculer un modèle à effets mixtes binomiaux relativement intensif en calcul.

J'ai pensé que je pouvais éventuellement utiliser les résidus du modèle d'origine, puis utiliser ces résidus au lieu des données brutes dans le bootstrapping, ce qui me permettrait de calculer un modèle gaussien à effets mixtes à chaque itération du bootstrap. L'ajout des prédictions originales du modèle binomial des données brutes aux prédictions bootstrap des résidus donne un IC de 95% pour les prédictions originales.

Cependant, j'ai récemment codé une simple évaluation de cette approche, ne modélisant aucune différence entre deux conditions et calculant la proportion de fois où un intervalle de confiance à 95% n'a pas inclus zéro, et j'ai trouvé que la procédure de bootstrap basée sur les résidus ci-dessus donne des résultats plutôt fortement anti intervalles conservateurs (ils excluent zéro plus de 5% du temps). De plus, j'ai ensuite codé (même lien que le précédent) une évaluation similaire de cette approche appliquée à des données qui étaient à l'origine gaussiennes, et elle a obtenu des IC anti-conservateurs similaires (mais pas aussi extrêmes). Une idée pourquoi cela pourrait être?

Mike Lawrence
la source
hm, je viens de remarquer que dans le code générateur de données pour les deux cas, je n'ai pas ajouté de variabilité interindividuelle que l'on est généralement intéressé à éliminer en modélisant les individus comme des effets aléatoires. Je vais voir si l'ajout de cette variabilité change le résultat; de retour dans quelques heures ...
Mike Lawrence
Si je me souviens bien, le bootstrap rapproche l'estimation de la véritable estimation de la population. Il ne dit rien sur l'intervalle de confiance. (cf. Kesar Singh, Sur la précision asymptotique du bootstrap d'Efron. Ann. Statist., 1981, 9, 1187-1195)
suncoolsu
@me: Je peux confirmer que l'ajout d'une variabilité interindividuelle dans la fonction de génération de données n'améliore pas les performances du bootstrap. J'ai téléchargé le code que j'ai utilisé pour le confirmer dans l'essentiel lié dans le message d'origine.
Mike Lawrence
@suncoolsu: Je suis presque sûr que les intervalles de confiance amorcés sont standard depuis un certain temps. Efron les mentionne dans son article de 1978 décrivant la procédure de bootstrap en général, puis il a eu un tas d'articles dans les années 80 et 90 sur des ajustements de la procédure bootstrap pour des intervalles de confiance plus précis (correction de biais, accélération, studentisation, etc.).
Mike Lawrence
1
Avez-vous lu l'article suivant de Morris: "Les BLUP ne sont pas les meilleurs en matière d'amorçage". Cela peut être lié à votre travail. link
julieth

Réponses:

7

N'oubliez pas que tous les intervalles de confiance bootstrap ne sont asymptotiquement qu'au niveau de confiance indiqué. Il existe également une multitude de méthodes possibles pour sélectionner les intervalles de confiance du bootstrap La méthode centile d'Efron, la méthode centile de Hall, le double bootstrap, le bootstrap t, le bootstrap incliné, BC, BCa et peut-être quelques autres. Vous ne nous avez pas dit quelle méthode vous utilisez. L'article de Schenker dans JASA 1985 a montré que pour certaines distributions du chi carré, l'intervalle de confiance du bootstrap de la Colombie-Britannique couvrait le pourcentage annoncé. Dans les problèmes de petite taille d'échantillon, ce problème peut être grave. LaBudde et moi avons deux articles montrant comment dans de petits échantillons, même BCa peut avoir une couverture très médiocre lors de l'estimation d'une variance à partir d'une distribution log-normale et un problème similaire existe pour tester l'égalité de deux variances. C'est juste pour un problème simple. Je pense que la même chose peut se produire avec les résidus de modèles mixtes. Dans notre nouveau livre "An Introduction to Bootstrap Methods with Applications to R" publié par Wiley en 2011, nous couvrons ce sujet dans la section 3.7 et fournissons des références. La surprise est que la méthode centile fait parfois mieux que la méthode BCa précise d'ordre supérieur, lorsque la taille de l'échantillon est petite.

Michael R. Chernick
la source