Y a-t-il un nom pour ce type d'amorçage?

9

Envisagez une expérience avec plusieurs participants humains, chacun mesuré plusieurs fois dans deux conditions. Un modèle d'effets mixtes peut être formulé (en utilisant la syntaxe lme4 ) comme:

fit = lmer(
    formula = measure ~ (1|participant) + condition
)

Supposons maintenant que je souhaite générer des intervalles de confiance bootstrap pour les prédictions de ce modèle. Je pense que j'ai trouvé une méthode simple et efficace sur le plan informatique, et je suis sûr que je ne suis pas le premier à y penser, mais j'ai du mal à trouver des publications antérieures décrivant cette approche. C'est ici:

  1. Ajustez le modèle (comme ci-dessus), appelez cela le "modèle original"
  2. Obtenez des prédictions à partir du modèle original, appelez-les les "prédictions originales"
  3. Obtenir des résidus du modèle d'origine associés à chaque réponse de chaque participant
  4. Rééchantillonner les résidus, échantillonner les participants avec remplacement
  5. Ajuster un modèle d'effets mixtes linéaires avec une erreur gaussienne aux résidus , appeler cela le "modèle intermédiaire"
  6. Calculez les prévisions à partir du modèle provisoire pour chaque condition (ces prévisions seront très proches de zéro), appelez-les les "prévisions provisoires"
  7. Ajoutez les prédictions intermédiaires aux prédictions d'origine, appelez le résultat "rééchantillonnage des prédictions"
  8. Répétez les étapes 4 à 7 plusieurs fois, générant une distribution de prédictions de rééchantillonnage pour chaque condition à partir de laquelle une fois peut calculer les CI.

J'ai vu des procédures de "bootstrap résiduel" dans le contexte d'une régression simple (c'est-à-dire pas un modèle mixte) où les résidus sont échantillonnés comme unité de rééchantillonnage, puis ajoutés aux prédictions du modèle d'origine avant d'ajuster un nouveau modèle à chaque itération de le bootstrap, mais cela semble assez différent de l'approche que je décris où les résidus ne sont jamais rééchantillonnés, les gens le sont, et seulement aprèsle modèle provisoire est obtenu, les prédictions du modèle original entrent-elles en jeu. Cette dernière fonctionnalité présente un avantage secondaire très intéressant dans la mesure où, quelle que soit la complexité du modèle d'origine, le modèle intermédiaire peut toujours être adapté en tant que modèle mixte linéaire gaussien, ce qui peut être sensiblement plus rapide dans certains cas. Par exemple, j'avais récemment des données binomiales et 3 variables prédictives, dont l'une je soupçonnais d'entraîner des effets fortement non linéaires, j'ai donc dû utiliser la modélisation mixte additive généralisée en utilisant une fonction de lien binomial. Le montage du modèle d'origine dans ce cas a pris plus d'une heure, tandis que le montage du LMM gaussien à chaque itération n'a pris que quelques secondes.

Je ne veux vraiment pas revendiquer la priorité si c'est déjà une procédure connue, donc je serais très reconnaissant si quelqu'un pouvait fournir des informations sur l'endroit où cela aurait pu être décrit auparavant. (De plus, s'il y a des problèmes flagrants avec cette approche, faites-le moi savoir!)

Mike Lawrence
la source
1
Juste un commentaire secondaire, mais cela pourrait être pertinent. Peter McCullagh a un article à Bernoulli où il montre qu'aucun bootstrap n'évalue correctement la variance dans un modèle à effets aléatoires.
Cardinal
@Mike (+1) C'est une question très bien écrite!
chl
1
Pourquoi ne rééchantillonneriez-vous pas les participants avec remplacement, puis rééchantillonner leurs données également? Cela semble être plus conforme à l'esprit d'un modèle à plusieurs niveaux avec une distribution imbriquée dans une autre. Un autre point est qu'il existe un problème potentiel avec les données binomiales, car les extrémités des échantillons seront moins susceptibles de converger.
John
@John: Je préfère rééchantillonner les résidus parce que (1) il est plus rapide lorsque le modèle original est difficile à estimer et (2) il donne des IC qui ont supprimé la variabilité attribuable à la variabilité entre les moyennes des participants. # 2 signifie que vous n'avez pas à créer plusieurs tracés lorsque vous souhaitez afficher des données brutes et un effet de mesures répétées; vous pouvez simplement tracer ces IC entre variance supprimés sur les données brutes et ils seront appropriés pour la comparaison des conditions répétées au sein des individus. Certes, il peut y avoir une confusion sur la signification de ces CI, mais c'est à cela que servent les légendes des figures.
Mike Lawrence
@John: Pourriez-vous préciser vos craintes concernant l'applicabilité de cette approche aux données binomiales?
Mike Lawrence

Réponses:

-1

Mon livre Bootstrap Methods 2nd Edition a une bibliographie massive jusqu'en 2007. Donc, même si je ne couvre pas le sujet dans le livre, la référence pourrait être dans la bibliographie. Bien sûr, une recherche Google avec les bons mots clés pourrait être meilleure. Freedman, Peters et Navidi ont fait du bootstrap pour la prédiction dans les modèles de régression linéaire et économétriques, mais je ne suis pas sûr de ce qui a été fait dans le cas du modèle mixte. Les intervalles de prédiction Bootstrap du papier JASA 1985 de Stine pour la régression sont quelque chose que vous trouverez très intéressant si vous ne l'avez pas déjà vu.

Michael R. Chernick
la source