Comment puis-je regrouper les valeurs p amorcées dans plusieurs ensembles de données imputées?

12

Je suis préoccupé par le problème que j'aimerais amorcer la valeur de p pour une estimation de partir de données multipliées imputées (MI), mais qu'il n'est pas clair pour moi comment combiner les valeurs de p entre les ensembles d'IM.θ

Pour les ensembles de données MI, l'approche standard pour arriver à la variance totale des estimations utilise les règles de Rubin. Voir ici pour un examen de la mise en commun des ensembles de données MI. La racine carrée de la variance totale sert d'estimation d'erreur standard de . Cependant, pour certains estimateurs, la variance totale n'a pas de forme fermée connue ou la distribution d'échantillonnage n'est pas normale. La statistique θ / s e ( θ )θθ/se(θ) peut alors ne pas être distribuée t, pas même asymptotiquement.

Par conséquent, dans le cas des données complètes, une option alternative consiste à amorcer la statistique pour trouver la variance, une valeur de p et un intervalle de confiance, même si la distribution d'échantillonnage n'est pas normale et sa forme fermée inconnue. Dans le cas MI, il y a alors deux options:

  • Mettre en commun la variance amorcée entre les ensembles de données MI
  • Mettre en commun la valeur de p ou les limites de confiance entre les ensembles de données MI

La première option utiliserait alors à nouveau les règles de Rubin. Cependant, je pense que cela pose problème si a une distribution d'échantillonnage non normale. Dans cette situation (ou plus généralement, dans toutes les situations), la valeur de p amorcée peut être utilisée directement. Cependant, dans le cas de l'IM, cela conduirait à plusieurs valeurs de p ou intervalles de confiance, qui doivent être regroupés entre les ensembles de données de l'IM.θ

Ma question est donc la suivante: comment regrouper plusieurs valeurs de p (ou intervalles de confiance) amorcées sur plusieurs ensembles de données imputées?

Je serais heureux de recevoir toute suggestion sur la façon de procéder, merci.

tomka
la source
Peut-être utile: Missing Data, Imputation and the Bootstrap (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly
@DLDahly Hmm, je ne suis pas familier avec ce papier, mais l'idée semble être de démarrer d' abord , puis d'effectuer une imputation multiple. L'OP semble amorcer les estimations à partir des ensembles de données MI.
tchakravarty
@fgnu En effet, la procédure standard pour obtenir la variance totale d'une estimation par bootstrap serait de bootstrap la variance au sein de chaque ensemble de données MI, puis d'appliquer les règles de Rubin pour regrouper la variance bootstrap entre les ensembles de données MI.
tomka

Réponses:

6

Je pense que les deux options donnent la bonne réponse. En général, je préférerais la méthode 1 car elle préserve la distribution entière.

kmmk×m échantillons qui incluent la variation entre imputations. Traitez ensuite cela comme un échantillon bootstrap conventionnel pour obtenir des intervalles de confiance. Utilisez le bootstrap bayésien pour les petits échantillons. Je ne connais aucun travail de simulation qui étudie cette procédure, et c'est en fait un problème ouvert à étudier.

Pour la méthode 2, utilisez la procédure Licht-Rubin. Voir Comment obtenir des valeurs de p regroupées sur des tests effectués dans plusieurs jeux de données imputés?

Stef van Buuren
la source
+1 - SI le but est de comprendre la variabilité des estimations à travers les ensembles de données MI, je bootstraper dans chaque ensemble de données MI et regarder les distributions totales et spécifiques au MI du paramètre.
DL Dahly
@ Stef-van-Buuren Il semble que ce que DL Dahly suggère est équivalent à la mise en commun de la variance boostrapped entre les ensembles d'IM. Préféreriez-vous toujours votre première méthode (ajouter tous les ensembles de données amorcés) à cette approche «indirecte»?
tomka
@tomka. Je ferais certainement la même chose que DL Dahly et étudierais les distributions d'imputation à l'intérieur et entre les imputations. Afin d'intégrer les deux types de distributions, nous devons les combiner d'une manière ou d'une autre. Ma suggestion est de simplement les mélanger.
Stef van Buuren
6

Ce n'est pas une littérature que je connais, mais une façon d'aborder cela pourrait être d'ignorer le fait qu'il s'agit de valeurs p bootstrapées et de regarder la littérature sur la combinaison de valeurs p à travers des ensembles de données imputées multipliées.

Dans ce cas, Li, Meng, Raghunathan et Rubin (1991) s'appliquent. La procédure est basée sur des statistiques de chacun des ensembles de données imputées, pondérées à l'aide d'une mesure de la perte d'informations due à l'imputation. Ils rencontrent des problèmes liés à la distribution conjointe des statistiques entre les imputations et émettent des hypothèses simplificatrices.

Meng (1994) présente un intérêt connexe .

Mise à jour

Une procédure pour combiner des valeurs de p à travers des ensembles de données imputées à plusieurs reprises est décrite dans la dissertation de Christine Licht, Ch. 4 . L'idée, qu'elle attribue à Don Rubin, est essentiellement de transformer les valeurs de p à distribuer normalement, qui peuvent ensuite être combinées entre les ensembles de données MI en utilisant les règles standard pour la combinaison de statistiques z.

tchakravarty
la source
Si je comprends bien le Li et al. fonctionne correctement, il s'applique aux statistiques que vous obtenez à partir de chaque ensemble MI. Par exemple, si vous obtenez Pearson Chi² sur chaque ensemble, leurs règles pourraient être appliquées pour le combiner pour l'inférence entre les ensembles. Un test de Wald pourrait également être effectué, par exemple. Mais dans le cas d'un bootstrap, vous n'obtenez pas de statistiques que vous regrouperiez (mais uniquement une valeur de p). Je ne sais donc pas s'il y a quelque chose dans Li et al. qui pourrait être appliqué à la p bootstrapped.
tomka
1
@tomka J'ai mis à jour ma réponse.
tchakravarty