J'ai un ensemble de données sur les essais agricoles. Ma variable de réponse est un rapport de réponse: log (traitement / contrôle). Je m'intéresse à ce qui intervient dans la différence, donc je lance des méta-régressions RE (non pondérées, car il semble assez clair que la taille de l'effet n'est pas corrélée avec la variance des estimations).
Chaque étude rapporte le rendement en grains, le rendement en biomasse ou les deux. Je ne peux pas imputer le rendement en céréales à partir d'études qui rapportent uniquement le rendement en biomasse, car toutes les plantes étudiées n'étaient pas utiles pour le grain (la canne à sucre est incluse, par exemple). Mais chaque plante qui produisait du grain avait aussi de la biomasse.
Pour les covariables manquantes, j'ai utilisé l'imputation par régression itérative (suivant le chapitre du manuel d'Andrew Gelman). Il semble donner des résultats raisonnables et l'ensemble du processus est généralement intuitif. Fondamentalement, je prédis les valeurs manquantes, et j'utilise ces valeurs prédites pour prédire les valeurs manquantes, et je passe en revue chaque variable jusqu'à ce que chaque variable converge approximativement (dans la distribution).
Y a-t-il une raison pour laquelle je ne peux pas utiliser le même processus pour imputer des données de résultats manquantes? Je peux probablement former un modèle d'imputation relativement informatif pour le taux de réponse de la biomasse compte tenu du taux de réponse des grains, du type de culture et d'autres covariables que j'ai. Je ferais ensuite la moyenne des coefficients et des VCV, et j'ajouterais la correction MI selon la pratique standard.
Mais que mesurent ces coefficients lorsque les résultats eux-mêmes sont imputés? L'interprétation des coefficients est-elle différente de l'IM standard pour les covariables? En y réfléchissant, je ne peux pas me convaincre que cela ne fonctionne pas, mais je ne suis pas vraiment sûr. Les réflexions et suggestions de lecture sont les bienvenues.
la source
Réponses:
Comme vous le soupçonniez, il est valide d'utiliser l'imputation multiple pour la mesure des résultats. Il y a des cas où cela est utile, mais cela peut aussi être risqué. Je considère la situation où toutes les covariables sont complètes et le résultat incomplet.
Si le modèle d'imputation est correct, nous obtiendrons des inférences valides sur les estimations des paramètres à partir des données imputées. Les inférences obtenues à partir des seuls cas complets peuvent en fait être fausses si le manque est lié au résultat après conditionnement sur le prédicteur, c'est-à-dire sous MNAR. L'imputation est donc utile si nous savons (ou soupçonnons) que les données sont MNAR.
Dans le cadre du MAR, il n'y a généralement aucun avantage à imputer le résultat, et pour un petit nombre d'imputations, les résultats peuvent même être un peu plus variables en raison d'une erreur de simulation. Il y a une exception importante à cela. Si nous avons accès à une variable auxiliaire complète qui ne fait pas partie du modèle et qui est fortement corrélée avec le résultat, l'imputation peut être considérablement plus efficace qu'une analyse de cas complète, ce qui donne des estimations plus précises et des intervalles de confiance plus courts. Un scénario courant où cela se produit est si nous avons une mesure de résultat bon marché pour tout le monde et une mesure coûteuse pour un sous-ensemble.
Dans de nombreux ensembles de données, des données manquantes se produisent également dans les variables indépendantes. Dans ces cas, nous devons imputer la variable de résultat, car sa version imputée est nécessaire pour imputer les variables indépendantes.
la source
L'imputation des données de résultat est très courante et conduit à une inférence correcte lors de la prise en compte de l'erreur aléatoire.
Cela ressemble à ce que vous faites est une imputation unique, en imputant les valeurs manquantes avec une moyenne conditionnelle dans le cadre d'une analyse de cas complète. Ce que vous devriez faire, c'est une imputation multiple qui, pour des covariables continues, explique l'erreur aléatoire que vous auriez observée si vous aviez mesuré rétroactivement ces valeurs manquantes. L'algorithme EM fonctionne de manière similaire en faisant la moyenne sur une gamme de résultats observés possibles.
L'imputation unique donne une estimation correcte des paramètres du modèle lorsqu'il n'y a pas de relation moyenne-variance, mais elle donne des estimations d'erreur standard qui sont biaisées vers zéro, gonflant les taux d'erreur de type I. En effet, vous avez été "optimiste" quant à l'ampleur des erreurs que vous auriez pu observer si vous aviez mesuré ces facteurs.
L'imputation multiple est un processus de génération itérative d'erreur additive pour l'imputation moyenne conditionnelle, de sorte que grâce à 7 ou 8 imputations simulées, vous pouvez combiner les modèles et leurs erreurs pour obtenir des estimations correctes des paramètres du modèle et de leurs erreurs standard. Si vous avez conjointement des covariables et des résultats manquants, il existe des logiciels en SAS, STATA et R appelés imputation multiple via des équations chaînées où des ensembles de données "terminés" (ensembles de données avec des valeurs imputées qui sont traitées comme fixes et non aléatoires) sont générés, modélisez paramètres estimés à partir de chaque ensemble de données complet, et leurs estimations de paramètres et erreurs standard combinées en utilisant une formation mathématique correcte (détails dans l'article de Van Buuren).
La légère différence entre le processus dans l'IM et le processus que vous avez décrit est que vous n'avez pas tenu compte du fait que l'estimation de la distribution conditionnelle du résultat à l'aide de données imputées dépendra de l'ordre dans lequel vous imputez certains facteurs. Vous devriez avoir estimé la distribution conditionnelle des covariables manquantes conditionnant le résultat dans l'IM, sinon vous obtiendrez des estimations de paramètres biaisées.
la source