Dans une étude longitudinale, dois-je imputer le résultat Y, mesuré au temps 2, pour les personnes perdues de vue?

10

J'ai répété des mesures à 2 reprises dans un échantillon de personnes. Il y a 18 000 personnes au moment 1 et 13 000 personnes au moment 2 (5 000 perdues de vue).

Je veux régresser un résultat Y mesuré au temps 2 (et le résultat ne peut pas être mesuré au temps 1) sur un ensemble de prédicteurs X mesurés au temps 1. Toutes les variables ont des données manquantes. La plupart semblent relativement aléatoires, ou le manque semble bien décrit par les données observées. Cependant, la grande majorité des lacunes dans le résultat Y est due à la perte de suivi. J'utiliserai l'imputation multiple (souris R ::) et utiliserai l'ensemble de données complet pour imputer les valeurs de X, mais j'ai reçu 2 conseils contradictoires concernant l'imputation de Y:

1) Imputez Y à partir de X et V (V = variables auxiliaires utiles) dans l'échantillon complet de 18k.

2) Ne pas imputer Y à des individus perdus de vue (et donc les supprimer de toute modélisation de régression ultérieure).

Le premier est logique parce que l'information est une information, alors pourquoi ne pas tout utiliser; Mais ce dernier fait également sens, d'une manière plus intuitive - il semble juste de ne pas imputer le résultat pour 5000 personnes sur la base de Y ~ X + V, puis de faire demi-tour et d'estimer Y ~ X.

Qu'est-ce qui est (plus) correct?

Cette question précédente est utile, mais ne traite pas directement de la disparition due à une perte de suivi (bien que la réponse soit peut-être la même; je ne sais pas).

Imputation multiple pour les variables de résultats

DL Dahly
la source
Cela me semble contradictoire - pouvez-vous expliquer?: "La plupart semblent relativement aléatoires, ou le manque semble bien décrit par les données observées."
rolando2
1
L'imputation multiple et la plupart des autres procédures d'imputation nécessitent que vos données soient manquantes au hasard (MAR). Il serait nécessaire de comprendre le mécanisme d'attrition dans votre étude. Je soupçonne cependant que dans vos études de suivi, vos valeurs manquantes ne sont probablement pas MAR ou MCAR.
StatsStudent

Réponses:

2

Je pense que c'est un cas d'instrumentation. Vous voulez un X manquant, pas un Y manquant.

Y~X

Mais X est souvent manquant ou mal mesuré.

X~Z and Z does not impact Y- except through X.

Ensuite, vous pouvez exécuter:

 X~Z
 Y~Predicted(X)

Et nécessitent un ajustement pour les erreurs standard.

Vous pouvez également consulter la procédure Heckmann en 2 étapes si vous avez beaucoup d'attrition d'échantillons. http://en.wikipedia.org/wiki/Heckman_correction

RegressForward
la source
2

Je dirais que ni l'un ni l'autre n'est le plus approprié.

XOui

La suppression de toutes les données manquantes de vos données entraîne un biais dans vos paramètres (si les données ne sont pas MCAR, voir ci-dessus) et réduit considérablement la précision de vos estimations. Il s'agit d'une analyse «complète» et déconseillée.

Oui

Matt Brems
la source