Y a-t-il une limite qui est la moins acceptable lors de l'utilisation de l'imputation multiple (MI)?
Par exemple, puis-je utiliser MI si les valeurs manquantes dans une variable représentent 20% des cas alors que d'autres variables ont des valeurs manquantes mais pas à un niveau aussi élevé?
missing-data
data-imputation
pseudo
la source
la source
Réponses:
D'après les commentaires, vous êtes sûr que vous êtes dans une situation MAR ou MCAR. L'imputation multiple est alors au moins raisonnable. Alors, combien de disparitions sont traitables? Pense-y de cette façon:
Fondamentalement, l'imputation multiple rend toutes les estimations des paramètres de votre modèle moins sûres en fonction de la précision avec laquelle les données manquantes peuvent être prédites avec votre modèle d'imputation, qui dépendra, entre autres, de la quantité de manquants qui doivent être imputés, et de la nombre d'imputations que vous utilisez.
Le niveau de manque «trop» dépend donc de la variance / incertitude supplémentaire que vous êtes prêt à supporter. Une quantité utile pour vous pourrait être l'efficacité relative ( ) d'une analyse MI. Cela dépend de la `` fraction des informations manquantes '' (et non du simple taux de manque), généralement appelée , et du nombre d'imputations, généralement appelées , comme .R E λ m R E≈ 1 / ( 1 + λ / m )
Plutôt que de générer les définitions des informations manquantes, etc. ici, vous pouvez simplement lire la FAQ MI qui met les choses très clairement. De là, vous saurez si vous voulez vous attaquer aux sources originales: Rubin, etc.
En pratique, vous devriez probablement simplement essayer une analyse d'imputation et voir comment cela fonctionne.
la source
Vous pourriez trouver
utile.
la source