J'utilise actuellement un modèle de régression multiple à l'aide de données imputées et j'ai quelques questions.
Contexte:
Utilisation de SPSS 18. Mes données semblent être MAR. La suppression par liste des cas me laisse avec seulement 92 cas, l'imputation multiple laisse 153 cas à analyser. Toutes les hypothèses remplies - un log variable transformé. 9 IV's 5 - 5 catégorique, 3 échelles, 1 intervalle. Échelle DV. Utilisation de la méthode enter de régression multiple standard.
- Mon DV est la différence de scores entre une mesure de pré-score et de post-score, il manque un certain nombre de cas à ces deux variables - dois-je imputer des valeurs manquantes pour chacune d'elles puis calculer la différence entre elles pour calculer mon DV (comment dois-je procéder), ou puis-je simplement imputer des données pour mon DV? Quelle est l'approche la plus appropriée?
- Dois-je exécuter des imputations sur des données transformées ou des données asymétriques non transformées?
- Dois-je saisir toutes les variables dans le processus d'imputation, même s'il ne manque pas de données, ou dois-je simplement imputer des données pour les variables manquantes dans plus de 10% des cas?
J'ai exécuté la régression sur les cas supprimés par liste et mon IV représente très peu de la variance de mon DV, par la suite j'ai exécuté la régression sur un fichier complet après une imputation multiple - Les résultats sont très similaires, en ce que mes 9 IV sont toujours prédire seulement environ 12% de la variance de mon DV, cependant, maintenant l'un de mes IV's indique qu'il apporte une contribution significative (il se trouve que c'est une variable transformée en logarithme) ...
- Dois-je déclarer les données originales s'il y a peu de différence entre mes conclusions - c'est-à-dire que mes intraveineuses prédisent mal la dv ou rapporter les données complètes?
R^2
se produise). Voir quelques discussions intéressantes sur les conceptions pré-post ici . Bien que cela ne réponde toujours pas totalement à votre question!Réponses:
Références
Edwards, JR (1994). Analyse de régression comme alternative aux scores de différence. Journal of Management , 20 , 683-689.
Enders, CK (2010). Analyse des données manquantes appliquée . New York, NY: Guilford Press.
la source
D'après mon expérience, la fonction d'imputation de SPSS est facile à utiliser, à la fois pour créer des ensembles de données et pour analyser et regrouper les ensembles de données d'imputation résultants. Cependant, sa facilité d'utilisation est également sa perte. Si vous regardez une fonction d'imputation similaire dans le
R
logiciel statistique (voir par exemple lemice
package), vous verrez beaucoup plus d'options. Voir le site Web de Stef van Buurens pour une excellente explication de l'imputation multiple en général (avec ou sans utilisation du package de souris).Il est très important de noter que ces options supplémentaires ne sont pas des choix «de luxe» pour les utilisateurs avancés uniquement . Certains sont essentiels pour atteindre une bonne convivialité , des modèles spécifiques pour des variables manquantes spécifiques , des prédicteurs spécifiques pour des variables manquantes spécifiques , des diagnostics d'imputation , etc., qui ne sont pas disponibles dans la fonction d'imputation SPSS.
Quant à vos questions:
la source