Questions d'imputation multiple pour régression multiple dans SPSS

9

J'utilise actuellement un modèle de régression multiple à l'aide de données imputées et j'ai quelques questions.

Contexte:

Utilisation de SPSS 18. Mes données semblent être MAR. La suppression par liste des cas me laisse avec seulement 92 cas, l'imputation multiple laisse 153 cas à analyser. Toutes les hypothèses remplies - un log variable transformé. 9 IV's 5 - 5 catégorique, 3 échelles, 1 intervalle. Échelle DV. Utilisation de la méthode enter de régression multiple standard.

  • Mon DV est la différence de scores entre une mesure de pré-score et de post-score, il manque un certain nombre de cas à ces deux variables - dois-je imputer des valeurs manquantes pour chacune d'elles puis calculer la différence entre elles pour calculer mon DV (comment dois-je procéder), ou puis-je simplement imputer des données pour mon DV? Quelle est l'approche la plus appropriée?
  • Dois-je exécuter des imputations sur des données transformées ou des données asymétriques non transformées?
  • Dois-je saisir toutes les variables dans le processus d'imputation, même s'il ne manque pas de données, ou dois-je simplement imputer des données pour les variables manquantes dans plus de 10% des cas?

J'ai exécuté la régression sur les cas supprimés par liste et mon IV représente très peu de la variance de mon DV, par la suite j'ai exécuté la régression sur un fichier complet après une imputation multiple - Les résultats sont très similaires, en ce que mes 9 IV sont toujours prédire seulement environ 12% de la variance de mon DV, cependant, maintenant l'un de mes IV's indique qu'il apporte une contribution significative (il se trouve que c'est une variable transformée en logarithme) ...

  • Dois-je déclarer les données originales s'il y a peu de différence entre mes conclusions - c'est-à-dire que mes intraveineuses prédisent mal la dv ou rapporter les données complètes?
dara
la source
Que signifie «échelle» pour SPSS, fait-elle référence à des données ordinales ?
gung - Réintégrer Monica
L'échelle au format SPSS signifie généralement des mesures "intervalle / rapport", voir la commande VARIABLE LEVEL . Mais cela laisse alors la question de savoir quelle est la distinction entre l'échelle 3 et la question à 1 intervalle? Cela étant dit, cela devrait suffire pour répondre efficacement à votre question.
Andy W
2
Le seul conseil que je pourrais donner est que la prévision des scores de changement a tendance à être beaucoup plus difficile que la prévision des niveaux (il n'est donc pas surprenant dans de nombreuses situations qu'un faible R^2se produise). Voir quelques discussions intéressantes sur les conceptions pré-post ici . Bien que cela ne réponde toujours pas totalement à votre question!
Andy W

Réponses:

2
  1. La question de savoir si vous devez imputer les scores avant et après, ou le score de différence, dépend de la façon dont vous analysez la différence avant et après. Vous devez savoir qu'il existe des limites légitimes aux analyses des scores de différence (voir Edwards, 1994, pour une revue intéressante), et une approche de régression dans laquelle vous analysez le résiduel pour les post-scores après avoir contrôlé les pré-scores pourrait être meilleure. Dans ce cas, vous voudrez imputer des pré- et post-scores, car ce sont les variables qui figureront dans votre modèle analytique. Cependant, si vous avez l'intention d'analyser les scores de différence, imputez les scores de différence, car il est peu probable que vous souhaitiez calculer manuellement les scores de différence dans tous vos ensembles de données imputées. En d'autres termes, quelles que soient les variables que vous utilisez dans votre modèle analytique réel,
  2. Encore une fois, j'attribuerais la variable transformée, car c'est ce qui est utilisé dans votre modèle analytique.
  3. L'ajout de variables au modèle d'imputation augmentera les exigences de calcul du processus d'imputation, MAIS, si vous avez le temps, plus d'informations sont toujours meilleures. Les variables avec des données complètes pourraient potentiellement être des variables auxiliaires très utiles pour expliquer le manque de MAR. Si l'utilisation de toutes vos variables entraîne trop de temps / de calcul exigeant d'un modèle d'imputation (c.-à-d., Si vous avez un ensemble de données volumineuses), créez des variables fictives pour le manque de chaque cas pour chaque variable, et voyez quelles variables complètes prédisent ces variables de manque dans la logistique modèles - incluez ensuite ces variables de cas complètes particulières dans votre modèle d'imputation.
  4. Je ne rapporterais pas les analyses originales (c'est-à-dire supprimées par liste). Si votre mécanisme de disparition est MAR, alors MI ne vous donnera pas seulement une puissance accrue, mais il vous donnera également des estimations plus précises (Enders, 2010). Ainsi, l'effet significatif avec l'IM peut être non significatif avec une suppression par liste, car cette analyse est insuffisante, biaisée ou les deux.

Références

Edwards, JR (1994). Analyse de régression comme alternative aux scores de différence. Journal of Management , 20 , 683-689.

Enders, CK (2010). Analyse des données manquantes appliquée . New York, NY: Guilford Press.

jsakaluk
la source
1

D'après mon expérience, la fonction d'imputation de SPSS est facile à utiliser, à la fois pour créer des ensembles de données et pour analyser et regrouper les ensembles de données d'imputation résultants. Cependant, sa facilité d'utilisation est également sa perte. Si vous regardez une fonction d'imputation similaire dans le Rlogiciel statistique (voir par exemple le micepackage), vous verrez beaucoup plus d'options. Voir le site Web de Stef van Buurens pour une excellente explication de l'imputation multiple en général (avec ou sans utilisation du package de souris).

Il est très important de noter que ces options supplémentaires ne sont pas des choix «de luxe» pour les utilisateurs avancés uniquement . Certains sont essentiels pour atteindre une bonne convivialité , des modèles spécifiques pour des variables manquantes spécifiques , des prédicteurs spécifiques pour des variables manquantes spécifiques , des diagnostics d'imputation , etc., qui ne sont pas disponibles dans la fonction d'imputation SPSS.

Quant à vos questions:

  1. l'imputation des scores pré et post et le remplacement passif des différences manquantes est approprié lorsque vous souhaitez conserver la relation entre les scores pré et post et la différence (comme l'a répondu jsakaluk). Dans votre cas, cela peut être le cas lorsque vous souhaitez créer un modèle avec la différence entre le score pré et post en tant que variable de résultat / dépendante et la référence (pré-score) en tant que (l'un des) prédicteurs / variables indépendantes.
  2. Tout modèle utilisé pour remplacer les valeurs manquantes doit respecter ses hypothèses. Cela signifie que pour remplacer une variable continue, vous devez respecter les hypothèses d'un modèle de régression linéaire (dans le cas le plus simple). pour la régression linéaire, et la plupart des autres modèles de régression, les variables prédictives n'ont pas besoin d'être distribuées normalement, les résidus du modèle doivent cependant l'être! Une certaine transformation pourrait donc être nécessaire si ce dernier est le cas.
  3. Voir la réponse de jsakaluk. Notez cependant que SPSS utilise une imputation massive , ce qui signifie essentiellement que toutes les variables saisies sont utilisées pour remplacer les variables par des cas manquants. Si vous n'avez qu'une seule variable manquante, ce n'est pas un problème. Cependant, si vous en avez plusieurs, cela signifie que les variables manquantes sont également utilisées pour compléter les autres variables manquantes. Ce n'est peut-être pas un problème, mais dans certains cas, cela crée des boucles de rétroaction qui biaisent vos valeurs d'imputation finales. Il est impératif de vérifier cela en recherchant des tendances tout au long des itérations de votre imputation au lieu de «stabiliser» les valeurs remplacées.
  4. Je suis d'accord avec la réponse de jsakaluk à ce sujet. Si vous décidez de vous "méfier" de vos données complètes parce que vous soupçonnez des manquements sélectifs et que vous résolvez ou y remédiez en partie en utilisant plusieurs techniques d'imputation (ce qui, je pense, serait en fait le moins biaisé), alors vos résultats d'imputation multiple devraient être les principaux résultats que vous spectacle. Malheureusement, l'expérience a montré que les examinateurs ou d'autres personnes intéressées souhaitent parfois voir des analyses de cas complètes (alors gardez-les à portée de main).
IWS
la source