J'ai une grande enquête dans laquelle on a demandé aux élèves, entre autres, le niveau de scolarité de leur mère. Certains l'ont sauté et certains ont répondu à tort. Je le sais, car un sous-échantillon de la mère des répondants initiaux a ensuite été interrogé et a posé la même question. (Je suis sûr qu'il y a aussi une quantité moindre d'erreurs associées aux réponses des mères.)
Mon défi est de décider comment tirer le meilleur parti de cette deuxième source de données plus fiable. À tout le moins, je peux l'utiliser pour imputer les données manquantes plus intelligemment que je ne le serais si je ne pouvais compter que sur des cas complets. Mais si 3/4 des enfants dont je peux recouper les données, qui répondent "Ma mère n'a jamais terminé l'école primaire" contredisent la réponse de leur mère, il semblerait que je devrais utiliser l'imputation pour créer plusieurs ensembles de données pour capturer l'incertitude là-bas. [ajouté: j'ai dit 3/4 pour faire un point, mais maintenant que j'ai vérifié les données, je pourrais aussi bien vous dire que près de 40% sont divergentes]
J'utiliserai personnellement l'éducation de la mère comme prédicteur dans un modèle mixte, mais si quelqu'un a quelque chose à dire sur d'autres situations, j'aimerais aussi en savoir plus à leur sujet.
J'adorerais recevoir des conseils en pointillés ou en détails. Je vous remercie!
Mise à jour : Je laisse la question non résolue pour le moment, bien que j'apprécie les réponses de Will et Conjugate_Prior, je garde espoir pour des commentaires plus spécifiques et techniques.
Le diagramme de dispersion ci-dessous vous donnera une idée de la façon dont les deux variables sont liées dans les 10 000 cas où les deux existent. Ils sont imbriqués dans plus de 100 écoles. Ils sont corrélés à 0,78, réponse de l'élève - moyenne: 5,12 sd = 2,05, réponse de maman, moyenne = 5,02, sd = 1,92. La réponse de l'élève est manquante dans environ 15% des cas.
la source
Réponses:
La première chose à noter est que vos variables sont: "ce que l'élève a dit sur l'éducation de la mère" et "ce que la mère de l'élève a dit sur l'éducation de la mère de l'élève". Appelez-les respectivement S et M et étiquetez le vrai niveau non observé d'éducation de la mère comme T.
S et M ont tous deux des valeurs manquantes et il n'y a rien de mal (modulo l'observation ci-dessous) à mettre M et S dans un modèle d'imputation mais en utilisant seulement l'une d'entre elles dans l'analyse suivante. L'inverse serait toujours déconseillé.
Ceci est distinct de trois autres questions:
Ignorance et manque
Vous pourriez être intéressé par T, mais vous n'avez pas besoin de l'être: les perceptions du niveau de scolarité (via S, et peut-être M) ou le manque de connaissances des élèves peuvent être plus causalement intéressants que T lui-même. L'imputation peut être une voie sensée pour le premier, mais peut ou non pour le second. Tu dois décider.
En savoir plus sur T
Supposons que vous vous intéressez réellement à T. En l'absence d'une mesure de l'étalon-or (car vous doutez parfois de M), il est difficile de savoir comment vous pourriez combiner non arbitrairement S et M pour en savoir plus sur T. Si, par contre, vous étiez prêt à traiter le M comme correct lorsqu'il est disponible, vous pouvez alors utiliser S pour prédire M dans un modèle de classification qui contient d'autres informations des élèves, puis utiliser M plutôt que S dans l'analyse finale. La préoccupation ici concernerait le biais de sélection dans les cas sur lesquels vous vous êtes entraîné, ce qui conduit au troisième problème:
Manquant
L'imputation multiple peut fonctionner selon que les données manquent complètement au hasard (MCAR) ou manquent au hasard (MAR). S manque-t-il au hasard (MAR)? Peut-être pas, car les élèves pourraient avoir honte de répondre au sujet du manque d'éducation de leur mère et de sauter la question. Ensuite, la valeur seule détermine si elle sera manquante et l'imputation multiple ne peut pas aider ici. D'un autre côté, si le faible niveau de scolarité correspond à quelque chose qui est demandé et partiellement répondu dans l'enquête, par exemple un indicateur de revenu, alors le MAR peut être plus raisonnable et l'imputation multiple a quelque chose à saisir. M manque-t-il au hasard? Les mêmes considérations s'appliquent.
Enfin, même si vous êtes intéressé par T et que vous adoptez une approche de classification, vous voudrez toujours imputer pour adapter ce modèle.
la source
Si vous supposez que le "taux de contradiction" est le même pour tout l'échantillon que pour le sous-échantillon dont les mères ont été interrogées, alors le sous-échantillon doit avoir été tiré au hasard. Dans votre description, vous ne le dites pas, donc je soulève cette question car je pense qu'elle a des implications importantes sur la façon dont vous pouvez utiliser ces informations du sous-échantillon ou pour tirer des conclusions sur l'ensemble de l'échantillon d'élèves.
Il me semble qu'il y a trois facettes à ce problème de contradiction.
1 est le taux de contradiction. Est-ce vraiment le cas que 3 / 4ème des étudiants ont deviné mal?
2 est le degré de tort - c'est une chose de dire que votre mère n'a jamais terminé l'école primaire alors qu'elle l'a terminé, mais s'est arrêtée là et une autre pour dire qu'elle n'a jamais terminé l'école primaire lorsqu'elle a un doctorat.
3 est la proportion de l'échantillon que vous pouvez recouper. Si vous tirez ces conclusions sur un sous-échantillon de 20, je parierais que les estimations sont assez instables et ne valent probablement pas grand-chose.
Il me semble que ce que vous ferez dépendra de votre réponse à ces questions et à la question que j'ai posée initialement. Par exemple, si 1 est assez élevé et 3 est assez élevé, je pourrais simplement utiliser le sous-échantillon et en finir avec lui. Si 1 est élevé mais 2 est faible, le problème ne semble pas si grave et, encore une fois, cela ne vaut pas la peine d'être dérangé.
Il vaut probablement aussi la peine de savoir si l'erreur est aléatoire ou systématique. Si les élèves ont tendance à sous-estimer systématiquement l'éducation de leur mère, c'est plus problématique que s'ils se trompent parfois complètement.
J'ai fait quelques imputations sur quelques papiers et il semble que je me crée toujours plus de problèmes en conséquence. Les examinateurs, dans ma région au moins, n'ont souvent pas une bonne maîtrise de la méthode et se méfient donc de son utilisation. J'ai l'impression qu'il est parfois préférable, du point de vue d'une publication, de simplement reconnaître le problème et de passer à autre chose. Mais dans ce cas, vous n'imputez pas vraiment les données manquantes, mais introduisez une sorte de variance d'erreur prévue pour la variable. C'est une question très intéressante et, mis à part toutes les préoccupations, je ne sais même pas comment j'y arriverais si je décidais que c'était la meilleure solution
la source