J'exécute une régression logit binaire où je sais que la variable dépendante est mal codée dans un petit pourcentage de cas. J'essaie donc d'estimer la dans ce modèle:
Mais au lieu du vecteur , j'ai , qui inclut quelques erreurs aléatoires (ie , mais , ou vice versa, pour certains ).
Existe-t-il une correction (raisonnablement) simple de ce problème?
Je sais que le logit a de belles propriétés dans les études cas-témoins. Il semble probable que quelque chose de similaire s'applique ici, mais je n'ai pas été en mesure de trouver une bonne solution.
Quelques autres contraintes: il s'agit d'une application d'exploration de texte, donc les dimensions de sont grandes (par milliers ou dizaines de milliers). Cela peut exclure certaines procédures gourmandes en calcul.
De plus, je ne me soucie pas d'estimer correctement , seulement .
Vous pouvez soit estimer un modèle paramétrique de l'erreur à l'aide de MLE, soit utiliser une approche semi-paramétrique basée sur quelque chose comme l'estimateur de corrélation de rang maximal (MRC). Sur le plan informatique, le MRC est prohibitif pour les grands échantillons, il semble donc que le MLE soit la bonne approche pour moi.
Merci à GaBorgulya pour une bonne direction rapide, en particulier sur le terme "erreur de mauvaise classification".
Voici quelques bonnes sources sur le sujet:
Le modèle de base, exactement comme décrit dans le problème d'origine
Version non fermée du même
Un modèle plus compliqué mais plus général
Un bel aperçu
la source