J'ai un ensemble de données avec 8000 grappes et 4 millions d'observations. Malheureusement, mon logiciel statistique, Stata, fonctionne assez lentement lorsque j'utilise sa fonction de données de panel pour la régression logistique: xtlogit
même avec un sous-échantillon de 10%.
Cependant, lorsque vous utilisez la logit
fonction non- panneau , les résultats apparaissent beaucoup plus tôt. Par conséquent, je pourrai peut-être bénéficier de l'utilisation logit
de données modifiées qui tiennent compte des effets fixes.
Je crois que cette procédure est inventée la "procédure à effets fixes de Mundlak" (Mundlak, Y. 1978. Regroupement de séries chronologiques et de données transversales. Econometrica, 46 (1), 69-85.)
J'ai trouvé une explication intuitive de cette procédure dans un article d' Antonakis, J., Bendahan, S., Jacquart, P., et Lalive, R. (2010). Sur les allégations causales: un examen et des recommandations. The Leadership Quarterly, 21 (6). 1086-1120. Je cite:
Une façon de contourner le problème des effets fixes omis et d'inclure toujours les variables de niveau 2 consiste à inclure les moyennes de cluster de toutes les covariables de niveau 1 dans le modèle estimé (Mundlak, 1978). Les moyennes des grappes peuvent être incluses sous forme de régresseurs ou soustraites (c.-à-d. Centrage moyen des grappes) de la covariable de niveau 1. Les moyennes des grappes sont invariantes au sein des grappes (et varient selon les grappes) et permettent une estimation cohérente des paramètres de niveau 1 comme si des effets fixes avaient été inclus (voir Rabe-Hesketh et Skrondal, 2008).
Par conséquent, le centrage par grappes semble idéal et pratique pour résoudre mon problème de calcul. Cependant, ces articles semblent être orientés vers la régression linéaire (OLS).
Cette méthode de centrage en grappes est-elle également applicable pour la "réplication" de régression logistique binaire à effets fixes?
Une question plus technique qui devrait aboutir à la même réponse serait: le xtlogit depvar indepvars, fe
jeu de données A est-il égal au logit depvar indepvars
jeu de données B lorsque le jeu de données B est la version centrée sur la moyenne des clusters du jeu de données A?
Une difficulté supplémentaire que j'ai trouvée dans ce centrage en grappes est de savoir comment faire face aux mannequins. Parce que les variables muettes sont soit 0 soit 1, sont-elles identiques dans la régression à effets fixes et aléatoires? Ne devraient-ils pas être «centrés»?
Je crois que le logit conditionnel ("clogit" sur Stata), c'est un estimateur de panel logit à effet fixe alternatif.
http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf
la source
Stata
laclogit
commande de ou laxtlogit, fe
commande pour effectuer une analyse logit à effets fixes. Les deux donnent les mêmes résultats. (En fait, je crois enxtlogit, fe
fait appelleclogit
.)" OP savait déjàxtlogit, fe
sur la base de l'avant-dernier paragraphe.Allison a discuté de ce problème dans Allison, (2009), «Modèles de régression à effets fixes», p.32f.
Allison fait valoir qu'il n'est pas possible d'estimer un modèle inconditionnel avec un maximum de vraisemblance. C'est le cas parce que les modèles deviennent biaisés en raison du "problème des paramètres accessoires". Il recommande plutôt d'utiliser un modèle logit conditionnel (Chamberlain, 1980). Ceci est accompli en conditionnant la fonction de vraisemblance sur le nombre d'événements observés pour chaque individu.
la source