J'exécute une grande régression OLS où toutes les variables indépendantes (environ 400) sont des variables fictives. Si tous sont inclus, il y a une parfaite multicolinéarité (le piège variable factice), donc je dois omettre l'une des variables avant d'exécuter la régression.
Ma première question est, quelle variable doit être omise? J'ai lu qu'il vaut mieux omettre une variable présente dans de nombreuses observations plutôt qu'une variable présente dans quelques-unes seulement (par exemple, si presque toutes les observations sont "masculines" ou "féminines" et que quelques-unes sont "inconnues"). ", omettre" mâle "ou" femelle "). Est-ce justifié?
Après avoir exécuté la régression avec une variable omise, je peux estimer la valeur du coefficient de la variable omise parce que je sais que la moyenne globale de toutes mes variables indépendantes devrait être 0. J'utilise donc ce fait pour décaler les valeurs de coefficient pour toutes les variables incluses et obtenir une estimation pour la variable omise. Ma question suivante est de savoir s'il existe une technique similaire qui peut être utilisée pour estimer l'erreur-type de la valeur de coefficient de la variable omise. En l'état, je dois relancer la régression en omettant une variable différente (et en incluant la variable que j'avais omise dans la première régression) afin d'acquérir une estimation d'erreur standard pour le coefficient de la variable initialement omise.
Enfin, je remarque que les estimations de coefficient que j'obtiens (après recentrage autour de zéro) varient légèrement en fonction de la variable omise. En théorie, serait-il préférable d'exécuter plusieurs régressions, chacune omettant une variable différente, puis de faire la moyenne des estimations des coefficients de toutes les régressions?
la source
Réponses:
Vous devriez obtenir les «mêmes» estimations, quelle que soit la variable que vous omettez; les coefficients peuvent être différents, mais les estimations de quantités ou d' attentes particulières devraient être les mêmes pour tous les modèles.
Dans un cas simple, soit pour les hommes et 0 pour les femmes. Ensuite, nous avons le modèle: Maintenant, laissez pour les femmes. Alors La valeur attendue de pour les femmes est et également . Pour les hommes, c'estE [ y i ∣ x i ]Xje= 1
Ces résultats montrent comment les coefficients des deux modèles sont liés. Par exemple, . Un exercice similaire utilisant vos données devrait montrer que les «différents» coefficients que vous obtenez ne sont que des sommes et des différences les uns des autres.β1= - γ1
la source
James, tout d'abord pourquoi l'analyse de régression, mais pas l' ANOVA (il y a beaucoup de spécialistes dans ce genre d'analyse qui pourraient vous aider)? Les avantages de l'ANOVA sont que tout ce qui vous intéresse réellement, ce sont les différences dans les moyens des différents groupes décrits par des combinaisons de variables fictives (catégories uniques ou profils). Eh bien, si vous étudiez les impacts de chacune des variables catégorielles que vous incluez, vous pouvez également effectuer une régression.
Je pense que le type de données que vous avez ici est décrit dans le sens d'une analyse conjointe : de nombreux attributs de l'objet (sexe, âge, éducation, etc.) ayant chacun plusieurs catégories, vous omettez donc le profil le plus large, pas seulement une variable fictive. Une pratique courante consiste à coder les catégories dans l'attribut comme suit (ce lien peut être utile, vous ne faites probablement pas d'analyse conjointe ici, mais le codage est similaire): supposons que vous ayez catégories (trois, comme vous l'avez suggéré, masculin, féminin , inconnu) puis, les deux premiers sont codés comme d'habitude, vous incluez deux mannequins (mâle, femelle), donnant si mâle, si femelle, etn ( 1 , 0 ) ( 0 , 1 ) ( - 1 , - 1 ) si inconnu. De cette façon, les résultats seront effectivement placés autour du terme d'interception. Vous pouvez cependant coder d'une manière différente, mais vous perdrez l'avantage d'interprétation mentionné. Pour résumer, vous supprimez une catégorie de chaque catégorie et codez vos observations de la manière décrite. Vous incluez également le terme d'interception.
Eh bien, omettre les catégories de profil les plus importantes me semble bon, bien que ce ne soit pas si important, du moins il n'est pas vide je pense. Étant donné que vous codez les variables de manière spécifique, la signification statistique conjointe des variables factices incluses (les deux hommes et les femmes pourraient être testées par le test F) implique la signification de la variable omise.
Il peut arriver que les résultats soient légèrement différents, mais peut-être est-ce le mauvais codage qui influence cela?
la source
Sans connaître la nature exacte de votre analyse, avez-vous envisagé le codage des effets? De cette façon, chaque variable représenterait l'effet de ce trait / attribut par rapport à la moyenne générale plutôt qu'à une catégorie particulière omise. Je pense qu'il vous manquera toujours un coefficient pour l'une des catégories / attributs - celui auquel vous attribuez un -1. Pourtant, avec autant de variables muettes, je pense que la grande moyenne ferait un groupe de comparaison plus significatif que n'importe quelle catégorie particulière omise.
la source