Je fais un modèle d'élimination rétrograde simple basé sur AIC où certaines variables sont des variables catégorielles à plusieurs niveaux. Ces variables sont modélisées comme un ensemble de variables fictives. Lors d'une élimination en amont, dois-je supprimer tous les niveaux d'une variable ensemble? Ou dois-je traiter chaque variable fictive séparément? Et pourquoi?
Comme question connexe, l'étape dans R gère chaque variable fictive séparément lors de l'élimination en arrière. Si je voulais supprimer une variable catégorielle entière à la fois, puis-je le faire en utilisant l'étape? Ou existe-t-il des alternatives à l'étape qui peuvent gérer cela?
model-selection
nerdbound
la source
la source
Réponses:
Je pense qu'il faudrait supprimer toute la variable catégorielle. Imaginez une régression logistique dans laquelle vous essayez de prédire si une personne a une maladie ou non. Le pays de naissance peut avoir un impact majeur sur cela, vous devez donc l'inclure dans votre modèle. Si l'origine américaine spécifique n'a pas eu d'impact sur l'AIC et que vous l'avez supprimée, comment calculeriez-vous pour un Américain? R utilise des contrastes de référence pour les facteurs par défaut, donc je pense qu'ils seraient calculés au niveau de référence (par exemple, le Botswana), le cas échéant. Ça ne va probablement pas bien finir ...y^
Une meilleure option serait de trier au préalable les encodages sensibles du pays de naissance - en les regroupant par région, continent, etc. et en trouvant lequel convient le mieux à votre modèle.
Bien sûr, il existe de nombreuses façons de mal utiliser la sélection de variables pas à pas, alors assurez-vous de le faire correctement. Cependant, il y a beaucoup à ce sujet sur ce site; la recherche de "pas à pas" donne de bons résultats. Ceci est particulièrement pertinent , avec beaucoup de bons conseils dans les réponses.
la source
Quant à l'exemple des pays, je pense que si la variable muette pour un pays spécifique est sélectionnée, cela signifie que ce pays est un prédicteur par rapport à tous les autres pays combinés (pas besoin de créer une nouvelle variable binaire). Le problème que j'ai très souvent, ce sont les variables factices qui reflètent, par exemple, la gravité d'une maladie (comme -, +, ++, +++). Parfois, la variable factice pour ++ est sélectionnée, mais pas la variable factice pour +++. Dans ce cas, le reclassement pourrait être utile.
la source