J'ai appris que, pour créer un modèle de régression, nous devons prendre soin des variables catégorielles en les convertissant en variables fictives. Par exemple, si, dans notre ensemble de données, il existe une variable comme l'emplacement:
Location
----------
Californian
NY
Florida
Nous devons les convertir comme:
1 0 0
0 1 0
0 0 1
Cependant, il a été suggéré que nous devions éliminer une variable fictive, quel que soit le nombre de variables fictives.
Pourquoi devons-nous éliminer une variable fictive?
machine-learning
regression
categorical-data
Mithun Sarker Shuvro
la source
la source
Réponses:
Autrement dit, car un niveau de votre caractéristique catégorielle (ici l'emplacement) devient le groupe de référence pendant le codage factice pour la régression et est redondant. Je cite le formulaire ici "Une variable catégorielle de K catégories, ou niveaux, entre généralement dans une régression comme une séquence de variables fictives K-1. Cela équivaut à une hypothèse linéaire sur les moyennes de niveau."
Ceci est déjà discuté dans cette très belle réponse stats.stackexchange .
On m'a dit qu'il y a un cours avancé par Yandex à Coursera qui couvre ce sujet plus en détail si vous avez encore des doutes, voir ici . Notez que vous pouvez toujours auditer gratuitement le contenu du cours. ;-)
Un autre bon article si vous voulez une explication approfondie avec beaucoup d'exemples avec une perspective statistique et ne se limitant pas au codage factice, voir ceci de UCLA (en R)
Notez que si vous utilisez
pandas.get_dummies
, il y a un paramètre, c'est-à-diredrop_first
pour savoir s'il faut retirer k-1 des nuls des k niveaux catégoriels en supprimant le premier niveau. Veuillez noterdefault = False
, ce qui signifie que la référence n'est pas supprimée et k nuls créés à partir de k niveaux catégoriels!la source
Vous n'avez pas besoin de baisser un niveau, selon votre cas d'utilisation.
Voir
Dans quels cas ne devrions-nous pas supprimer le premier niveau de variables catégorielles?
et la question beaucoup plus générale
En apprentissage supervisé, pourquoi est-il mauvais d'avoir des caractéristiques corrélées?
la source