Je suis conscient du fait que les variables catégorielles avec k niveaux doivent être codées avec k-1 variables dans le codage factice (de même pour les variables catégorielles à valeurs multiples). Je me demandais combien de problème un codage à chaud (c'est-à-dire en utilisant k variables à la place) sur un codage factice pour différentes méthodes de régression, principalement la régression linéaire, la régression linéaire pénalisée (Lasso, Ridge, ElasticNet), basé sur les arbres (forêts aléatoires , amplificateurs de gradient).
Je sais que dans la régression linéaire, des problèmes de multi-colinéarité se produisent (même si dans la pratique j'ai ajusté la régression linéaire en utilisant OHE sans aucun problème).
Cependant, le codage factice doit-il être utilisé dans chacun d'eux et à quel point les résultats seraient-ils incorrects si l'on utilise un codage à chaud?
Je me concentre sur la prédiction dans les modèles de régression avec plusieurs variables catégorielles (à cardinalité élevée), donc je ne suis pas intéressé par les intervalles de confiance.
Réponses:
La pénalisation rendra le modèle identifiable, mais le codage redondant affectera toujours les valeurs des paramètres de manière étrange, étant donné ce qui précède.
L'effet d'un codage redondant sur un arbre de décision (ou un ensemble d'arbres) sera probablement de surpondérer l'entité en question par rapport aux autres, car il est représenté avec une variable redondante supplémentaire et sera donc choisi plus souvent qu'il ne le serait autrement pour se divise.
la source
Le kodiologue a eu une excellente réponse (+1). Les méthodes de codage à chaud et à codage factice sont les mêmes, en termes de matrice de conception dans le même espace, avec des bases différentes. (bien que l'encodage à chaud ait plus de colonnes)
Par conséquent, si vous vous concentrez sur la précision plutôt que sur l'interprétabilité. Deux méthodes de codage ne font aucune différence.
la source
Je me sens la meilleure réponse à cette question est enterré dans les commentaires par @MatthewDrury, qui stipule qu'il est une différence et que vous devez utiliser la colonne apparemment redondante dans une approche régularisée. @ Le raisonnement de MatthewDrury est
Je pense qu'il a raison.
la source
k
niveaux ou avec desk-1
niveaux selon la situation. En plus de votre déclaration (régularisée / non régularisée), y aurait-il des directives sur quoi faire dans tous les cas?