Mes données consistent en plusieurs mesures continues et quelques variables fictives représentant les années pendant lesquelles les mesures ont été effectuées. Maintenant, je veux apprendre un réseau neuronal avec les données. Par conséquent, je normalise zScore toutes les variables, y compris les variables fictives. Cependant, je me demande si c'est une approche raisonnable, car la normalisation des variables muettes modifie leurs plages, ce qui les rend moins comparables si leurs distributions diffèrent. D'un autre côté, la non normalisation des variables factices pourrait également être contestable, car sans normalisation, leur influence sur la sortie des réseaux pourrait être sous-optimale.
Quelle est la meilleure approche pour gérer les variables fictives, les normaliser (zScore) ou les laisser telles quelles?
la source
Réponses:
Une normalisation serait nécessaire si vous effectuez une mesure de similarité.
Les variables fictives agissent par nature comme un commutateur binaire. Le coder comme (0,1) ou (-,5, 0,5) ne devrait pas avoir d'impact sur les relations qu'il présente avec une variable dépendante, si ce que vous essayez de faire est une forme ou une régression ou une classification.
Ce serait important si vous effectuez un cluster car cela dépendrait de l'échelle.
la source
La normalisation des variables factices n'a aucun sens. Habituellement, la normalisation est utilisée lorsque les variables sont mesurées à différentes échelles de sorte qu'une comparaison correcte n'est pas possible. Avec des variables muettes, cependant, on met juste une information binaire dans le modèle et si elle est normalisée, l'information de l'impact d'une année par exemple est perdue.
la source