Faut-il mettre à l'échelle un vecteur chaud avec des attributs numériques

20

Dans le cas d'une combinaison d'attributs catégoriels et numériques, je convertis généralement les attributs catégoriels en un seul vecteur chaud. Ma question est la suivante: dois-je laisser ces vecteurs tels quels et mettre à l'échelle les attributs numériques par le biais de la normalisation / normalisation, ou dois-je mettre à l'échelle l'un des vecteurs chauds avec les attributs numériques?

Suresh Kasipandy
la source

Réponses:

11

Une fois convertis sous forme numérique, les modèles ne répondent pas différemment aux colonnes de codage à chaud qu'à toute autre donnée numérique. Il existe donc un précédent clair pour normaliser les valeurs {0,1} si vous le faites pour une raison quelconque pour préparer d'autres colonnes.

L'effet de cela dépendra de la classe de modèle et du type de normalisation que vous appliquez, mais j'ai remarqué quelques (petites) améliorations lors de la mise à l'échelle à 0, std 1 pour les données catégorielles codées à chaud, lors de la formation des réseaux de neurones.

Cela peut également faire la différence pour les classes de modèles basées sur des mesures de distance.

Malheureusement, comme la plupart de ces types de choix, vous devez souvent essayer les deux approches et choisir celle qui a la meilleure mesure.

Neil Slater
la source
1
Le libellé était un peu flou. Êtes-vous en train de dire que vous normalisez uniquement les colonnes codées à chaud si vous avez normalisé des colonnes non-ohe?
Info5ek
@ Info5ek: Je dis qu'il serait peut- être préférable de normaliser les colonnes codées à chaud, et si vous le faites déjà pour d'autres colonnes, vous pouvez aussi essayer. Il n'y a pas de règles fixes à cela, trop dépend du problème à résoudre.
Neil Slater