J'ai un ensemble de données avec un ensemble de fonctionnalités. Certains d'entre eux sont binaires actif ou renvoyé, inactif ou dormant), et les autres ont une valeur réelle, par exemple .
Je veux alimenter ces données à un algorithme d'apprentissage automatique, donc je -score toutes les fonctionnalités réelles. Je les fais entre les plages et environ. Maintenant, les valeurs binaires sont également notées , donc les zéros deviennent et ceux deviennent .
La normalisation de variables binaires comme celle-ci a-t-elle un sens?
Une variable binaire avec des valeurs 0, 1 peut (généralement) être mise à l'échelle (valeur - moyenne) / SD, qui est probablement votre score z.
La contrainte la plus évidente à ce sujet est que si vous obtenez tous les zéros ou tous les uns, le fait de brancher SD aveuglément signifierait que le score z est indéterminé. Il y a lieu d'affecter également le zéro dans la mesure où la valeur - la moyenne est identique à zéro. Mais beaucoup de choses statistiques n'auront pas beaucoup de sens si une variable est vraiment une constante. Plus généralement, cependant, si l'écart-type est faible, il y a plus de risques que les scores soient instables et / ou mal déterminés.
Un problème pour donner une meilleure réponse à votre question est précisément quel "algorithme d'apprentissage automatique" vous envisagez. Il semble que ce soit un algorithme qui combine des données pour plusieurs variables, et il est donc généralement logique de les fournir à des échelles similaires.
(PLUS TARD) Alors que l'affiche originale ajoute des commentaires un par un, leur question se transforme. Je considère toujours que (valeur - moyenne) / SD a du sens (c'est-à-dire n'est pas absurde) pour les variables binaires tant que le SD est positif. Cependant, la régression logistique a été nommée plus tard comme application et pour cela il n'y a aucun gain théorique ou pratique (et en fait une certaine perte de simplicité) à autre chose que d'introduire des variables binaires à 0, 1. Votre logiciel devrait être capable de bien gérer cette; sinon, abandonnez ce logiciel au profit d'un programme qui le peut. En ce qui concerne la question du titre: peut, oui; devrait, non.
la source
Un bel exemple où il peut être utile de standardiser d'une manière légèrement différente est donné dans la section 4.2 de Gelman et Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). C'est surtout lorsque l'interprétation des coefficients est intéressante, et peut-être quand il n'y a pas beaucoup de prédicteurs.
Là, ils standardisent une variable binaire (avec une proportion égale de 0 et 1) par
la source
Que voulez-vous standardiser, une variable aléatoire binaire ou une proportion?
la source
Dans la régression logistique, les variables binaires peuvent être standardisées pour les combiner avec des variables continues lorsque vous voulez leur donner à tous un a priori non informatif tel que N ~ (0,5) ou Cauchy ~ (0,5). La normalisation est conseillée comme suit: prendre le nombre total et donner
1 = proportion de 1
0 = 1 - proportion de 1.
-----
Edit: En fait je n'avais pas du tout raison, ce n'est pas une standardisation mais un décalage pour être centré sur 0 et différer de 1 dans les conditions inférieure et supérieure, disons qu'une population est de 30% avec l'entreprise A et 70% autre, on peut définir la variable centrée "Société A" pour prendre les valeurs -0,3 et 0,7.
la source