Je comprends la logique du codage pour l'analyse des données. Ma question ci-dessous concerne l'utilisation d'un code spécifique.
- Y a-t-il une raison pour laquelle le sexe est souvent codé 0 pour les femmes et 1 pour les hommes?
- Pourquoi ce codage est-il considéré comme «standard»?
- Comparez cela avec Femelle = 1 et Masculin = 2. Y a-t-il un problème avec ce codage?
data-transformation
binary-data
categorical-encoding
units
Adhesh Josh
la source
la source
Réponses:
Raisons de préférer le codage zéro à un des variables binaires:
Points variés sur le codage des variables binaires:
y = a + b * Male
plutôt quey = a + b * Gender
.la source
Cela facilite l'interprétation des résultats. Supposons que vous disposiez de données sur la hauteur:
et vous avez fait une régression du formulaire
Height = a + b * Gender + Residual
.Avec la variable factice 0,1, vous obtiendriez une estimation de
a
170 pour la taille moyenne des femmes etb
de 10 pour la différence entre les hauteurs moyennes des hommes et des femmes.Avec la variable fictive 1,2, vous obtiendriez une estimation
a
de 160, ce qui est plus difficile à interpréter.la source
J'avais supposé que c'était parce que le type de champ souvent utilisé pour stocker le genre est un champ de bits, et les champs de bits dans SQL ne peuvent avoir que les valeurs 0 ou 1. Lorsque vous videz les données, elles apparaissent sous la forme 0 ou 1, et c'est pourquoi vous obtenez ces valeurs particulières.
Si vous voulez utiliser 1 et 2, vous devez utiliser un type de champ plus grand, ce qui prendrait plus de place et rendrait donc la base de données légèrement plus grande.
la source
Un professeur m'a suggéré de coder "biologiquement" avec des femmes de 0 et des hommes de 1 - pour refléter l'anatomie. Je ne pense pas que ce soit la chose la plus sensible, ou PC à dire dans une classe, mais certainement facile à retenir lorsque l'on regarde un ensemble de données 5 ans plus tard.
la source
De nombreuses bonnes raisons ont été affichées jusqu'à présent, mais elles devraient également être réflexives. Pourquoi voudriez-vous commencer à compter à 1? Cela rend beaucoup d'algorithmes numériques beaucoup plus compliqués. L'étiquetage commence à 0, pas à 1. Si vous n'êtes pas encore convaincu de cela, j'ai un bel exemple de pourquoi c'est important sur http://madhadron.com/?p=69
Quant à savoir pourquoi les femmes sont 0 et les hommes 1, rappelons-nous que pendant une grande partie de son histoire, un statisticien était probablement un homme hétéro. Lorsqu'on lui a demandé de nommer un sexe, le premier qui me vient à l'esprit est «femme». Tout ce qui a suivi était probablement un accident historique et une rationalisation.
la source
La norme ISO / IEC 5218 met à jour cette notion avec la carte suivante:
Ceci est particulièrement utile dans les langues où 0 contraint à une valeur fausse, comme en JavaScript:
la source
La façon dont je le vois personnellement est phalliquement 0 représente généralement une femme, car c'est la forme de l'utérus, et considéré comme féminin ... dans presque toutes les sciences (c'est-à-dire dans les tableaux généalogiques de biologie / génétique), ou les zéros représentent les femmes. Alors que les formes plus droites (triangles, carrés ou 1) ont tendance à représenter le sexe masculin. Cette simple compréhension a rendu facile de toujours se rappeler ce qui est pour moi.
Bien qu'à la fin de la journée, si vous êtes le seul à coder et à analyser les données vous-même, vous pouvez mettre les chiffres que vous voulez, généralement tant qu'il y a une clé pour quelle variable fictive vous avez utilisé pour laquelle, cela devient non pertinent.
la source