Quelle est la différence entre un encodage à chaud et un encodage à exclure?

13

Je lis une présentation et il recommande de ne pas utiliser l'encodage de sortie, mais il est correct avec un encodage à chaud. Je pensais qu'ils étaient tous les deux identiques. Quelqu'un peut-il décrire les différences entre eux?

icm
la source
1
Il n'est pas clair (à partir de votre seule question) ce qu'est le laisser-aller. Vous devez le modifier pour donner un pointeur et expliquer brièvement votre compréhension des deux, et pourquoi vous pensez qu'ils sont les mêmes.
Sean Owen

Réponses:

15

Ils utilisent probablement "encoder un seul" pour faire référence à la stratégie d'Owen Zhang.

De: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

La colonne codée n'est pas une variable fictive conventionnelle, mais plutôt la réponse moyenne sur toutes les lignes pour ce niveau catégoriel, à l'exclusion de la ligne elle-même. Cela vous donne l'avantage d'avoir une représentation sur une colonne du catégoriel tout en évitant les fuites de réponse directe

Cette photo exprime bien l'idée. entrez la description de l'image ici

Dex Groves
la source
Votre explication est meilleure que celle de wacax dans le lien référé, merci
Allan Ruin
Salut @Dex Groves, donc l'encodage Leave_one_out pour le test est toujours 0,5?
user7117436
3
Salut! Comme le montre l'image, cet exemple paticulaire concerne un problème de classification. Quelqu'un at-il une expérience avec l'encodage LOO dans un problème de régression? La principale question est de savoir comment agréger la variable cible. Je fais maintenant des expériences et je fais un énorme surajustement avec la moyenne (y).
Alexey Trofimov
1
pour un problème de clustering (non supervisé), est-il possible d'utiliser ce type d'encodage?
enneppi
@AlexeyTrofimov - essayez une agrégation avec une variance plus faible. Je commencerais par un binning différent (comme 1K, 2K, 2M, .. pour les grandes valeurs y int, ou un arrondi à la décimale pour les valeurs y flottantes) => moyenne (bin_f (y))
mork