Je lis une présentation et il recommande de ne pas utiliser l'encodage de sortie, mais il est correct avec un encodage à chaud. Je pensais qu'ils étaient tous les deux identiques. Quelqu'un peut-il décrire les différences entre eux?
13
Réponses:
Ils utilisent probablement "encoder un seul" pour faire référence à la stratégie d'Owen Zhang.
De: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories
La colonne codée n'est pas une variable fictive conventionnelle, mais plutôt la réponse moyenne sur toutes les lignes pour ce niveau catégoriel, à l'exclusion de la ligne elle-même. Cela vous donne l'avantage d'avoir une représentation sur une colonne du catégoriel tout en évitant les fuites de réponse directe
Cette photo exprime bien l'idée.
la source