Quand la transformation du poids de la preuve (WOE) des variables catégorielles est-elle utile?
L'exemple peut être vu dans la transformation WOE
(Donc, pour une réponse , & un prédicteur catégorique avec catégories, & succès sur essais dans la ème catégorie de ce prédicteur, le WOE pour la ème catégorie est défini commek y j n j j j
& la transformation consiste à coder chaque catégorie du prédicteur catégorique avec son WOE pour former un nouveau prédicteur continu.)
Je voudrais savoir pourquoi la transformation WOE aide à la régression logistique. Quelle est la théorie derrière cela?
Le classement grossier à l'aide de la mesure du poids des preuves (WoE) présente l'avantage suivant: WoE affiche une relation linéaire avec le logarithme naturel du rapport de cotes qui est la variable dépendante de la régression logistique.
Par conséquent, la question des erreurs de spécification du modèle ne se pose pas dans la régression logistique lorsque nous utilisons WoE au lieu des valeurs réelles de la variable.
α βl n ( p / 1 - p ) α β Wo E( Va r 1 ) γ Wo E( Va r 2 ) η Wo E( Va r 3 )
Source: Dans l'un des PPT, mon formateur m'a montré pendant la formation en entreprise.
la source
Les transformations WOE sont utiles lorsque vous avez à la fois des données numériques et catégorielles que vous devez combiner et des valeurs manquantes tout au long desquelles vous souhaitez extraire des informations. Tout convertir en WOE permet de «normaliser» de nombreux types de données différents (même des données manquantes) sur la même échelle de cotes de journal. Ce billet de blog explique assez bien les choses: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Le court de l'histoire est que la régression logistique avec WOE, devrait juste être (et est) appelée un classificateur bayésien semi-naïf (SNBC). Si vous essayez de comprendre l'algorithme, le nom SNBC est, pour moi, beaucoup plus informatif.
la source