Il s'agit d'une question concernant une pratique ou une méthode suivie par certains de mes collègues. En faisant un modèle de régression logistique, j'ai vu des gens remplacer des variables catégorielles (ou des variables continues qui sont regroupées) par leur poids de preuve respectif (WoE). Ceci est censé être fait pour établir une relation monotone entre le régresseur et la variable dépendante. Pour autant que je sache, une fois le modèle créé, les variables de l'équation ne sont PAS les variables de l'ensemble de données. Au contraire, les variables de l'équation sont maintenant en quelque sorte l' importance ou le poids des variables dans la ségrégation de la variable dépendante !
Ma question est: comment interpréter maintenant le modèle ou les coefficients du modèle? Par exemple pour l'équation suivante:
on peut dire que est l' augmentation relative du rapport de impair pour 1 unité d'augmentation de la variable x 1 .
Mais si la variable est remplacée par son WoE, alors l'interprétation sera changée en: augmentation relative du rapport de cote pour 1 unité d'augmentation de L'IMPORTANCE / POIDS de la variable
J'ai vu cette pratique sur Internet, mais nulle part je n'ai trouvé de réponse à cette question. Ce lien de cette communauté elle - même est lié à une requête quelque peu similaire où quelqu'un a écrit:
WoE affiche une relation linéaire avec le logarithme naturel du rapport de cotes qui est la variable dépendante de la régression logistique. Par conséquent, la question des erreurs de spécification du modèle ne se pose pas dans la régression logistique lorsque nous utilisons WoE au lieu des valeurs réelles de la variable.
Mais je ne comprends toujours pas l'explication. Aidez-moi à comprendre ce qui me manque.
Réponses:
La méthode WoE comprend deux étapes:
1 - pour diviser une variable (continue) en quelques catégories ou pour grouper une variable (discrète) en quelques catégories (et dans les deux cas, vous supposez que toutes les observations d'une même catégorie ont le même effet sur la variable dépendante)
2 - pour calculer WoE valeur pour chaque catégorie (puis les valeurs x d'origine sont remplacées par les valeurs WoE)
La transformation WoE a (au moins) trois effets positifs:
1) Elle peut transformer une variable indépendante afin d'établir une relation monotone avec la variable dépendante. En fait, il fait plus que cela - pour garantir une relation monotone, il suffirait de le "recoder" à n'importe quelle mesure ordonnée (par exemple 1,2,3,4 ...) mais la transformation WoE ordonne en fait les catégories sur une "logistique". "échelle qui est naturelle pour la régression logistique
2) Pour les variables avec trop de valeurs discrètes (peu peuplées), celles-ci peuvent être regroupées en catégories (densément peuplées) et le WoE peut être utilisé pour exprimer des informations pour la catégorie entière
3) L'effet (univarié) de chaque catégorie sur la variable dépendante peut être simplement comparé entre les catégories et entre les variables parce que WoE est une valeur standardisée (par exemple, vous pouvez comparer le WoE des personnes mariées au WoE des travailleurs manuels)
Il présente également (au moins) trois inconvénients:
1) Perte d'informations (variation) due au regroupement de quelques catégories
2) Il s'agit d'une mesure "univariée", de sorte qu'elle ne prend pas en compte la corrélation entre les variables indépendantes
3) Il est facile de manipuler (surajuster) l'effet des variables selon la façon dont les catégories sont créées
Classiquement, les bêtas de la régression (où le x a été remplacé par WoE) ne sont pas interprétés en soi mais ils sont multipliés par WoE pour obtenir un "score" (par exemple le bêta pour la variable "état matrimonial" peut être multiplié par WoE de groupe "personnes mariées" pour voir le score des personnes mariées; bêta pour la variable "profession" peut être multiplié par WoE de "travailleurs manuels" pour voir le score des travailleurs manuels. alors si vous êtes intéressé par le score des travailleurs mariés, vous résumez ces deux scores et voyez combien est l'effet sur le résultat). Plus le score est élevé, plus grande est la probabilité d'un résultat égal à 1.
la source
La raison d'utiliser WOE dans la régression logistique est de générer ce que l'on appelle parfois le classificateur bayésien semi-naïf (SNBC). Le début de ce billet de blog explique assez bien les choses: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Les paramètres bêta du modèle sont le biais linéaire de chaque effet naïf (alias poids de la preuve) en raison de la présence d'autres prédicteurs et ils peuvent être interprétés comme le changement linéaire des cotes logarithmiques des prédicteurs particuliers en raison de la présence de d'autres prédicteurs.
la source
Weight of Evidence (WoE) est une technique puissante pour effectuer une transformation et une sélection variables. Il est largement utilisé dans la notation du crédit pour mesurer la séparation des bons et des mauvais clients (variables). Avantages :: - Gère les valeurs manquantes Gère les valeurs aberrantes, la transformation est basée sur la valeur logrithmique de la distribution. Pas besoin de variables fictives en utilisant une technique de binning appropriée, il peut établir une relation monotone entre les indépendants et les dépendants.
mono_bin () = utilisé pour les variables numériques. char_bin () = utilisé pour les variables de caractère.
la source