Remplacement des variables par WoE (Weight of Evidence) dans la régression logistique

14

Il s'agit d'une question concernant une pratique ou une méthode suivie par certains de mes collègues. En faisant un modèle de régression logistique, j'ai vu des gens remplacer des variables catégorielles (ou des variables continues qui sont regroupées) par leur poids de preuve respectif (WoE). Ceci est censé être fait pour établir une relation monotone entre le régresseur et la variable dépendante. Pour autant que je sache, une fois le modèle créé, les variables de l'équation ne sont PAS les variables de l'ensemble de données. Au contraire, les variables de l'équation sont maintenant en quelque sorte l' importance ou le poids des variables dans la ségrégation de la variable dépendante !

Ma question est: comment interpréter maintenant le modèle ou les coefficients du modèle? Par exemple pour l'équation suivante:

log(p1p)=β0+β1x1

on peut dire que est l' augmentation relative du rapport de impair pour 1 unité d'augmentation de la variable x 1 .exp(β1) x1

Mais si la variable est remplacée par son WoE, alors l'interprétation sera changée en: augmentation relative du rapport de cote pour 1 unité d'augmentation de L'IMPORTANCE / POIDS de la variable

J'ai vu cette pratique sur Internet, mais nulle part je n'ai trouvé de réponse à cette question. Ce lien de cette communauté elle - même est lié à une requête quelque peu similaire où quelqu'un a écrit:

WoE affiche une relation linéaire avec le logarithme naturel du rapport de cotes qui est la variable dépendante de la régression logistique. Par conséquent, la question des erreurs de spécification du modèle ne se pose pas dans la régression logistique lorsque nous utilisons WoE au lieu des valeurs réelles de la variable.

Mais je ne comprends toujours pas l'explication. Aidez-moi à comprendre ce qui me manque.

SamRoy
la source
est le rapport de cotes associé avec une augmentation de 1 unité en x 1 , et non "l'augmentation relativedu rapport de cotes associé avec une augmentation de 1 unité en x 1 ". exp(β1)x1x1
gung - Rétablir Monica
Nan. De toute évidence, pour se débarrasser de vous devez prendre le ratio du LHS après l'exponentiationβ0
SamRoy
Les chances sont p / (1-p), donc si p (x) = exp (𝛽0 + 𝛽1x) et p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) notez que p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) et enfin le rapport de cotes p (x + 1) / p (x) = exp (𝛽1) comme indiqué par stats.stackexchange.com/users/7290/gung
hwrd

Réponses:

12

La méthode WoE comprend deux étapes:

1 - pour diviser une variable (continue) en quelques catégories ou pour grouper une variable (discrète) en quelques catégories (et dans les deux cas, vous supposez que toutes les observations d'une même catégorie ont le même effet sur la variable dépendante)
2 - pour calculer WoE valeur pour chaque catégorie (puis les valeurs x d'origine sont remplacées par les valeurs WoE)

La transformation WoE a (au moins) trois effets positifs:
1) Elle peut transformer une variable indépendante afin d'établir une relation monotone avec la variable dépendante. En fait, il fait plus que cela - pour garantir une relation monotone, il suffirait de le "recoder" à n'importe quelle mesure ordonnée (par exemple 1,2,3,4 ...) mais la transformation WoE ordonne en fait les catégories sur une "logistique". "échelle qui est naturelle pour la régression logistique
2) Pour les variables avec trop de valeurs discrètes (peu peuplées), celles-ci peuvent être regroupées en catégories (densément peuplées) et le WoE peut être utilisé pour exprimer des informations pour la catégorie entière
3) L'effet (univarié) de chaque catégorie sur la variable dépendante peut être simplement comparé entre les catégories et entre les variables parce que WoE est une valeur standardisée (par exemple, vous pouvez comparer le WoE des personnes mariées au WoE des travailleurs manuels)

Il présente également (au moins) trois inconvénients:
1) Perte d'informations (variation) due au regroupement de quelques catégories
2) Il s'agit d'une mesure "univariée", de sorte qu'elle ne prend pas en compte la corrélation entre les variables indépendantes
3) Il est facile de manipuler (surajuster) l'effet des variables selon la façon dont les catégories sont créées

Classiquement, les bêtas de la régression (où le x a été remplacé par WoE) ne sont pas interprétés en soi mais ils sont multipliés par WoE pour obtenir un "score" (par exemple le bêta pour la variable "état matrimonial" peut être multiplié par WoE de groupe "personnes mariées" pour voir le score des personnes mariées; bêta pour la variable "profession" peut être multiplié par WoE de "travailleurs manuels" pour voir le score des travailleurs manuels. alors si vous êtes intéressé par le score des travailleurs mariés, vous résumez ces deux scores et voyez combien est l'effet sur le résultat). Plus le score est élevé, plus grande est la probabilité d'un résultat égal à 1.

Cheval du roi Salomon
la source
1
(+1) Pourquoi est-il avantageux de recoder un prédicteur d'avoir une relation monotone avec la réponse?
Scortchi - Réintégrer Monica
1
@Scortchi Je peux penser à un exemple - la variable indépendante est la taille des personnes (mesurée en cm), les gens font du shopping pour de beaux vêtements, la variable dépendante serait un événement binaire - qu'ils puissent ou non acheter des vêtements adaptés et confortables. apparemment, les personnes très petites et très grandes auront du mal à acheter des vêtements appropriés, tandis que les personnes du milieu pourraient le faire facilement. Avec une régression simple (sans interactions et sans transformations), vous ne pouvez modéliser que la probabilité d'acheter des vêtements appropriés augmente ou diminue avec la taille des personnes
King Solomon's Horse
1
Les gens n'utilisent généralement pas de transformations non monotones des prédicteurs - pas dans la modélisation empirique de toute façon. L'inclusion d'interactions peut supprimer ou introduire des relations conditionnelles non monotones, tout comme l'inclusion d'autres prédicteurs. Mais représenter un prédicteur avec une fonction de base polynomiale ou spline est un moyen simple de les prendre en compte; et un autre le classe et le traite désormais comme catégorique, en utilisant par exemple un codage de niveau de référence. La dernière, au moins, est considérablement plus simple que cette transformation WoE; aucun ne partage le détriment de ...
Scortchi
1
... inférence et interprétabilité découlant de la définition d'un prédicteur en termes de réponse; & tous permettent de modéliser une relation conditionnelle non monotone même lorsque la relation marginale est monotone (ou vice versa). Je suppose que ce que je veux dire, c'est que la transformation WoE me semble être une solution à la recherche d'un problème. Existe-t-il une classe de situations où elle produit de meilleures prévisions que les méthodes plus largement utilisées? - bien que ce soit une question différente de celle à laquelle vous avez répondu ici (peut-être stats.stackexchange.com/q/166816/17230 ).
Scortchi - Réintégrer Monica
Et si vous avez déjà des données catégoriques? est donc le seul avantage "à établir une relation monotone"? Il semble que le composant critique de WoE soit en fait dans le processus de binning
information_interchange
7

La raison d'utiliser WOE dans la régression logistique est de générer ce que l'on appelle parfois le classificateur bayésien semi-naïf (SNBC). Le début de ce billet de blog explique assez bien les choses: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Les paramètres bêta du modèle sont le biais linéaire de chaque effet naïf (alias poids de la preuve) en raison de la présence d'autres prédicteurs et ils peuvent être interprétés comme le changement linéaire des cotes logarithmiques des prédicteurs particuliers en raison de la présence de d'autres prédicteurs.

Stephened
la source
1

Weight of Evidence (WoE) est une technique puissante pour effectuer une transformation et une sélection variables. Il est largement utilisé dans la notation du crédit pour mesurer la séparation des bons et des mauvais clients (variables). Avantages :: - Gère les valeurs manquantes Gère les valeurs aberrantes, la transformation est basée sur la valeur logrithmique de la distribution. Pas besoin de variables fictives en utilisant une technique de binning appropriée, il peut établir une relation monotone entre les indépendants et les dépendants.

mono_bin () = utilisé pour les variables numériques. char_bin () = utilisé pour les variables de caractère.

Krishna75
la source