Pourquoi devrait-on faire une transformation WOE de prédicteurs catégoriels en régression logistique?

10

Quand la transformation du poids de la preuve (WOE) des variables catégorielles est-elle utile?

L'exemple peut être vu dans la transformation WOE

(Donc, pour une réponse , & un prédicteur catégorique avec catégories, & succès sur essais dans la ème catégorie de ce prédicteur, le WOE pour la ème catégorie est défini commek y j n j j jykyjnjjj

Journalyjjkyjjk(nj-yj)nj-yj

& la transformation consiste à coder chaque catégorie du prédicteur catégorique avec son WOE pour former un nouveau prédicteur continu.)

Je voudrais savoir pourquoi la transformation WOE aide à la régression logistique. Quelle est la théorie derrière cela?

Adam
la source

Réponses:

6

Dans l'exemple auquel vous vous connectez, le prédicteur catégoriel est représenté par une seule variable continue prenant une valeur pour chaque niveau égale aux cotes logarithmiques observées de la réponse à ce niveau (plus une constante):

Journalyjnj-yj+Journaljk(nj-yj)jkyj

Cet obscurcissement ne sert à rien à quoi je peux penser: vous obtiendrez la même réponse prédite que si vous aviez utilisé le codage factice habituel; mais les degrés de liberté sont faux, invalidant plusieurs formes utiles d'inférence sur le modèle.

En régression multiple, avec plusieurs prédicteurs catégoriels à transformer, je suppose que vous calculeriez les WOE pour chacun en utilisant des cotes logarithmiques marginales. Cela changera les réponses prévues; mais comme la confusion n'est pas prise en compte - les cotes logarithmiques conditionnelles ne sont pas une fonction linéaire des cotes logarithmiques marginales - je ne vois aucune raison de supposer qu'il s'agit d'une amélioration, et les problèmes inférentiels demeurent.

Scortchi - Réintégrer Monica
la source
Pouvez-vous expliquer pourquoi les degrés de liberté sont mauvais avec WOE? Ce n'est qu'une transformation, non? Et si nous avions plusieurs variables catégorielles et que nous obtenions WOE pour chacune d'elles une par une? D'après mon expérience, lorsque vous avez de nombreuses variables catégorielles, certains compartiments entre différentes variables se chevauchent beaucoup et vous commencez à voir des coefficients qui sont insignifiants. Et vous devez également transporter plusieurs coefficients.
Adam
1
(1) Une transformation qui dépend de l'évaluation de la relation des prédicteurs à la réponse - quelque chose qui est censé être laissé à la régression. Ainsi, par exemple, la statistique de test du rapport de vraisemblance n'aura pas la même distribution que lorsqu'une transformation est prédéfinie. (2) Bon point! - une régression multiple sur les WOE ne sera pas équivalente à celle sur les variables muettes (sauf si les modèles sont saturés). (3) Et alors? (4) Les coefficients ne sont pas plus lourds que les WOE.
Scortchi - Réintégrer Monica
1

Le classement grossier à l'aide de la mesure du poids des preuves (WoE) présente l'avantage suivant: WoE affiche une relation linéaire avec le logarithme naturel du rapport de cotes qui est la variable dépendante de la régression logistique.
Par conséquent, la question des erreurs de spécification du modèle ne se pose pas dans la régression logistique lorsque nous utilisons WoE au lieu des valeurs réelles de la variable.

α βln(p/1-p)αβWoE(Vuner1)γWoE(Vuner2)ηWoE(Vuner3)

Source: Dans l'un des PPT, mon formateur m'a montré pendant la formation en entreprise.

Srikanth Guhan
la source
1
"Les erreurs de spécification du modèle ne surviennent pas dans la régression logistique lorsque nous utilisons WoE au lieu des valeurs réelles de la variable". Pouvez-vous expliquer / prouver cela mathématiquement?
Adam
Je ne suis pas du domaine de l'analyse des risques, mais la page 131,132 de ce livre semble le dire books.google.co.in/…
Srikanth Guhan
De plus, ce lien prétend la même chose, mais aucune mathématique n'est expliquée analyticbridge.com/forum/topics/…
Srikanth Guhan
Merci pour les liens, mais il est clairement faux que les cotes logarithmiques marginales auxquelles WoE est proportionnel aient une relation linéaire avec les cotes logarithmiques conditionnelles auxquelles la régression logistique se rapporte. La confusion avec d'autres prédicteurs peut même entraîner des catégories de classement WoE différemment.
Scortchi - Réintégrer Monica
1

Les transformations WOE sont utiles lorsque vous avez à la fois des données numériques et catégorielles que vous devez combiner et des valeurs manquantes tout au long desquelles vous souhaitez extraire des informations. Tout convertir en WOE permet de «normaliser» de nombreux types de données différents (même des données manquantes) sur la même échelle de cotes de journal. Ce billet de blog explique assez bien les choses: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Le court de l'histoire est que la régression logistique avec WOE, devrait juste être (et est) appelée un classificateur bayésien semi-naïf (SNBC). Si vous essayez de comprendre l'algorithme, le nom SNBC est, pour moi, beaucoup plus informatif.

Stephened
la source