Je fais des recherches en utilisant la régression logistique. 10 variables influencent la variable dépendante. L'un des éléments susmentionnés est catégorique (par exemple, livraison express, livraison standard, etc.). Maintenant, je veux classer ces catégories en fonction de la «force» de leur effet sur la variable dépendante.
Ils sont tous significatifs (petite valeur de p), mais je pense que je ne peux pas simplement utiliser la valeur des cotes à des fins de classement. Je dois en quelque sorte déterminer si chaque catégorie est également significativement différente des autres catégories. Est-ce correct?
J'ai lu la possibilité de centrer la variable. Est-ce vraiment une option? Je ne veux pas que le reste de mon modèle soit affecté.
Sortie Stata afin de soutenir mon commentaire sur le post de @ subra:
Average marginal effects Number of obs = 124773
Model VCE : OIM
Expression : Pr(return), predict()
dy/dx w.r.t. : ExpDel
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel | .1054605 .0147972 7.36 0.000 .0798584 .1378626
------------------------------------------------------------------------------
Vous pouvez ajuster le modèle de régression logistique en utilisant une seule variable à la fois et examiner le R2 ajusté.
Celui qui explique la majeure partie de la variance devrait avoir plus d'impact sur le modèle ...
Je ne fais que deviner, pas sûr que ce soit une solution rigoureuse ...
la source
C'est une question courante avec une multitude de réponses. Le plus simple est d'utiliser des fonctionnalités standardisées; la valeur absolue des coefficients qui reviennent peut alors être interprétée de manière approximative comme «plus élevée» = «plus d'influence» sur le log (cotes). Pour la plupart, l'utilisation de scores standard ne devrait pas affecter vos résultats globaux (la courbe ROC devrait être la même; la matrice de confusion devrait être la même en supposant que vous choisissez un seuil de décision comparable). Je calcule généralement la régression dans les deux sens; une fois en utilisant des scores bruts (pour obtenir l'équation de prédiction que j'utiliserai) et une deuxième fois en utilisant des scores standardisés pour voir lesquels sont les plus grands.
En ce qui concerne les prédicteurs catégoriels, je suppose (mais je n'ai pas vérifié) qu'il en va de même lors de l'utilisation de prédicteurs normalisés.
Si vous ne l'avez pas déjà fait, vous devriez également envisager d'utiliser la régularisation: Lasso / crête / filet élastique. Cela aidera les fonctionnalités faibles, non pertinentes ou redondantes à disparaître, vous laissant avec un modèle plus parcimonieux.
la source