Ma question est la suivante: devons-nous normaliser l'ensemble de données pour nous assurer que toutes les variables ont la même échelle, entre [0,1], avant d'ajuster la régression logistique. La formule est la suivante:
Mon ensemble de données a 2 variables, elles décrivent la même chose pour deux canaux, mais le volume est différent. Supposons que ce soit le nombre de visites de clients dans deux magasins, vous devez déterminer si un client achète. Parce qu'un client peut visiter les deux magasins, ou deux fois le premier magasin, un deuxième magasin avant de faire un achat. mais le nombre total de visites de clients pour le premier magasin est 10 fois supérieur à celui du deuxième magasin. Quand je corresponds cette régression logistique, sans normalisation, coef(store1)=37, coef(store2)=13
; si je standardise les données, alors coef(store1)=133, coef(store2)=11
. Quelque chose comme ça. Quelle approche a plus de sens?
Et si j'insère un modèle d'arbre de décision? Je sais que les modèles d’arborescence n’ont pas besoin de normalisation car le modèle lui-même l’ajustera d’une manière ou d’une autre. Mais vérifier avec vous tous.
la source
C
changes. So you need to chooseC
after standardising the data.Réponses:
Standardization isn't required for logistic regression. The main goal of standardizing features is to help convergence of the technique used for optimization. For example, if you use Newton-Raphson to maximize the likelihood, standardizing the features makes the convergence faster. Otherwise, you can run your logistic regression without any standardization treatment on the features.
la source
@Aymen is right, you don't need to normalize your data for logistic regression. (For more general information, it may help to read through this CV thread: When should you center your data & when should you standardize?; you might also note that your transformation is more commonly called 'normalizing', see: How to verify a distribution is normalized?) Let me address some other points in the question.
It is worth noting here that in logistic regression your coefficients indicate the effect of a one-unit change in your predictor variable on the log odds of 'success'. The effect of transforming a variable (such as by standardizing or normalizing) is to change what we are calling a 'unit' in the context of our model. Your rawx data varied across some number of units in the original metric. After you normalized, your data ranged from 0 to 1 . That is, a change of one unit now means going from the lowest valued observation to the highest valued observation. The amount of increase in the log odds of success has not changed. From these facts, I suspect that your first variable (133/37≈3.6 original units, and your second variable (11/13≈0.85 original units.
store1
) spannedstore2
) spanned onlyla source
If you use logistic regression with LASSO or ridge regression (as Weka Logistic class does) you should. As Hastie,Tibshirani and Friedman points out (page 82 of the pdf or at page 63 of the book):
Also this thread does.
la source