J'ai 2 questions simples sur la régression linéaire:
- Quand est-il conseillé de normaliser les variables explicatives?
- Une fois que l'estimation est réalisée avec des valeurs normalisées, comment peut-on prévoir avec de nouvelles valeurs (comment normaliser les nouvelles valeurs)?
Quelques références seraient utiles.
Réponses:
Bien que la terminologie soit un sujet controversé, je préfère appeler les variables "explicatives", les variables "prédictives".
Quand normaliser les prédicteurs:
Je pense également que le fait de s’appuyer sur des variables standardisées peut détourner l’attention du fait que nous n’avons pas réfléchi à la manière de rendre la métrique d’une variable plus significative pour le lecteur.
Andrew Gelman a beaucoup à dire sur le sujet. Voir sa page sur la normalisation par exemple et Gelman (2008, Stats Med, PDF GRATUIT) en particulier.
Prédiction basée sur la standardisation:
la source
Permettez-moi de vous répondre par une réponse brève. Cela pourrait se chevaucher avec l'excellente réponse écrite auparavant.
Toujours standardiser, cela vous permet d'interpréter mieux la régression, spécialement les coefficients de la régression.
Pour les nouvelles données qui ne sont pas standardisées, je vous recommande de stocker les valeurs que vous avez utilisées pour chaque variable à normaliser, telles que le maximum et le minimum, puis de faire la même transformation que celle que vous aviez effectuée auparavant dans le jeu de données de trou, mais seulement pour cela. seule instance.
la source