Confusion liée à la normalisation des données

9

J'essaie d'apprendre un modèle de régression linéaire. Cependant, j'ai une certaine confusion liée à la normalisation des données. J'ai normalisé les caractéristiques / prédicteurs à zéro moyenne et variance unitaire. Dois-je faire de même pour la cible. Si oui, pourquoi?

user34790
la source
1
Pourquoi avez-vous normalisé les fonctionnalités / prédicteurs?
Peter Flom
4
BTW Je pense que «standardiser» est un meilleur terme pour cela.
Scortchi - Réintégrer Monica

Réponses:

6

La normalisation de la cible en régression linéaire n'a pas d'importance. En régression linéaire, votre ajustement sera de la forme Lorsque vos prédicteurs sont centrés, le terme constant sera toujours la moyenne de . Donc, si vous avant d'exécuter une régression, vous obtiendrez juste , mais tous vos autres coefficients resteront inchangés.

y^i=a0+axi.
xia0yiyia0=0

(Cela étant dit, normaliser les prédicteurs --- comme vous le faites actuellement --- est une bonne idée.)

Stefan Wager
la source
1
Pourquoi normaliser les prédicteurs est-il une bonne idée?
Scortchi - Réintégrer Monica
@Stefan. Oui, quand je centre les prédicteurs, j'obtiens le terme constant comme étant la moyenne de y. Mais je n'ai pas compris pourquoi cela devenait la moyenne. Pouvez-vous me dire les maths derrière ça? a0
user34790
2
@Scortchi Normaliser les prédicteurs n'est pas nécessaire, mais peut faciliter l'interprétation des coefficients de la régression: après la normalisation, les gros coefficients correspondent à des prédicteurs importants. De plus, sans normalisation, les coefficients des termes d'interaction peuvent être gravement trompeurs. Cela dit, la normalisation n'affectera pas les prédictions que vous obtenez de votre modèle, donc la normalisation n'a d'importance que si vous avez l'intention d'interpréter les coefficients dans la régression.
Stefan Wager
1
@ user34790 Le calcul est effectué sur pmean.com/10/LeastSquares.html
Stefan Wager