Besoin de centrer et de standardiser les données en régression

16

Considérez la régression linéaire avec une certaine régularisation: par exemple, trouver qui minimisex||Axb||2+λ||x||1

Habituellement, les colonnes de A sont normalisées pour avoir une moyenne et une norme unitaire nul, tandis que est centrée pour avoir une moyenne nulle. Je veux m'assurer que ma compréhension de la raison de la normalisation et du centrage est correcte.b

En rendant les moyennes des colonnes de et nul, nous n'avons plus besoin d'un terme d'interception. Sinon, l'objectif aurait été . En rendant les normes des colonnes de A égales à 1, nous supprimons la possibilité d'un cas où, simplement parce qu'une colonne de A a une norme très élevée, elle obtient un faible coefficient en , ce qui pourrait nous amener à conclure à tort que cette colonne de A ne pas « expliquer » bien.Ab||Axx01b||2+λ||x||1xX

Ce raisonnement n'est pas exactement rigoureux mais intuitivement, est-ce la bonne façon de penser?

rk2
la source

Réponses:

14

Vous avez raison de mettre à zéro les moyennes des colonnes de et b .UNEb

Cependant, en ce qui concerne l'ajustement des normes des colonnes de , considérez ce qui se passerait si vous débutiez avec un A normalisé , et tous les éléments de x étaient à peu près de la même ampleur. Multiplions ensuite une colonne par, disons, 10 - 6 . L'élément correspondant de x serait, dans une régression non régularisée, augmenté d'un facteur 10 6 . Voir ce qui arriverait au terme de régularisation? La régularisation ne s'appliquerait, à toutes fins pratiques, qu'à ce seul coefficient. UNEUNEXdix-6Xdix6

En normant les colonnes de , nous, en écrivant intuitivement, nous les mettons toutes sur la même échelle. Par conséquent, les différences dans les grandeurs des éléments de x sont directement liées à la "ondulation" de la fonction explicative ( A x ), qui est, en gros, ce que la régularisation tente de contrôler. Sans cela, une valeur de coefficient, par exemple, de 0,1 contre une autre de 10,0 ne vous indiquerait, en l'absence de connaissances sur A , rien sur le coefficient qui contribuait le plus à la "ondulation" de A x . (Pour une fonction linéaire, comme A x , la "ondulation" est liée à l'écart par rapport à 0.)UNEXUNEXUNEUNEXUNEX

Pour revenir à votre explication, si une colonne de a une norme très élevée, et pour une raison quelconque obtient un faible coefficient en x , nous ne conclurions pas que la colonne de A "n'explique" pas bien x . Un "n'explique" pas du tout x . UNEXUNEXUNEX

jbowman
la source
Tu veux dire $x$ does not ''explain'' $A$ well, et tu veux dire x does not ''explain'' $A$ at all? est les données tandis que x est le modèle dans ce cas. UNEX
user3813057
@ user3813057 - c'était une question de régularisation, et cela n'a rien à voir avec le pouvoir explicatif. serait plus généralement étiqueté β , A serait plus généralement étiqueté X , et b serait plus généralement étiqueté y . x n'est pas là pour expliquer A du tout. XβUNEXbyXUNE
jbowman le