La régression de crête régularise la régression linéaire en imposant une pénalité à la taille des coefficients. Ainsi, les coefficients sont réduits vers zéro et l'un vers l'autre. Mais lorsque cela se produit et si les variables indépendantes n'ont pas la même échelle, le rétrécissement n'est pas juste. Deux variables indépendantes avec des échelles différentes auront des contributions différentes aux termes pénalisés, car le terme pénalisé est une somme de carrés de tous les coefficients. Pour éviter ce genre de problèmes, très souvent, les variables indépendantes sont centrées et mises à l'échelle afin d'avoir la variance 1.
[Modifier plus tard pour répondre au commentaire]
Supposons maintenant que vous ayez une variable indépendante h e i gh t. Maintenant, la taille humaine peut être mesurée en pouces, en mètres ou en kilomètres. Si mesuré en kilomètres, que dans la régression linéaire standard, je pense que cela donnera un terme de coefficient beaucoup plus grand que s'il était mesuré en millimètres.
Le terme de pénalisation avec lambda est le même que l'expression de la fonction de perte carrée par rapport à la somme des coefficients carrés inférieurs ou égaux à une constante donnée. Cela signifie qu'un lambda plus grand donne beaucoup d'espace à la somme au carré des coefficients, et un lambda inférieur un espace plus petit. Un espace plus grand ou plus petit signifie des valeurs absolues plus ou moins grandes des coefficients.
En n'utilisant pas la normalisation, l'adaptation du modèle peut nécessiter de grandes valeurs absolues des coefficients. Bien sûr, nous pourrions avoir une grande valeur de coefficient naturellement, en raison du rôle de la variable dans le modèle. Ce que je déclare, c'est que cette valeur peut avoir une valeur gonflée artificiellement en raison de la non-mise à l'échelle. Ainsi, la mise à l'échelle diminue également le besoin de grandes valeurs de coefficients. Ainsi, la valeur optimale de lambda serait généralement plus petite, ce qui correspond à une somme plus petite de valeurs carrées de coefficients.
Bien que quatre ans en retard, j'espère que quelqu'un en bénéficiera ... D'après ce que j'ai compris, le coeff est le changement de variable cible pour un changement d'unité en variable indépendante (dy / dx). Supposons que nous étudions la relation entre le poids et la taille et que le poids est mesuré en kg. Lorsque nous utilisons des kilomètres pour la hauteur, vous pouvez imaginer la plupart des points de données (pour la taille humaine) emballés étroitement. Ainsi, pour un petit changement fractionnaire de la taille, il y aura un énorme changement de poids (en supposant que le poids augmente avec la hauteur). Le rapport dy / dx sera énorme. D'un autre côté, si la hauteur est mesurée en millimètres, les données seront largement réparties sur les attributs de hauteur. Un changement d'unité dans la taille n'aura aucun changement significatif dans le poids dy / dx sera très petit presque proche de 0.
la source