Je suis nouveau au ML. J'ai été informé que la normalisation L2 de la régression des crêtes ne punit pas l'interception. Comme dans la fonction de coût:
dans la plupart des cas (tous les cas?), il vaut mieux ne pas régulariser , car il est peu probable qu'il réduise le sur-ajustement et rétrécisse l'espace des fonctions représentables
qui provient de la dernière réponse de user48956 de Pourquoi un modèle de régression linéaire à interception nulle prédit-il mieux qu'un modèle avec interception?
Je ne sais pas comment résoudre la dérivée de la fonction de coût, car:
et sont différents. Par conséquent, ils ne peuvent pas être mélangés de mon point de vue. Et le dérivé est sur le point,qui contient . Après avoir googlé et consulté les questions sur ce forum, il n'y a toujours aucun moyen pour moi d'obtenir la solution:
Cependant, je pense qu'il existe deux solutions rapides à ce problème:
Tout d'abord, nous n'ajoutons pas la colonne all 1 à . À savoir. C'est-à-dire que nous n'incluons pas du tout l'interception dans le modèle:
Deuxièmement, l'interception est également punie dans la réalité.
La régression logistique de scikit régularise l'interception par défaut.
qui provient encore une fois de la dernière réponse de user48956 de Pourquoi un modèle de régression linéaire à interception nulle prédit-il mieux qu'un modèle avec une interception?
Les deux solutions rapides mènent à la solution
Le dérivé de la normalisation L2 de la régression des crêtes peut-il être réellement résolu ou est-il simplement résolu par des solutions rapides?
Réponses:
Les éléments de l'apprentissage statistique par Hastie et al. souligne dans P63 que:
De plus, il dit:
Bien que je me demande pourquoi The Elements of Statistical Learning suggère d'abord la standardisation des fonctionnalités et que seul le centrage des fonctionnalités est effectué. Peut-être d'accord avec l'exercice 3.5 qui utilise uniquement le centrage des fonctionnalités.
Quoi qu'il en soit, je pense qu'il est juste d'appliquer la standardisation z-score aux fonctionnalités. J'essaie donc maintenant de résoudre la dérivée de la fonction de coût de la régression de crête en suivant la suggestion de l'amibe commentateur ci-dessus. Merci beaucoup à lui!
Tout d'abord, la fonction de coût:
Ainsi, l'ordonnée à l'origine de la régression de crête normalisée est toujoursy¯¯¯ . Par conséquent, si nous centralisons d'abordY en soustrayant sa moyenne (obtenir (yi)′ pour l'exemple de données i ), ne pas inclure toutes les 1 colonne dans X , puis effectuez la normalisation sur X (avoir (X(i)j)′ pour Xj d'exemple de données i ) , la fonction de coût sera simplement
la source