Nous avons beaucoup de bonnes discussions sur la séparation parfaite dans la régression logistique. Telles que, la régression logistique dans R a conduit à une séparation parfaite (phénomène de Hauck-Donner). Maintenant quoi? et le modèle de régression logistique ne converge pas .
Personnellement, je pense toujours que ce n'est pas intuitif pourquoi ce sera un problème et pourquoi l'ajout de la régularisation le corrigera. J'ai fait quelques animations et je pense que ce sera utile. Postez donc sa question et répondez-la moi-même pour la partager avec la communauté.
Réponses:
Une démo 2D avec des données de jouets sera utilisée pour expliquer ce qui se passait pour une séparation parfaite lors de la régression logistique avec et sans régularisation. Les expériences ont commencé avec un ensemble de données qui se chevauchent et nous séparons progressivement deux classes. Le contour et les optima de la fonction objective (perte logistique) seront indiqués dans la sous-figure de droite. Les données et la frontière de décision linéaire sont tracées dans la sous-figure de gauche.
Nous essayons d'abord la régression logistique sans régularisation.
Ensuite, nous essayons la régression logistique avec régularisation L2 (L1 est similaire).
Avec la même configuration, l'ajout d'une très petite régularisation L2 changera les changements de fonction objectif par rapport à la séparation des données.
Dans ce cas, nous aurons toujours l'objectif "convexe". Quelle que soit la séparation des données.
code (j'utilise également le même code pour cette réponse: méthodes de régularisation pour la régression logistique )
la source